🥑 Professional illustration of grandmother playing cool guitar
Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.
Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.
DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.
CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.
Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)
Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.
p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE
💻git 📄paper
🤖🎓мишин лернинг
Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.
Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.
DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.
CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.
Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)
Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.
p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE
💻git 📄paper
🤖🎓мишин лернинг
Анонс выпуска моего курса Introduction to Deep Learning
Друзья, привет! У меня для вас отличная новость!
📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск
Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing
Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)
+ Трансформеры: GPT, BERT, Vision Transformer (ViT)
+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)
+ Возможность задавать вопросы студентам и мне
⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
Друзья, привет! У меня для вас отличная новость!
📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск
Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing
Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)
+ Трансформеры: GPT, BERT, Vision Transformer (ViT)
+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)
+ Возможность задавать вопросы студентам и мне
⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
YouTube
Introduction to Deep Learning — випуск курсу – 12.08.2021 | Projector
Випускаємо другий набір онлайн курсу Introduction to Deep Learning під кураторством Михайла Константинова.
Протягом курсу наші студенти вивчали і закріплювали теорію на практиці, щоб розуміти, чому мережі влаштовані саме так, навіщо потрібні функції активації…
Протягом курсу наші студенти вивчали і закріплювали теорію на практиці, щоб розуміти, чому мережі влаштовані саме так, навіщо потрібні функції активації…
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangled Lifespan Face Synthesis
Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.
🔮colab
#colab #mishin_learning_colab #neuralart
Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.
🔮colab
#colab #mishin_learning_colab #neuralart
Creating a Space Game with OpenAI Codex
Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!
https://youtu.be/Zm9B-DvwOgw
Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!
https://youtu.be/Zm9B-DvwOgw
YouTube
Creating a Space Game with OpenAI Codex
Learn more: https://openai.com/blog/openai-codex
🤖TRANSFORMER IS ALL YOU NEED
Неделю назад я писал, что начал делать крутой проект. Встречайте:
transformer.community
p.s. все картины на сайте созданы нейронными сетями
Неделю назад я писал, что начал делать крутой проект. Встречайте:
transformer.community
p.s. все картины на сайте созданы нейронными сетями
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Perceiver IO от deepmind бьет SOTA по задаче Optical Flow
Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.
Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.
То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!
Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.
Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.
То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!
В Neural Art проходит моя выставка коллекции «НейроГипс»
Коллекция «НейроГипс» состоит из шестнадцати визуально-семантических модулей, сгенерированных нейронными сетями в жанре CNN: Cyber Neural Noir.
Сам жанр описывает мрачный и привлекательный мир эпохи искусственного интеллекта в сеттинге высокотехнологичного футуристического города, ландшафт которого уже не имеет четких границ между реальностью и виртуальным пространством.
Коллекция «НейроГипс» состоит из шестнадцати визуально-семантических модулей, сгенерированных нейронными сетями в жанре CNN: Cyber Neural Noir.
Сам жанр описывает мрачный и привлекательный мир эпохи искусственного интеллекта в сеттинге высокотехнологичного футуристического города, ландшафт которого уже не имеет четких границ между реальностью и виртуальным пространством.
👾🎨 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Ребята, сделал для вас супер-пупер версию популярного в последние дни colab’а для генерации картин в стиле PixelArt.
🔮 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Что важного в этой версии:
▪️Добавил возможность выбирать разрешение (изначально автор не заложил этого в интерфейсе, и пришлось покостылить, но все ок! наконец-то)
▪️Добавил возможность выбирать модель (ViT-B/32 vs ViT-B/32 + ViT-B/16, ViT-B/32 + ViT-B/16 + ResNet50), по умолчанию стоит quality: draft, это значит, что градиенты текут именно с ViT-B/32, я бы советовал юзать именно его.
▪️Добавил выбор colab pro / colab
Продуктивной генерации!
p.s. возможность выбирать разрешение - реально топ! На картинке: professional pixel art of 2D star wars game in retro neon night city в разных разрешениях
#colab #mishin_learning_colab #neuralart
Ребята, сделал для вас супер-пупер версию популярного в последние дни colab’а для генерации картин в стиле PixelArt.
🔮 Pixel Draw Colab - Мишин Лернинг Resolution Mod
Что важного в этой версии:
▪️Добавил возможность выбирать разрешение (изначально автор не заложил этого в интерфейсе, и пришлось покостылить, но все ок! наконец-то)
▪️Добавил возможность выбирать модель (ViT-B/32 vs ViT-B/32 + ViT-B/16, ViT-B/32 + ViT-B/16 + ResNet50), по умолчанию стоит quality: draft, это значит, что градиенты текут именно с ViT-B/32, я бы советовал юзать именно его.
▪️Добавил выбор colab pro / colab
Продуктивной генерации!
p.s. возможность выбирать разрешение - реально топ! На картинке: professional pixel art of 2D star wars game in retro neon night city в разных разрешениях
#colab #mishin_learning_colab #neuralart
Annotated PyTorch Paper Implementations
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.
💻 nn.labml.ai
👾🎨 Text2PixelArt - Resolution Is All You Need
Коллеги, довел до ума colab для Text2PixelArt и он стал еще лучше, чем позавчера!
Основные апдейты:
▪️Интерфейс. В интерфейсе только текст и разрешение. Остальное уже оптимально подобрано под обычный colab и colab pro. Добавил личные советы.
▪️Оптимизация. Теперь градиенты текут только с ViT-B/32, выходит намного качественнее и быстрее.
▪️Качество картинки. Увеличил num_cuts, отвечающий за батчсайз кропов изображения! Теперь качество выше на порядок! Это стало возможно благодаря, выбору оптимальной архитектуры ViT-B/32
p.s.: Все картинки сгенерировали подписчики и коллеги с работы, используя возможность выбора разрешения. Ребята, спасибо за фидбэк!
- Гарри Поттер пробивает товар на кассе
- Жираф на ролике в скейт парке
- 2D ретро игра по Звездным Войнам
- Пиксельный постер фильма Гарри Поттер
- Чубакка ест банан, глядя на закат
- Космическая одиссея 2001 года
🔮 Text2PixelArt Colab - Мишин Лернинг Resolution Mod
#colab #mishin_learning_colab #neuralart
Коллеги, довел до ума colab для Text2PixelArt и он стал еще лучше, чем позавчера!
Основные апдейты:
▪️Интерфейс. В интерфейсе только текст и разрешение. Остальное уже оптимально подобрано под обычный colab и colab pro. Добавил личные советы.
▪️Оптимизация. Теперь градиенты текут только с ViT-B/32, выходит намного качественнее и быстрее.
▪️Качество картинки. Увеличил num_cuts, отвечающий за батчсайз кропов изображения! Теперь качество выше на порядок! Это стало возможно благодаря, выбору оптимальной архитектуры ViT-B/32
p.s.: Все картинки сгенерировали подписчики и коллеги с работы, используя возможность выбора разрешения. Ребята, спасибо за фидбэк!
- Гарри Поттер пробивает товар на кассе
- Жираф на ролике в скейт парке
- 2D ретро игра по Звездным Войнам
- Пиксельный постер фильма Гарри Поттер
- Чубакка ест банан, глядя на закат
- Космическая одиссея 2001 года
🔮 Text2PixelArt Colab - Мишин Лернинг Resolution Mod
#colab #mishin_learning_colab #neuralart
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент. Серое изображение раскрашивается в цвета таким образом, чтобы с точки зрения эмбеддинга CLIP раскраска была наиболее близка к стилю известных художников. Лосс итеративо уменьшается обновлением цветов. Спектакулярно!
Все-таки мощная штука этот ваш CLIP.
Все-таки мощная штука этот ваш CLIP.
👾🎨 Denis Sexy IT + Мишин Лернинг = Text2PixelArt + Zero-Shot PixelArt Style Transfer
◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.
◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!
Встречайте симбиоз этих двух лучших версий!
p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet
🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT
#colab #mishin_learning_colab #neuralart
◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.
◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!
Встречайте симбиоз этих двух лучших версий!
p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet
🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT
#colab #mishin_learning_colab #neuralart
Будущее за моделями Генералистами
GPT языковые модели-трансформеры были приспособлены для:
▪️Генерации текста и zero/few-shot learning задач nlp: GPT3
▪️Генерации изображений по текстовому описанию (предсказание дискретных токенов dVAE): DALL•E
▪️Генерации кода: Codex
Хотя эти модели прекрасно себя чувствуют в zero-shot, но все они являются специалистами.
Мне видится, что будущее за моделями генералистами — архитектурами, способными решать сразу множество задач. Одна модель для генерации, классификации и перевода: текстов, кода, изображений, видео и аудио, etc.
Тут целых два преимущества:
1. Такие модели смогут получать дополнительные знания, обучаясь на разных доменах (e.g.: SOTA zero-shot классификатор изображений — модель CLIP, Contrastive Language-Image Pre-training)
2. Множество новых задач — одна претрейнутая модель. Задача сформулирована, пару мгновений и задача решена.
Такой подход, скорее всего, будет реализован через GPT-like трансформеры, использующие MoE (e.g.: Switch Transformer) с колоссальным количеством параметров (e.g.: WuDao2.0), с претрейном на ‘всем интернете’ и, возможно, с дополнительными ухищрениями позволяющими справится с квадратичной сложностью механизма внимания и пр. проблемами (e.g.: perceiver-like механизм, обращение к ‘памяти’ для сохранения контекста, возможность обращения к ‘базе знаний’, или даже ограниченная возможность вызова ‘недифференцируемых операций’ таких, как запуск скриптов или обращений к поисковым системами, обучаемых rl методами).
p.s. Предлагаю посмотреть как Codex от OpenAI позволяет не только писать код на естественном языке, но и решать простые математические задачи.
🎬 Giving OpenAI Codex a First Grade Math Test
GPT языковые модели-трансформеры были приспособлены для:
▪️Генерации текста и zero/few-shot learning задач nlp: GPT3
▪️Генерации изображений по текстовому описанию (предсказание дискретных токенов dVAE): DALL•E
▪️Генерации кода: Codex
Хотя эти модели прекрасно себя чувствуют в zero-shot, но все они являются специалистами.
Мне видится, что будущее за моделями генералистами — архитектурами, способными решать сразу множество задач. Одна модель для генерации, классификации и перевода: текстов, кода, изображений, видео и аудио, etc.
Тут целых два преимущества:
1. Такие модели смогут получать дополнительные знания, обучаясь на разных доменах (e.g.: SOTA zero-shot классификатор изображений — модель CLIP, Contrastive Language-Image Pre-training)
2. Множество новых задач — одна претрейнутая модель. Задача сформулирована, пару мгновений и задача решена.
Такой подход, скорее всего, будет реализован через GPT-like трансформеры, использующие MoE (e.g.: Switch Transformer) с колоссальным количеством параметров (e.g.: WuDao2.0), с претрейном на ‘всем интернете’ и, возможно, с дополнительными ухищрениями позволяющими справится с квадратичной сложностью механизма внимания и пр. проблемами (e.g.: perceiver-like механизм, обращение к ‘памяти’ для сохранения контекста, возможность обращения к ‘базе знаний’, или даже ограниченная возможность вызова ‘недифференцируемых операций’ таких, как запуск скриптов или обращений к поисковым системами, обучаемых rl методами).
p.s. Предлагаю посмотреть как Codex от OpenAI позволяет не только писать код на естественном языке, но и решать простые математические задачи.
🎬 Giving OpenAI Codex a First Grade Math Test
YouTube
Giving OpenAI Codex a First Grade Math Test
Learn more: https://openai.com/blog/openai-codex
Нейросеть Codex от OpenAI: увольняйте ваших Data Scientist’ов
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
Будущее наступило! Нейросеть Codex (gpt 3 для генерации кода) позволяет решать data science задачи на естественном языке!
https://youtu.be/Ru5fQZ714x8
YouTube
Data Science with OpenAI Codex
Learn more: https://openai.com/blog/openai-codex
This media is not supported in your browser
VIEW IN TELEGRAM
3D визуализация того, как видят роботы Boston Dynamics
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
Эта анимация представляет собой трехмерную визуализацию, которая показывает то, что видит и планирует робот, перемещаясь по полосе препятствий для паркура.
Отслеживаемые объекты отображаются зеленым цветом и меняют цвет с зеленого на фиолетовый по мере того, как они исчезают из поля зрения сенсоров восприятия робота. Система слежения постоянно оценивает расположение объектов в окружении, а система навигации планирует шаги (они тоже показаны зеленым цветом) относительно этих объектов, используя информацию с карты.
CLIP — Главная нейросеть 2021
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
📄 Детальный разбор CLIP на habr от Мишин Лернинг
Нейросеть CLIP — устойчивый классификатор, который не нужно даже обучать. Кроме того, этой сети нашли десятки разных применений: от нейронного поиска по фото и видео до генеративного искусства, от zero-shot классификации изображений до zero-shot Domain Adaptation для StyleGAN (NADA).
CLIP — это действительно новый взгляд на объединение NLP и CV. Последние несколько лет мы наблюдали триумфы в области обработки естественного языка, и языковые модели действительно наделали много шума, совершив новую революцию и, в очередной раз, отложив новую "зиму" искусственного интеллекта в долгий ящик.
Совсем недавно мы начали наблюдать явление, когда технологии, вроде бы изначально присущие только NLP, стали бить рекорды в компьютерном зрении: Vision Transformers. Теперь методы few-shot и zero-shot learning проникают в сферу компьютерного зрения уже благодаря гибридным nlp и cv моделям.
#сохраненки #статьи #habr
🤖🏆 SimVLM — Новый CLIP
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки
Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод
А самое главное, делать все это в режиме zero-shot (обучение без обучения)!
Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).
Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.
SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.
Скоро сделаю подробный обзор архитектуры.
📄 paper
#sota #paper #multimodal #zeroshot #сохраненки