Forwarded from Мишин Лернинг
Media is too big
VIEW IN TELEGRAM
🎴 NVIDIA выкатили StyleGAN3
Как и планировалось сегодня NVIDIA выложила в доступ (код и модели) StyleGAN3, который описали 23 июня 2021 в пейпере Alias-Free Generative Adversarial Networks.
Имя StyleGAN3 планировали дать в день публикации кода и моделей.
p.s.: думаю, что на днях мы увидим колаб и поиск в латентщине CLIP’ом
🤖сайт проекта 💻 код 📰 paper
Как и планировалось сегодня NVIDIA выложила в доступ (код и модели) StyleGAN3, который описали 23 июня 2021 в пейпере Alias-Free Generative Adversarial Networks.
Имя StyleGAN3 планировали дать в день публикации кода и моделей.
p.s.: думаю, что на днях мы увидим колаб и поиск в латентщине CLIP’ом
🤖сайт проекта 💻 код 📰 paper
Media is too big
VIEW IN TELEGRAM
Нашел тут анимацию, полученную при помощи StyleGan3, которая удивительно точно передаёт все генеративные особенности этой модели.
Текстуры свободно перемещаются и вращаются по всему кадру, нет выделенных позиций, пульсаций и прочих артефактов старых ГАНов. Просто волшебно)
P.S. Как работает StyleGan3 я писал тут.
Текстуры свободно перемещаются и вращаются по всему кадру, нет выделенных позиций, пульсаций и прочих артефактов старых ГАНов. Просто волшебно)
P.S. Как работает StyleGan3 я писал тут.
Zero-Shot NLP Task Generalization
Huggingface совместно с исследователями из 250(!) институтов представили модель T0, которая обходит GPT-3 и при этом в десятки раз компактнее.
Ещё в статьях про GPT-2 и GPT-3 показали, что языковые модели умеют не только дописывать текст, но и кучу всего классного: QA, summarization, translation и тд. Главное, в правильном формате текст подавать — например, для summarization в конце нужно дописать «TL;DR:» и модель выдаст краткое содержание всего что выше. Это называется prompt engineering, и, по сути, это побочный эффект.
А что если во время обучения сфокусироваться на этом «побочном эффекте»? Авторы статьи создали prompted-task датасет: они взяли все главные NLP бэнчмарки и переписали их в prompted формате. Потом они взяли модель T5 и дообучили на всём этом.
В итоге они получили SOTA почти везде, даже на тех задачах, которые модель никогда не видела (они проверили). Это и есть zero-shot task generalization.
Статья, GitHub, Huggingface
Huggingface совместно с исследователями из 250(!) институтов представили модель T0, которая обходит GPT-3 и при этом в десятки раз компактнее.
Ещё в статьях про GPT-2 и GPT-3 показали, что языковые модели умеют не только дописывать текст, но и кучу всего классного: QA, summarization, translation и тд. Главное, в правильном формате текст подавать — например, для summarization в конце нужно дописать «TL;DR:» и модель выдаст краткое содержание всего что выше. Это называется prompt engineering, и, по сути, это побочный эффект.
А что если во время обучения сфокусироваться на этом «побочном эффекте»? Авторы статьи создали prompted-task датасет: они взяли все главные NLP бэнчмарки и переписали их в prompted формате. Потом они взяли модель T5 и дообучили на всём этом.
В итоге они получили SOTA почти везде, даже на тех задачах, которые модель никогда не видела (они проверили). Это и есть zero-shot task generalization.
Статья, GitHub, Huggingface
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 GPT-CC: GitHub Copilot для бедных
Уже все слышали про GitHub Copilot? Это расширение для VS Code, которое дописывает код за вас. В основе этой штуки лежит нейросеть CodeX, которая по сути является GPT-3.
К сожалению, доступа ни к Copilot, ни к CodeX у простых смертных нет — нужно вставать в waitlist на бета-тестирование.
Так вот, оказывается есть open source версия этих штук! Ребята сами собрали датасет запарсив GitHub и обучили на этом GPT-Neo (аналог GPT-3).
GitHub, dataset, demo, models
Уже все слышали про GitHub Copilot? Это расширение для VS Code, которое дописывает код за вас. В основе этой штуки лежит нейросеть CodeX, которая по сути является GPT-3.
К сожалению, доступа ни к Copilot, ни к CodeX у простых смертных нет — нужно вставать в waitlist на бета-тестирование.
Так вот, оказывается есть open source версия этих штук! Ребята сами собрали датасет запарсив GitHub и обучили на этом GPT-Neo (аналог GPT-3).
GitHub, dataset, demo, models
8-битный оптимизатор (by Facebook)
Твой ноутбук не тянет обучение глубоких трансформеров? А если видео-памяти станет в 4 раза больше? Facebook представил 8-битный оптимизатор, который уменьшает потребление памяти во время обучения на 75%.
8-бит это что-то сверхъестественное. Только представьте, у 32-битных чисел значений больше 4 млрд, а тут их всего 256! Как такое вообще можно оптимизировать😅
Главная хитрость в динамической квантизации, которая адаптируется к каждому тензору с помощью подвижного разделителя мантиссы и порядка в экспоненциальной записи числа.
Для использования этого чуда достаточно всего двух строчек кода (см. картинку). Даже не надо заново гиперпараметры подбирать — судя по экспериментам из статьи, замена оптимизатора почти ни на что не повлияет.
P.S. Советую посмотреть видео, там простым языком описано как это работает (и зачем).
Статья, GitHub, видео
Твой ноутбук не тянет обучение глубоких трансформеров? А если видео-памяти станет в 4 раза больше? Facebook представил 8-битный оптимизатор, который уменьшает потребление памяти во время обучения на 75%.
8-бит это что-то сверхъестественное. Только представьте, у 32-битных чисел значений больше 4 млрд, а тут их всего 256! Как такое вообще можно оптимизировать😅
Главная хитрость в динамической квантизации, которая адаптируется к каждому тензору с помощью подвижного разделителя мантиссы и порядка в экспоненциальной записи числа.
Для использования этого чуда достаточно всего двух строчек кода (см. картинку). Даже не надо заново гиперпараметры подбирать — судя по экспериментам из статьи, замена оптимизатора почти ни на что не повлияет.
P.S. Советую посмотреть видео, там простым языком описано как это работает (и зачем).
Статья, GitHub, видео
Как подружить GPT-3 с математикой
Языковые модели приблизились по своим возможностям к человеку, но у них всё ещё остались проблемы с multi-step reasoning и, особенно, с математикой.
В OpenAI предполагают, что дело в авторегрессионной генерации, ведь если модель чуть-чуть ошибётся в начале своих рассуждений, то и дальше всё пойдёт не так.
Как с этим бороться? Для начала, они создали датасет со школьными задачками и подробными текстовыми решениями. Затем они зафайнтюнили на этом две копии GPT-3: одна училась писать решение, а вторая — проверять правильное это решение или нет. Во время теста вторая модель выбирала лучшее решение из 100 сгенерированных.
Кроме этого, если в рассуждениях модели попадались формальные выражения, например «2+2=» то они автоматически вычислялись и заменялись на правильный ответ (да, это читерство 🤷♂️)
В итоге, получилось приблизиться к способностям живых школьников: 55% vs 60%.
Статья, blog, dataset
Языковые модели приблизились по своим возможностям к человеку, но у них всё ещё остались проблемы с multi-step reasoning и, особенно, с математикой.
В OpenAI предполагают, что дело в авторегрессионной генерации, ведь если модель чуть-чуть ошибётся в начале своих рассуждений, то и дальше всё пойдёт не так.
Как с этим бороться? Для начала, они создали датасет со школьными задачками и подробными текстовыми решениями. Затем они зафайнтюнили на этом две копии GPT-3: одна училась писать решение, а вторая — проверять правильное это решение или нет. Во время теста вторая модель выбирала лучшее решение из 100 сгенерированных.
Кроме этого, если в рассуждениях модели попадались формальные выражения, например «2+2=» то они автоматически вычислялись и заменялись на правильный ответ (да, это читерство 🤷♂️)
В итоге, получилось приблизиться к способностям живых школьников: 55% vs 60%.
Статья, blog, dataset
Коллекция русского мата, классификатор токсичности и детоксификатор
Всё это недавно представили исследователи из Сколтеха совместно с МТС.
Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).
А вот детоксификатор иногда выдаёт странные перлы 🌚
P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁♂️
Статья, GitHub, маты, блог
Всё это недавно представили исследователи из Сколтеха совместно с МТС.
Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).
А вот детоксификатор иногда выдаёт странные перлы 🌚
P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁♂️
Статья, GitHub, маты, блог
🔥Сбер представил ruDALL·E
DALL·E — это крутейшая text2image модель, которая является гибридом GPT и VQVAE. О том как работают такие модели я писал тут.
Вслед за OpenAI и Alibaba, аналогичную модель на русском языке представил и наш Сбер! Есть варианты на 1.3 и 12 млрд параметров.
P.S. Сгенерировал для вас «Рождение вселенной»
GitHub, colab, демо, блог
DALL·E — это крутейшая text2image модель, которая является гибридом GPT и VQVAE. О том как работают такие модели я писал тут.
Вслед за OpenAI и Alibaba, аналогичную модель на русском языке представил и наш Сбер! Есть варианты на 1.3 и 12 млрд параметров.
P.S. Сгенерировал для вас «Рождение вселенной»
GitHub, colab, демо, блог
Размер BPE-словаря влияет на память трансформеров (by Facebook)
Оказалось, что чем крупнее BPE-словарь, тем лучше модель запоминает рандомные синтетические данные, правильнее отвечает на вопросы и чаще воспроизводит фрагменты из обучения.
Эксперименты показали, что дело именно в средней длине токенизированных текстов. Ведь чем больше уникальных токенов, тем короче результат токенизации, а трансформеры лучше воспринимают короткие последовательности.
Но запоминание данных это хорошо или плохо? С одной стороны, это хорошо, потому что модели будет проще вспоминать какие-то факты, но с другой стороны — она может выдать и чьи-то персональные данные (пример). Поэтому вопрос остаётся открытым 🤷♂️
Статья
Оказалось, что чем крупнее BPE-словарь, тем лучше модель запоминает рандомные синтетические данные, правильнее отвечает на вопросы и чаще воспроизводит фрагменты из обучения.
Эксперименты показали, что дело именно в средней длине токенизированных текстов. Ведь чем больше уникальных токенов, тем короче результат токенизации, а трансформеры лучше воспринимают короткие последовательности.
Но запоминание данных это хорошо или плохо? С одной стороны, это хорошо, потому что модели будет проще вспоминать какие-то факты, но с другой стороны — она может выдать и чьи-то персональные данные (пример). Поэтому вопрос остаётся открытым 🤷♂️
Статья
Увидел у Дениса очень интересную идею монетизации адверсариал атак — кто-то продаёт картины, которые классифицируются системами компьютерного зрения как конкретные объекты.
Цены от 90$ до 5000$. Работает c Google Vision api, AWS и Yahoo. Есть категория картин, которые распознаются как порно.
P.S. Может быть тоже что-то такое придумать? У меня уже есть наработки 🤔
Магазин
Цены от 90$ до 5000$. Работает c Google Vision api, AWS и Yahoo. Есть категория картин, которые распознаются как порно.
P.S. Может быть тоже что-то такое придумать? У меня уже есть наработки 🤔
Магазин
Boosting coherence of language models (by Microsoft)
Статья о том, как заставить уже обученные языковые модели лучше понимать дальний контекст.
Идея простая, но удивительно эффективная — чтобы модель лучше понимала старый контекст, нужно уменьшить влияние нового. Для этого через модель прогоняют инпут дважды: сначала целиком, а потом только последние 3-10 слов получая два распределения вероятностей для следующего токена на основе полного и короткого контекстов (см. картинку). Затем первое распределение делят на второе и готово 💁♂️
Несмотря на простоту этого трюка, он даёт огромный прирост (~20%) на LAMBADA тесте, приближая возможности GPT-2 к GPT-3.
Статья, GitHub
Статья о том, как заставить уже обученные языковые модели лучше понимать дальний контекст.
Идея простая, но удивительно эффективная — чтобы модель лучше понимала старый контекст, нужно уменьшить влияние нового. Для этого через модель прогоняют инпут дважды: сначала целиком, а потом только последние 3-10 слов получая два распределения вероятностей для следующего токена на основе полного и короткого контекстов (см. картинку). Затем первое распределение делят на второе и готово 💁♂️
Несмотря на простоту этого трюка, он даёт огромный прирост (~20%) на LAMBADA тесте, приближая возможности GPT-2 к GPT-3.
Статья, GitHub
Оказывается, ruDALL·E неплохо так умеет в pop-art 🤔
Telegram
Нейроэстетика
Энди Уорхол «Модуль 2»
Forwarded from AI для Всех
Masked Autoencoders Are Scalable Vision Learners
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
#selfSupervised #autoencoders #images
Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).
Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).
Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.
📎 Статья
#selfSupervised #autoencoders #images
🔥Palette: одна диффузионная модель и 4 соты (by Google)
Рано или поздно это должно было случиться — гугл представил диффузионную модель, которая умеет почти всё:
- Colorization
- Inpainting
- Uncropping
- JPEG decompression
В каждой задаче их модель значительно обходит все предыдущие решения. Из интересных выводов: self-attention в U-Net очень важен, а L2 лосс лучше чем L1.
P.S. Про диффузионные модели я писал тут.
Статья, блог
Рано или поздно это должно было случиться — гугл представил диффузионную модель, которая умеет почти всё:
- Colorization
- Inpainting
- Uncropping
- JPEG decompression
В каждой задаче их модель значительно обходит все предыдущие решения. Из интересных выводов: self-attention в U-Net очень важен, а L2 лосс лучше чем L1.
P.S. Про диффузионные модели я писал тут.
Статья, блог
Forwarded from BlackVR - VR для бизнеса
This media is not supported in your browser
VIEW IN TELEGRAM
Google AI заопенсорсили 2D\3D трекинг рук (одновременный трекинг нескольких рук, предсказание поз и прочее). Пдфка исследования здесь. Код здесь. Протестировать демо здесь.
LiT : Zero-Shot Transfer with Locked-image Text Tuning
Статья от Google Brain о том, как упростить обучение CLIP (о котором я писал тут). Если коротко, то CLIP — это пара энкодеров (image & text), которые обучены выдавать близкие эмбеддинги для картинок и их описаний.
Авторы статьи предлагают вместо end2end обучения обоих энкодеров учить только текстовую модель, а для картинок взять уже обученную и замороженную (ViT, MLP-Mixer или ResNet). Получается, что текстовая модель учится повторять репрезентации сильной картиночной модели.
Этот трюк на порядки уменьшает необходимое количество данных, упрощает обучение и значительно улучшает перформанс на всех down-stream задачах.
P.S. Удивительно, но даже при ~20 млрд обучающих примеров end2end обучение проигрывает.
Статья
Статья от Google Brain о том, как упростить обучение CLIP (о котором я писал тут). Если коротко, то CLIP — это пара энкодеров (image & text), которые обучены выдавать близкие эмбеддинги для картинок и их описаний.
Авторы статьи предлагают вместо end2end обучения обоих энкодеров учить только текстовую модель, а для картинок взять уже обученную и замороженную (ViT, MLP-Mixer или ResNet). Получается, что текстовая модель учится повторять репрезентации сильной картиночной модели.
Этот трюк на порядки уменьшает необходимое количество данных, упрощает обучение и значительно улучшает перформанс на всех down-stream задачах.
P.S. Удивительно, но даже при ~20 млрд обучающих примеров end2end обучение проигрывает.
Статья
Отличная статья от моей знакомой, про такую вещь как Inductive bias. Если вы часто слышите эти слова, но не понимаете их значение, то обязательно прочитайте.
TL;DR: Inductive bias — это априорные знания о природе данных, которые человек
некоторым образом вкладывает в модель машинного обучения.
TL;DR: Inductive bias — это априорные знания о природе данных, которые человек
некоторым образом вкладывает в модель машинного обучения.
Telegraph
Inductive bias и нейронные сети
В этой статье я расскажу, что такое inductive bias, зачем он нужен и где встречается в машинном обучении. Спойлер: везде. Любая нейросеть имеет inductive bias (даже та, что в человеческом мозге, хе-хе) Также вы узнаете: почему inductive bias — это очень хорошо…