успокаивающий генеративный воздушный хлеб 🍞☁️
автор говорит, что модель на основе CLIP-guided diffusion, но самого кода пока нет увы
автор говорит, что модель на основе CLIP-guided diffusion, но самого кода пока нет увы
❤29
This media is not supported in your browser
VIEW IN TELEGRAM
У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
👍23
Forwarded from DL in NLP (Vlad Lialin)
OpenAI выпустил DALL-E 2
openai.com/dall-e-2
vimeo.com/692375454
Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.
openai.com/dall-e-2
vimeo.com/692375454
Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE).
Судя по промо-материалам, модель будет доступна по API.
Openai
DALL·E 2
DALL·E 2 is an AI system that can create realistic images and art from a denoscription in natural language.
DL in NLP
OpenAI выпустил DALL-E 2 openai.com/dall-e-2 vimeo.com/692375454 Основная идея: использовать эмбеддинги CLIP для генерации вектора текста, обсуславливаться на этот эмбеддинг при генерации изображения. Для генерации используют не VAE а диффузию (GLIDE). Судя…
jesus christ какая красота, скоро снова можно будет генерить обложки пост-панк альбомов
👍20🤯8🔥4❤3
Forwarded from эйай ньюз
Создать шум из данных – легко, создание же данных из шума есть генеративное моделирование.
Кулибин lucudrains, известный чемпион по скоростной имплементации статей без кода, уже начал в открытую реализовывать DALLE-2 на питорче. Это ваш звездный час, чтобы кинуть пул-реквест, и стать успешным. Любой вклад будет оценен научным комьюнити.
https://github.com/lucidrains/DALLE2-pytorch
Кулибин lucudrains, известный чемпион по скоростной имплементации статей без кода, уже начал в открытую реализовывать DALLE-2 на питорче. Это ваш звездный час, чтобы кинуть пул-реквест, и стать успешным. Любой вклад будет оценен научным комьюнити.
https://github.com/lucidrains/DALLE2-pytorch
👍13🤮2
Недавно вышла статья Large Language Models are Zero-Shot Reasoners, где авторы показывают, что просто добавление «Let’s think step by step» в промт большой языковой модели позволяет ей бустить качество на многих задачах в несколько раз без файнтюна в zero-shot 🤡 И внезапно модель обретает способности к математике и логике, с которыми у LM обычно дикие проблемы. В частности на арифметических задачках датасета MultiArith точность поднимается с 17.7% до 78.7%
🔥41
Вообще попытки в reasoning были в еще нескольких недавних моделях. Например, в гугловской PaLM показывали, что если предоставить в промте цепочку размышлений (chain of thought), то модель прийдет к правильному решению в логических задачах (ну, как теперь оказалось, она и с chain of though сама справится тоже)
Или вот Flamingo просили объяснить, почему картинка смешная, и после ризонинга она приходила к разумному объяснению, даже если сходу она все еще не могла ответить. Кажется, что скоро мы увидим еще статьи, почему с LM и VLM так хорошо работают логические подводки, и не weak AGI ли это
Или вот Flamingo просили объяснить, почему картинка смешная, и после ризонинга она приходила к разумному объяснению, даже если сходу она все еще не могла ответить. Кажется, что скоро мы увидим еще статьи, почему с LM и VLM так хорошо работают логические подводки, и не weak AGI ли это
👍9
Очень интересные вещи происходят в твиттере: один пользователь закинул в dalle mini выдуманное им рандомное слово Crungus. И получил довольно конститентный набор какой-то хтони. Потом оказалось, что у всех запрос Crungus выдает именно эту хтонь
При чем, dalle даже может рисовать Crungus’а в разных сеттингах, например, на отдыхе, на рейве, на свидании, крангуса-младенца, мозаику крангуса…
Выглядит подозрительно, будем следить за развитием событий 🧐
(за ночные кошмары простите меня все)
При чем, dalle даже может рисовать Crungus’а в разных сеттингах, например, на отдыхе, на рейве, на свидании, крангуса-младенца, мозаику крангуса…
Выглядит подозрительно, будем следить за развитием событий 🧐
(за ночные кошмары простите меня все)
🔥35👍6😱3👏1