AbstractDL – Telegram
AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
Fais ce que dois, advienne, que pourra — пора снова писать про нейронки, а новостей накопилось много:
- Chinchilla
- Flamingo
- Imagen
Ниже я подробно расскажу обо всём этом. И постараюсь больше так долго не пропадать, простите 🤦‍♂️
👍20
Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья
👍29
Flamingo: a Visual Language Model (by DeepMind)

На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).

Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.

Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.

Статья, GitHub
👍29
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)

Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.

И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.

Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).

А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)

Статья, блог, GitHub, colab, DrawBench
👍26
30-миллиардная модель OPT теперь доступна на Hugging Face!

Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗

Статья, GitHub, HuggingFace
👍48
Forwarded from Derp Learning
Удобный интерфейс к text-image датасетам LAION 400m и 5B (400млн и 5млрд картинок соответственно)

Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.

Тык
👍19👎1
GPT-3 умеет в ML!

Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?

Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).

Всё-таки языковые модели могут находить за токенами скрытый смысл 💁‍♂️

Блог, GitHub
👍33
🔥Яндекс выложил YaLM 100B

Cейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Она обучалась 65 дней на 1,7 ТБ текстов на 800 видеокартах A100. На хабре можно почитать подробности её обучения.

GitHub, хабр
👍59👎3
Недообученные нейросети — лучшие feature экстракторы

К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!

VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.

Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.

P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷‍♂️

статья1, статья2
👍55💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥В OpenAI научили нейронку играть в майнкрафт по видео из интернета

Их модель демонстрирует human-level перформанс и даже сама научилась создавать алмазную кирку! А для её создания нужно как минимум 24 тысячи игровых действий 🤯

Step-by-step:
1. Нанять несколько человек и разметить 100 часов игры (нажатия клавиш и движение мышки). Это обошлось всего в 2к$.
2. Обучить на этих данных модель для разметки новых видео.
3. Разметить в тысячу раз больше данных с помощью этой модели.
4. Обучить GPT-like архитектуру, которая по кадрам предсказывает дальнейшие действия игрока (behavioural cloning).
5. Зафайнтюнить эту модель при помощи RL (ppg), где reward даётся за крафтинг новых предметов.

Для борьбы с catastrophic forgetting они добавили KL лосс между старыми весами и новыми — это в несколько раз улучшило результат.

P.S. Вопреки традициям, OpenAI выложили и код и веса моделей! Датасеты тоже обещают скоро опубликовать.

Статья, блог, GitHub
👍44
Typical sampling: идеальный метод генерации текста

Языковые модели (например GPT) предсказывают распределение вероятностей следующего токена, но способов генерации текста из этих распределений очень много и у всех свои недостатки — зацикленность, скучность и даже «галлюцинации».

Оказалось, что главная проблема всех прежних подходов в том, что они ориентировались на перплексию текста и вероятность токенов, а нужно было на условную энтропию — это следует из информационной теории речи. Новый подход позволяет генерировать гораздо более связный, интересный и «человеческий» текст.

Но самое крутое — этот метод уже интегрирован в transformers! Нужно всего лишь добавить параметр генерации typical_p. Чем ниже этот параметр, тем более knowledgeable будет текст, а чем выше, тем более интересным и непредсказуемым.

Подробнее можно почитать тут.

Статья, GitHub
👍45👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Вау! Посмотрите как умеет DALL·E 2! А это всего лишь повторяющийся инпейнтинг типа «zoom-out». То есть сначала по тексту генерируется картинка, а потом несколько раз достраивается её продолжение.

Автор: @too_motion
👍88
Forwarded from AI для Всех
Мета выпустила переводчик на 200 языков.

Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.

Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.

📖 Статья
🗽 Код
👍28
Language Modeling with Pixels

А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.

Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.

В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.

P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.

Статья, GitHub, Hugging Face
👍45
An Image is Worth One Word: превращение картинок в псевдо-слова для использования в text2image

Некоторые концепты сложно выразить существующими словами, их проще показать на примерах. Поэтому в Nvidia предложили использовать гениальный и простой трюк — превращать картинки в «псевдо-слова», а точнее, находить эмбеддинг несуществующего токена (p-tuning), который будет соответствовать требуемому визуальному концепту. Дальше это «псевдо-слово» можно вставлять в текст и генерировать сложные композиции (см. картинку).

Такой техникой можно сгенерировать изображение по тексту:
«A и B держат в руках С в стиле D»,
где A,B,C,D — это псевдотокены с заранее вычисленными по примерам картинок эмбеддингами.

Самое крутое здесь то, что не нужно ничего обучать, можно взять готовую text2image модель (Latent Diffusion) и итеративно вычислить эмбеддинги псевдотокенов для нужных картинок.

Статья, блог, GitHub

P.S. Новость подглядел тут.
👍54
BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот
👍34
Forwarded from эйай ньюз
Multimodal Learning with Transformers: A Survey

Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.

Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.

В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.

❱❱ PDF

@ai_newz
👍18
🔥BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub
👍41
Мудрость древнего Китая и щепотка нейронной магии — встречайте Нейро Конфуция!

Вы уже не ждали, а я доделал замену старому чатботу. Теперь снова есть с кем поболтать 💁‍♂️

@neural_chat_bot
👍75👎3