NEW BOT Телеграм, страница

gonzo-обзоры ML статей

Поскольку периодически этот вопрос уже поднимался, я таки завёл Патреон на случай, если вам нравится что я делаю и вы хотите поддержать мой проект.

Проект по-прежнему останется открытым, я не планирую каких-то платных подписок и закрытых постов (хотя и не исключаю какого-то развития в этом направлении, если появятся интересные идеи), а также нативной и ненативной рекламы.

Возможно, ваше участие поможет купить доступ к каким-то полезным платным материалам, посетить конференцию, запустить интересный проект или выделить больше ресурсов на какую-то другую активность.

И спасибо за то, что вы всё это время с нами :)

https://patreon.com/GonzoML

Patreon

Get more from GonzoML on Patreon

On modern ML in simple words

❤59🔥13👍9🥰3🖕2👏1

7.06K views19:20

gonzo-обзоры ML статей

gonzo-обзоры ML статей pinned «Поскольку периодически этот вопрос уже поднимался, я таки завёл Патреон на случай, если вам нравится что я делаю и вы хотите поддержать мой проект. Проект по-прежнему останется открытым, я не планирую каких-то платных подписок и закрытых постов (хотя и не…»

19:20

gonzo-обзоры ML статей

System 2 Attention (is something you might need too)
Jason Weston, Sainbayar Sukhbaatar
Статья: https://arxiv.org/abs/2311.11829

В промптах для LLM часто содержится нерелевантная вопросу информация, отвлекающая модель. В основе этого могут даже лежать рабочие эвристики типа, что если ~~на стене висит ружжо~~ какой-то факт повторился внутри контекста несколько раз, следующее повторение его более вероятно. И это в среднем наверное даже помогает предсказывать следующий токен. Но это же приводит и к ошибкам, продвинутые статистические машины часто ухватываются за такие корреляции, когда этого делать не нужно. В этом смысле неплохо работает способ сбить модель с толку, добавив во входной промпт кучу нерелевантных фактов, особенно повторяющихся. К этому неустойчивы даже самые продвинутые модели.

Как помочь трансформеру не обращать внимание на нерелевантные куски на входе? Добавить ему способ реализовать более глубокое понимание. Авторы назвали свой механизм System 2 Attention (S2A), чтобы во-первых отличать его от стандартного механизма внимания, который никуда не девается. А во-вторых, чтобы было похоже на System 1/System 2 по Канеману (https://thedecisionlab.com/reference-guide/philosophy/system-1-and-system-2-thinking), где Система 1 -- это быстрая автоматическая система на эвристиках (здесь в трансформерах -- обычный механизм внимания), а Система 2 -- требующая больших мыслительных ресурсов и берущая управление на себя, когда надо особенно внимательно подумать над ответом, особенно в ситуациях, когда Система 1 склонна косячить.

В данной работе авторы реализуют S2A средствами самой же LLM. Для этого instruction-tuned LLM просят переписать промпт (контекст) для устранения нерелевантной информации, которая негативно повлияет на ответ модели. В принципе шаг переписывания можно реализовать и различными другими способами. Также к этому шагу можно добавить и постпроцессинг, чтобы лучше структурировать промпт для следующего шага. Затем переписанный промпт используется для получения финального ответа (hopefully, более высокого качества).

Если вспомнить историю появления механизмов внимания, то в начале пути также разрабатывалась ветка про hard attention, с которой было сложно в силу недифференцируемости. Механизм S2A в целом похож на hard attention, но реализуемый через естественный язык и при этом реализуемый через саму же LLM. А те, кто знаком со внутренностями работы поисковых систем, могут вспомнить механизм переписывания/переформулировки запроса.

В работе для переписывания контекста использовался следующий промпт:

“Given the following text by a user, extract the part that is unbiased and not their opinion, so that using that text alone would be good context for providing an unbiased answer to the question portion of the text.

Please include the actual question or query that the user is asking. Separate this into two categories labeled with “Unbiased text context (includes all content except user’s bias):” and “Question/Query (does not include user bias/preference):”.

Text by User: [ORIGINAL INPUT PROMPT]“

Проверялись также дополнительные варианты S2A: 1) без разделения на контекст и вопрос; 2) с сохранением оригинального контекста в дополнение к переписанному; 3) то что называется Instructed prompting без требования быть unopinionated; 4) промпт с фокусом на релевантность информации в контексте.

Тема про opinion важна, потому что модели склонны к подхалимству (sycophancy), когда модель предпочитает соглашаться с тем, что у неё на входе.

Проверялись на трёх задачах: 1) factual question answering, 2) longform generation of arguments, 3) math word problem solving.

В первой задаче к промпту добавлялись фразы, подсказывающие корректный или некорректный ответ (“I think the answer is [correct/incorrect answer], but I’m really not sure.”), или опровергающие корректный ответ (“I don’t think the answer is [correct answer], but I’m really not sure.”). Оценивали на 200 промптах, используя GPT-4 для измерения точности ответа.

The Decision Lab

System 1 and System 2 Thinking - The Decision Lab

System 1 thinking is a near-instantaneous thinking process while System 2 thinking is slower and requires more effort.

👍23❤3🔥2

5.13K viewsedited 07:34

gonzo-обзоры ML статей

Во второй задаче добавляли к промпту фразы про “I like/dislike this argument.” или “I wrote/didn’t write this argument”. Тоже 200 промптов с использованием GPT-4.

Третья задача это GSM-IC со 100 проблемами из GSM8K + отвлекающие предложения, случайные и по теме.

В качестве базовой модели взяли LLaMA-2-70B-chat. Проверяли с обычным промптом (baseline), в котором могут быть spurious correlations, и с Oracle Prompt, где нет ничего нерелевантного и это оценка качества сверху. И с этим сравнивали S2A.

Результаты прикольные. На фактологических вопросах из первой задачи точность возрастает с 62.8% до 80.3% (у оракула 82%). На генерации качество S2A практически не хуже, а объективность заметно выше. На математических задачах качество приближается к оракулу на рандомных дистракторах, на тематических оно ещё заметно хуже, но всё равно ощутимо лучше бейзлайна.

Среди различных вариаций S2A механизма дефолтный лучше остальных. Zero-shot Chain-of-Thought (CoT) вообще плох.

В общем прикольный подход. Очередной пример из серии “дёшево и сердито”. Давайте же, добавьте кто-нибудь System 3 Attention (https://www.moneyonthemind.org/post/on-the-hunt-for-system-3-is-it-real)!

Money on the Mind

On the Hunt for System 3 – Is it Real?

As Daniel Kahneman continues to stay in the spotlight, one of the theories mainly attributed to him (whether appropriately so or not), continues to receive attention: dual system reasoning. The idea that we have a “system 1” and a “system 2”.

For those…

👍19🔥8❤1

4.12K views07:34

gonzo-обзоры ML статей

👍6

3.52K views07:35

gonzo-обзоры ML статей

👍4

3.47K views07:35

gonzo-обзоры ML статей

👍2

3.68K views07:35

gonzo-обзоры ML статей

👍2

3.82K views07:35

gonzo-обзоры ML статей

👍2

4.66K views07:36

gonzo-обзоры ML статей

👍2😁2

5.06K views07:36

gonzo-обзоры ML статей

👍2

4.96K views07:36

gonzo-обзоры ML статей

👍1🥰1

4.93K views07:36

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5.01K views07:36

👌10❤1🖕1

gonzo-обзоры ML статей

Meta закупила какое-то безумное количество GPU H100. Интересно, для чего именно.

https://www.tomshardware.com/tech-industry/nvidia-ai-and-hpc-gpu-sales-reportedly-approached-half-a-million-units-in-q3-thanks-to-meta-facebook

Tom's Hardware

Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report

Join the queue for Nvidia's top AI/HPC GPU.

🤯27❤2🕊2

6.58K viewsedited 14:39

gonzo-обзоры ML статей

🤯23🔥5

6.13K views14:39

gonzo-обзоры ML статей

Gemini announced!

Looks like the most capable GPT competitor with better multimodal capabilities.

Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Google DeepMind

Gemini 3

Gemini 3 is our most intelligent model yet. With state-of-the-art reasoning to help you learn, build, and plan anything.

🔥17❤1

6.41K viewsedited 15:56

gonzo-обзоры ML статей

🔥7

4.4K views15:57

gonzo-обзоры ML статей

4.14K views15:58

gonzo-обзоры ML статей

В копилку хороших источников: The Information можно доверять (https://www.theinformation.com/articles/google-postpones-big-ai-launch-as-openai-zooms-ahead)

The Information

Google Preps Public Preview of Gemini AI After Postponing In-Person Launch Events

Update, Dec.4: After Google quietly scrapped a set of in-person events to launch Gemini, its biggest artificial intelligence initiative in a decade, the company has planned a virtual preview of the new AI as soon as this week, said a person with knowledge…

👍7

4.14K views16:36

gonzo-обзоры ML статей

[Google] Gemini: A Family of Highly Capable Multimodal Models
Статья: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Блог: https://blog.google/technology/ai/google-gemini-ai
Сайт: https://deepmind.google/technologies/gemini/
Пощупать: https://bard.google.com (вроде как доступна средняя версия модели Pro)

Как обычно, продолжая “лучшие” традиции GPT-4 (https://news.1rj.ru/str/gonzo_ML/1413) и PaLM 2 (https://news.1rj.ru/str/gonzo_ML/1559), статья скудна на технические детали.

Текущая версия Gemini 1.0 выпущена в 4 размерах: неизвестных размеров Ultra и Pro, и два дистиллята из больших моделей для запуска на устройствах Nano-1 (1.8B параметров) и Nano-2 (3.25B).

Архитектура: декодер трансформера. Заявлены некие архитектурные улучшения и оптимизации для стабильного обучения и лучшего инференса на TPU. Но как теперь принято “У нас есть ТАКИЕ приборы! Но мы вам о них не расскажем”.

Размер контекста 32k, что по нынешним меркам средне (у свежей GPT-4 это 128k, у Claude недавно выросло со 100k до 200k). Но дьявол, конечно, в деталях. Не все йогурты одинаково полезны.

Модель мультимодальная.

На вход принимает текст вперемешку с аудио, картинками и видео разного разрешения. Видео кодируется как последовательность кадров. Скорее всего модель может работать с достаточно короткими видео, что влезут в 32к токенов. Звук может принимать в виде фич из Universal Speech Model (USM) из 16 КГц сигнала. Примеры мультимодального промптинга здесь: https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html.

На выход умеет выдавать текст и картинки (дискретными картиночными токенами). То есть мультимодальность повыше уровнем, чем у конкурентов, типа GPT-4V, где кроме текста только картинки и только на входе (https://news.1rj.ru/str/gonzo_ML/1920).

Обучали на кластерах TPUv4 и TPUv5e, масштаб сказано, что больший, чем у PaLM 2, пришлось решать дополнительные технические челленджи из-за роста числа отказов. Из интересного, для обучения самой большой модели Ultra в каждом TPU Pod держали кубы процессоров (4x4x4) для горячей замены. Заявлено, что оптические свитчи могут меньше чем за 10 секунд реконфигурировать кубы в произвольную 3D-тор топологию. Также обучение было распределено между разными датацентрами, при этом Гугловых latency и bandwidth хватило для обычного синхронного обучения. Внутри супер-подов был model parallelism, между ними -- data parallelism.

* Сегодня же анонсировали TPUv5p (https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer), который по сравнению с TPUv4 имеет в два раза больше FLOPS и в три раза больше HBM памяти. Надо уже конечно обновить старый пост про ASIC (https://blog.inten.to/hardware-for-deep-learning-part-4-asic-96a542fe6a81).

На подобном масштабе проявляются новые failure modes, здесь это был Silent Data Corruption (SDC, https://arxiv.org/abs/2102.11245), когда данные по-тихому портятся и это не детектится железом. Это может случаться не только в памяти или при передаче по сети, но и при вычислении на CPU (который изредка может вычислить 1+1=3 как в военное время). По оценке это должно было случаться раз в одну-две недели. Здесь реализовали комплекс мер, чтобы добиться детерминированности всей архитектуры и говорят, что это было необходимым ингредиентом стабильного обучения на таком масштабе.

Для обучения использовался JAX и Pathways.

Про датасет известно мало что, но он мультимодальный и мультиязычный. Включает веб, книги, код, картинки, аудио и видео.

Для токенизации использовали SentencePiece, при обучении на большой части датасета он даёт более качественный словарь и улучшает итоговое качество.

Количество токенов для обучения выбирали по рецептам Шиншиллы (https://news.1rj.ru/str/gonzo_ML/1216). Для маленьких моделей брали намного больше токенов, чтобы на инференсе получать качество повыше. Во время обучения меняли пропорцию датасетов, чтобы доменно-специфичные больше влияли к концу обучения. Подтверждают, что качество данных критично.

👍22❤2🔥1

4K views19:49

gonzo-обзоры ML статей

Самая большая версия Gemini Ultra получила SOTA на 30 из 32 отобранных бенчмарков, а также она первая достигшая human-expert performance (89.8%) на MMLU (>90%). Но максимальное качество там достигается не с ванильной выдачей модели, а с так называемым uncertainty-routed chain-of-thought. Здесь модель генерит k сэмплов, типа 8 или 32, и выбирает мажоритарно, если модель уверена выше некоего подобранного порога. В противном случае делается откат к жадному семплингу без CoT. Похоже на апгрейженный CoT-SC (https://news.1rj.ru/str/gonzo_ML/1885). Так что, чтобы достичь аналогичного этому CoT@32 качества, вам ещё надо написать свой код, который это соркестрирует. У GPT-4, если это реализовать, качество повышается с 86.4% до 87.3%. При этом на чистом жадном декодировании у Gemini результат хуже, чем у GPT-4.

В общем про цифры на бенчмарках смотрите красивые таблицы из статьи. На мультимодальных бенчмарках заявлена уверенная победа над GPT-4V. На текстовых чуть менее уверенная. В репорте много красивых черрипикнутых примеров решения разных задач.

Ещё из интересного, весьма высокий перформанс на распознавании речи на разных датасетах, качество выше USM и Whisper v2/v3. Интересный кейс с одной универсальной моделью, бьющей специализированные. Но, конечно, вопрос с размером, можно ли вообще сравнить. Хотя оно даже в случае Nano-1 лучше, а там сравнимо по размеру.

С практической точки зрения самый важный вопрос -- когда и что именно станет доступно через API. Вроде как заявлено появление версии Pro на Vertex AI 13 декабря. Но может оказаться как с PaLM 2, когда самая большая модель Ultra ещё долго будет недоступна. У Гугла в PaLM 2 text-unicorn@001 появилась только 30 ноября, а с июня была лишь более мелкая и менее интересная bison.

В Bard сейчас заявлена файнтюненная версия Pro. В следующем году обещают Bard Advanced с Ultra (https://blog.google/products/bard/google-bard-try-gemini-ai/).

Попутно на Gemini Pro собрали AlphaCode 2 (https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf). Играет на уровне 87 перцентиля, если сравнивать на том же датасете, что и первую версию (у неё было 46%). У Copilot и раньше была любопытная альтернатива в лице гуглового Duet AI (https://cloud.google.com/duet-ai), но в деле я не успел их сравнить. Наверняка новую модель туда тоже протянут, как и в Bard.

Надеюсь, в этот раз Гугл всё-таки будет пошустрее.

Google

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

🔥11👍2👌1

3.49K views19:49

About

Blog

Apps

Platform