NEW BOT Телеграм, страница

я обучала одну модель

Понравился тред о том, какие апдейты касательно GPT-4o OpenAI не показали на презентации, но указали на своем сайте:
1. Очень хорошая генерация текста на картинках (настолько хорошая, что может сама генерировать шрифты, а еще изображения текста с курсивом типа от руки)
2. Text-to-3D из коробки
3. Помимо речи, можно генерировать саунд-эффекты
4. Перенос стиля на изображениях в zero-shot

🔥36

3.7K views19:09

я обучала одну модель

😭 мы никогда не узнаем, что он увидел

Please open Telegram to view this post

VIEW IN TELEGRAM

😢34🤡4

3.64K views23:32

я обучала одну модель

😭 мы никогда не узнаем, что он увидел

Похоже e/acc победил в отдельно взятой компании
(Ян один из создателей RLHF и ко-лид Superalignment)

😢19❤4

3.54K views07:59

я обучала одну модель

Наверняка вам попадались выдержки из недавнего интервью Джона Шульмана (кофаундера OpenAI) на Dwarkesh Podcast. Вернее даже одна конкретная выдержка, где Джон говорит, что его работу искусственный интеллект заменит через 5 лет

Я решила целиком посмотреть интервью, так как Джон достаточно интересный чел: он первый автор в статье про PPO, лидит команду, которая файнтюнит модели в OAI, а после недавних событий еще и видимо alignment на нем. Так что вот список каких-то интересных его тейков:
- Его главный фокус сейчас на том, чтобы научить модели выполнять длинные и сложные задачи, а не решать мелкие таски за один шаг. Например, хочется чтобы модель не просто подсказала тебе код для конкретной функции, а могла по промпту сделать целый репозиторий. С тем, чтобы обучать модели на таких “длинных” задачах много проблем, но одновременно с этим Джон считает это low-hanging fruit. Решать это он предлагает с помощью RL, видимо как-то адаптировав и улучшив текущие методы тренировки
- Fun fact №1: у gpt-3.5 изначально планировался web browsing, но потом оказалось, что своих знаний у модели достаточно для QA, и особого смысла в этом не оказалось
- Fun fact №2: изначально gpt-3.5 вообще не различала, что она может или не может делать (например, она могла сказать, что успешно отправила кому-то письмо или заказала что-то в магазине). Чтобы это пофиксить оказалось достаточно около 30 примеров в датасете для файнтюна!
- Для обучения ChatGPT данные делились на инструкции и чат. При чем, прототипы модели, которые обучались на чат-данных, оказывались более просты в использовании (лучше понимали, что от них хочет пользователь), выдавали более осмысленные ответы и лучше отдавали себе отчет, что они могут и что не могут выполнить. Объяснение этому Джон видит в том, что в формате инструкций задача “complete this text, but in a nice or helpful way” довольно мутная и непонятная, как для разметчиков, которые готовят данные, так потом и для модели. А качественные чат-данные людям было проще собирать и размечать, так как было понятнее, как именно модель должна ответить. Видимо за счет этого был скачок InstructGPT -> ChatGPT
- Интересная интуиция откуда у больших моделей emergent capabilities: можно представить, что когда у нас столько параметров, модель в латентном пространстве развивает много линий размышления параллельно, и повышается шанс, что какая-то из них будет верной (примерно как происходит в MoE)
- Также довольно необычный комментарий касательно Model Spec (это недавний вайтпейпер о том, какое поведение OAI считает желательным и нежелательным) – Джон сказал, что модели должны быть продолжением воли человека и делать, что от них просят, и что OAI не хочет тут занимать патерналистскую позицию и насаждать свои моральные представления. Снова заставляет задуматься о каком-то проигрыше фракции сейфитистов, так как я не могу представить такой ответ от OAI еще пару лет назад….
- Интересное было объяснение тому, почему модель часто выплевывает очень водянистую и обширную статью в ответ на какой-то вопрос: она тренировалась на одном ответе за раз (а не на всей истории диалога), поэтому она пытается уместить всю информацию в одно сообщение, а не ждет от вас каких-то уточняющих вопросов
- Наконец про следующие шаги в разработке моделей Джон отметил проактивность: в идеале пользователь не будет обращаться к модели как к поисковику с какими-то изолированными запросами. Модель скорее должна быть как helpful colleague, который сам тебе может предложить какие-то решения, напомнить о чем-то, и так далее

YouTube

John Schulman (OpenAI Cofounder) — Reasoning, RLHF, & plan for 2027 AGI

John Schulman on how posttraining tames the shoggoth, and the nature of the progress to come...

𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Apple Podcasts: https://podcasts.apple.com/us/podcast/john-schulman-openai-cofounder-reasoning-rlhf-plan/id1516093381?i=1000655679622
* Spotify:…

🔥31👍6❤2🤔2🤡2

25.6K viewsedited 12:35

я обучала одну модель

У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными

В отличие от некоторых предыдущих работ в этой области (например, вот этой от OAI), интерпретировали они не нейроны по-отдельности, а активации. Это важно, потому что логично предположить, что за большинство концептов в LLM отвечают не конкретные нейроны, а какая-то их комбинация. И что скорее всего эта комбинация может быть также размазана между слоями (в limitations к статье отдельно обсуждается cross-layer superposition, кому интересно)

Как конкретно с технической точки зрения находили фичи?
- Активации замеряли в residual stream на каком-то среднем слое сети (каком конкретно не говорят, так как модель проприетарная). Для тех, кто забыл, что такое residual stream (я тоже забыла, не переживайте) – он проходит через все слои трансформера, от входных эмбеддингов до самого последнего линейного слоя. Каждый трансформер-блок (attention-head + MLP) “читает” информацию из него, а результаты его работы плюсуются к этому residual stream, и он итеративно обновляется после после каждого блока. Так что получается, что он “собирает” в себя информацию за последние сколько-то блоков, и логично предположить, что где-то посередине модели он будет в себе содержать какие-то абстрактные идеи и понятия. Попродробнее про residual stream и интуицию за ним можно почитать тут

- Фичи находили с помощью sparse autoencoders. Энкодеру на вход поступает как раз residual stream, который он разворачивает в слой большей размерности. Внутри этого латентного пространства как раз и будут находиться интерпретируемые фичи! Раньше у Anthropic выходила статья, где они это обнаруживали на маленькой игрушечной модели. Помимо того, что декодер учили реконструировать потом по этом фичам активации обратно, еще накидывалась регуляризация, чтобы его веса были в основном sparse (по сути это означает, что каждую активацию, которую мы подаем на вход, мы можем разложить на небольшое количество латентных фич, а остальные занулятся)
После тренировки такой энкодер представляет активации как линейную комбинацию латентных фич, где веса декодера “умножаются” на силу активации

– О данных для обучения SAE особо не говорится в статье, но извлекали фичи из семпла на 10M токенов из The Pile и Common Crawl. В статье пробуются автоэнкодеры трех размеров – 1M, 4M и 34M. В 34M варианте 65% фичей оказались мертыми – они не активировались ни разу на всей выборке

– Чтобы среди всех фичей найти хорошо интерпретируемые, авторы использовали Claude Opus: ему показывали примерно 1000 примеров, где активировалась какая-то фича, с указанием токенов, на которые она реагировала. Opus должен был выдать оценку, есть ли какая-то связь между текстами, или фича не особенно специфичная / не понятно, что именно она отражает. Насколько я понимаю, интерпретацию этих фичей авторы присваивали сами вручную

1/3

я обучала одну модель

Language models can explain neurons in language models 🤔

Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

В чем идея:
1. Берем исследуюемую…

👍20🔥2👌2❤1🤩1😍1

3.29K viewsedited 14:32

я обучала одну модель

Наверное самой известной фичой из этой статьи стала фича моста Золотые Ворота в Сан-Франциско. Как видно из картинки, эта фича детектит описания этого моста, при чем на куче языков и даже на картинках. А при низких значениях активации (= при более низкой специфичности) она в целом детектирует мосты или туристические достопримечательности

На этом же можно посмотреть, как с помощью фичей можно контролировать поведение модели. Во время форвард пасса модели мы можем заменить residual stream c определенного этапа на реконструкцию SAE, где мы “выкрутим” активацию нужной нам фичи на определенное значение (по сути просто умножим на какой-то фактор). Следать так нужно будет во всех последующих слоях и для каждого токена

Так вот, если выкрутить фичу Золотых Ворот в 10 раз, то Claude начнет считать себя мостом Золотые Ворота и сведет любой ваш вопрос к этому мосту. Anthropic даже дали возможность пообщаться с Golden Gate Claude, но сейчас видимо убрали эту модель 😭

Еще некоторые фичи, которые мне понравились:
– Фича, которая перечисляет все районы Лондона
– Несколько фич, которые по сути могут делать хайлайт кода
– Фичи, которые считают элементы в списках
– Фичи, которые находят небезопасный код, например, бэкдоры, и при этом также активируются на картинки со скрытыми камерами, потайными микрофонами, отмычками или всякий прочий spyware

Anthropic по понятным причинам интересуют больше фичи про безопасность. Например, способность находить опасный код, помогать разрабатывать биологическое оружие, намеренно врать людям, стремиться захватить мир и так далее. Авторы надеются, что в будущем можно будет детектировать активацию таких фичей и прекращать генерацию в таком случае

2/3

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6🤯1

4.42K views14:35

я обучала одну модель

Хочется еще упомянуть несколько важных свойств автоэнкодеров, которые авторы обнаружили в статье

– У фичей есть своя геометрическая структура, где похожия фичи оказываются близки к друг другу (что ожидаемо). Например, Золотые Ворота близки ко всем остальным достопримечательностям СФ, а отдаленно они связаны с другими популярными местами, типа статуи Иисуса в Рио-де-Жанейро
– Одинаковые фичи оказываются близки в автоэнкодерах всех размеров. Различие между ними в том, что в больших экодерах происходит feature splitting – если в маленькой модели мы найдем какое-то общее понятие, то в больших модель оно разобъется на что-то более конкретное. Вот тут есть интерактивный UMAP
– Нашелся также и scaling law:
Если концепт появляется один раз на миллиард токенов, то нам нужно пропорционально миллиарду активных фич в SAE, чтобы найти ту, которая бы уникально описывала этот концепт
– Для 82% фичей не нашлось сильно скоррелированных нейронов
– Хотя SAE тренировались только на тексте, они оказались способны реагировать и на картинки!
– Фичи отвечают как за абстрактные, так и за конкретные концепты. Например, одна и та же фича активируется на общие рассуждение о безопасности кода, и на конкретные примеры такого кода
– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния. Я обожаю, когда в статьях такое находят! По-моему это отличная ответчочка на мнение, что LLM это стохастические попугаи и не понимают, что они генерируют

Спасибо, что дочитали этот лонгрид! Мне очень понравилась статья, и если вас тоже заинтриговала тема mechanistic interpretability, авторы предалагют вот этот гайд: https://neelnanda.io/mechanistic-interpretability/getting-started

👍34❤9🔥6

4.94K views14:38

я обучала одну модель

Safety goes brrrrr (жду новую статью от anthropic через полгодика)

🔥19

3.67K viewsedited 19:41

я обучала одну модель

The Platonic Representation Hypothesis
https://arxiv.org/abs/2405.07987

Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными архитектурами, натренированные на разных данных и на разные задачи, сходятся к одному общему представлению реальности (то есть видят хотя бы одну и ту же тень на стене платоновской пещеры)

Чтобы как-то количественно измерить representational alignment, они предлагают довольно простой метод – взять feature vectors, измерить расстояния между комбинациями разных точек, посмотреть насколько близки оказываются эти расстояния среди разных моделей (если конкретно, то берут kNN вокруг точки и смотрят, какое будет пересечение этих множеств у моделей)

Результаты из этого получаются следующие:
1. Модели, которые лучше всего решают Visual Task Adaptation Benchmark, оказываются достаточно сильно заалайнены друг с другом -> алаймент повышается с увеличением способностей моделей

2. Репрезенатции сходятся в нескольких модальностях сразу: чтобы это проверить, брали Wikipedia caption
dataset. Репрезентации языковых моделей использовали, чтобы считать расстояния между описаниями пар картинок, а визуальные модели – между самими изображениями. На графике видно, что взимосвязь между перфомансом языковых моделей и их алайнментом с визуальными моделями линейная

В этой секции авторы упоминаюь другую интересную статью, в которой авторы выяснили, что внутренние визуальные репрезентации LLM настолько хороши, что они могут генерировать изображения и отвечать на вопросы по простым картинкам, если их представить в виде кода, который они могут обрабатывать

3. Языковые модели, которые хорошо заалайнены с визуальными, оказались и лучше на downstream задачах, типа Hellaswag (задания на здравый смысл) и GSM8K (математика)

Почему такой алайнмент происходит? Основное объяснение авторов – constrained optimization. Можно считать, что каждое новое наблюдение и новая задача накладывают ограничения на наш набор весов. Если мы наращиваем объем задач, то остается только небольшое подмножество репрезентаций, которое бы позволило модели решать все эти задачи на достаточно хорошем уровне. Плюс, благодаря регуляризации у нас всегда есть simplicity bias, который ограничивает наше пространство решений еще больше. Теоретический клейм тут как раз в том, что такое оптимальное подмножество в результате должно отражать underlying reality

Под конец статьи есть еще небольшой эксперимент, где авторы показывают, что модели, натренированные предсказывать coocurrence цветов в текстовых и визуальных данных, примерно совпадают с человеческим восприятием цветов (их отдаленности или близости друг к другу). Помимо теоретического аргумента, это также отбивает потенциальный пункт критики, что alignment среди больших моделей наблюдается потому, что они все учится чуть ли не на всем Интернете (в этом тесте использовалиь только маленькие модели)

Очень интересные мысли есть и в дискашене. Например, что делать с информацией, которая существует только в одной модальности (how could an image convey a concept like “I believe in the freedom of speech”)?

👍41🤯8❤2🔥1🐳1

11.6K views14:38

About

Blog

Apps

Platform