gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.75K photos
2 videos
3 files
1.36K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
36👍8🤡3
Проверил в Гугле, действительно предлагает. Видимо спрос есть!
😁103🔥6👍41
Системный Блокъ выложил подборку каналов про ML/AI с нами и соседями :)
1🔥9👍65👎1
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

@ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

@seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

@gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

@rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

@boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

@tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

@dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

@sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
👍17🔥135👎5🤯1🥴1
Удивительное рядом. Я только сегодня обнаружил, что популярный в прошлом проект DjVu (помните такой формат книг?) был разработан такими людьми как Leon Bottou, Yann LeCun, Patrick Haffner, Paul Howard, and Yoshua Bengio.

Пруф: https://djvu.sourceforge.net/credits.html

А вы знали?
🤯114👍27💯14😱6🥱1
softmax is not enough (for sharp out-of-distribution)
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu
Статья: https://arxiv.org/abs/2410.01104

Вернёмся к тёплым ламповым обзорам, до которых NotebookLM пока не дотягивает. Сегодня любопытная работа про глубокие внутренности.

Как известно, в дефолтном механизме внимания внутри трансформера используется softmax, через который считаются итоговые веса внимания. Софтмакс переводит вектор логитов с произвольными значениями в вероятностное распределение, где всё суммируется в единицу. Также в софтмаксе может использоваться температура для модификации этого распределения (хорошая визуализация температуры тут https://lukesalamone.github.io/posts/what-is-temperature/).

Софтмакс используется много где, часто на выходах классификаторов, сейчас часто и внутри трансформера. Некоторые исследования связывают его успех с возможностью моделирования схем, в смысле circuits (https://distill.pub/2020/circuits/zoom-in/), внутри трансформера, что полезно для интерпретируемости.

В текущей работе авторы смотрят на режим out-of-distribution, когда обученной модели приходится работать на данных с распределением, отличающимся от встречавшегося в обучении, что особенно важно для reasoning engines. И здесь с софтмаксом проблема.

Возьмём модельный кейс, простую архитектуру с одной головой внимания. Задача -- предсказание элемента с максимальным значением в наборе (max retrieval task). Фичи элемента обрабатываются MLP перед тем, как поступить в блок внимания, а после внимания отправляются в выходной MLP, который делает финальное предсказание. Обучают на множествах размером не более 16 элементов. На инференсе проверяют на размерах сильно больших, до 2^11. Визуализация весов внимания показывает, что всё хорошо на размерах сравнимых с обучением, но дальше картинка портится -- распределение из резкого быстро размывается в сторону равномерного. Эксперимент на обученной Gemma 2B воспроизводит ситуацию, с ростом входа растёт энтропия (как прокси для sharpness) голов. В подтверждение доказывают лемму и теорему о том, что с ростом количества входных элементов и с фиксированным размером входного словаря софтмакс и должен размываться.

Чтобы make softmax great again исправить ситуацию и сделать софтмакс снова резким предлагают использовать адаптивную температуру. Помните, чем ниже температура, тем ближе софтмакс к hard attention, максимально резкому распределению. Но с нулевой температурой трансформеры так себе работают. Применение нулевой температуры к уже обученному трансформеру тоже так себе. Трансформерная голова, которая выучила получать резкое распределение, делает это увеличивая магнитуду весов. А большие магнитуды способствуют оверфиттингу и увеличению вероятности выбрать неправильный токен. Установка температуры в ноль здесь понизит точность.

Мы можем захотеть скорее сделать входные коэффициенты более резкими, и здесь авторы предлагают адаптивную температуру, которая зависит от энтропии входных коэффициентов. Понижение температуры будет монотонно понижать и энтропию.

Чтобы собрать функцию для адаптивной температуры, сначала сгенерили датасет входов, для которых максимальный элемент не получает самую большую вероятность. Нашли при каком значении температуры она при этом максимизируется, и вписали полином четвёртой степени для определения температуры по энтропии. Полученную функцию температуры используют во время инференса. Полученная функция используется как drop-in замена обычного jax.nn.softmax().
👍22🔥7👎1
Я правда не очень понимаю, а просто обучаемая температура не сработает? Она вроде немного параметров добавит, всего одна чиселка на софмтакс. Ну ок, если надо смотреть на входное распределение, то можно MLP поставить, будет больше параметров, но его можно шареным сделать на все софтмаксы. В общем вряд ли биг дил. Я уже много лет назад думал где-нибудь такое попробовать, и наверняка уже сто раз это всё попробовали, вот, сходу нашёл что-то на тему, например, https://arxiv.org/abs/2302.06130. И вообще это было бы логично, обсуждали похожий кейс давно тут https://news.1rj.ru/str/gonzo_ML/364. Непонятно, зачем так сложно и полиномы четвёртой степени…

Anyway, проверили на той же самой max retrieval task, с адаптивной температурой (которая только в инференсе модифицируется) стало чуть и стат.значимо получше. Картинки с визуализацией внимания тоже стали чуть порезче на больших длинах. Но не радикально, я бы сказал.

Также проверили на Gemma 2B и бенчмарке CLRS-Text про algorithmic reasoning (https://arxiv.org/abs/2406.04229). Здесь всё посложнее, в данных много чисел с плавающей точкой, они разбиты на много токенов и фокусироваться на одном правильном здесь не очень полезно. Здесь можно было бы зафитить снова полином по той же процедуре, но для многоголовой джеммы это уже позапутаннее занятие, тут даже разобраться, что головы делают, сложнее. Поэтому здесь температуру берут и выучивают. Вуаля. На большинстве задач действительно лучше.

Мне в целом кажется, что работу такого вот класса если не o1, то o2 или новый вумный клод вполне мог бы уже и сделать, может не сам в одиночку, а в правильной мультиагентной архитектуре. Надо посмотреть, что там AI Scientist (https://arxiv.org/abs/2408.06292) генерил, насколько оно проще по сути, если проще.

В целом своим вкладом авторы больше считают не саму адаптивную температуру как таковую, а факт того, что надо смотреть на альтернативы софтмаксу и думать в свете предложенной теории. У ненормализованных вариантов внимания (включая линейные) сложнее получается ранжировать элементы. Жёсткое или локальное внимание тоже находится за пределами этой теории. Пока эти подходы не принесли крутых результатов в обычных трансформерах, но, возможно, мы просто не научились ещё их готовить. Может какие интересные гибриды подоспеют. Особенно авторы надеются на улучшение reasoning’а.

Такие дела.
👍291
This media is not supported in your browser
VIEW IN TELEGRAM
🫡76👍3