Data Secrets – Telegram
Data Secrets
78.6K subscribers
6.36K photos
654 videos
20 files
2.65K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Media is too big
VIEW IN TELEGRAM
На YouTube канале Anthropic ночью вышло новое интересное видео про alignment

Присутствовали четверо разработчиков команды элаймента, среди которых был знаменитый Ян Лейке, ушедший из OpenAI вместе с Суцкевером. Видео длится всего 28 минут, посмотреть полностью советуем здесь, а вот основные и самые интересные тейки:

🟦Главная проблема элаймента сегодня – масштабирование. Текущие подходы вроде RLHF и constitutional AI работают для относительно "предсказумых" задач. Но что произойдет, когда модели начнут решать задачи, которые люди не могут проконтролировать напрямую (например, разработка новых белков в биоресерсе)? Такой элаймент пока остается открытым вопросом.

🟦Ризонинг – это еще один челлендж. Сейчас цепочки размышлений моделей понятны и их можно анализировать, потому что модели думают на английском. Но в будущем это изменится, и проверять CoT станет сложнее.

🟦Поэтому два главных и самых перспективных направления ресерча сейчас – это интерпретация фичей (см. пост про исследования стартапа на эту тему №1, №2, №3) и супер-alignment, то есть элаймент сложных автономных систем, которые могут принимать долгосрочные решения. Интерпретация нужна, чтобы контролировать, не врет ли нам модель, не примеряет ли маску послушного гражданина, просто чтобы пройти проверку. А супер-элаймент – это будущее.

🟦Лейке предполагает, что самым вероятным решением для супер-элаймента является делегирование элаймента другим ИИ-моделям, то есть его полная автоматизация. Сейчас исследователи уже пробуют элайнить маленькие модели и заставлять их выравнивать более мощные, но главный вопрос: как быть уверенными, что модель, которой мы доверяем, не саботирует процесс? – все еще открыт.

🟦Для решения этого вопроса, в частности, в Anthropic недавно появились целые команды, одни из которых занимаются анти-элайментом, то есть создают моделей-злюк, а другие берут эти модели и пытаются научиться их "понимать", определять источник проблемы и исправлять ее. Это называется red-blue team.

Еще раз ссылка на полное видео: www.youtube.com/watch?v=IPmt8b-qLgk
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6323🔥21🤯4😁3
В топ-1 Paper of the day на Hugging Face сегодня невероятная статья от Microsoft, в которой они показывают, как научили крошечную модельку математическому ризонингу на уровне o1

Статья называется rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking и в ней на практике доказано, что маленькие модельки даже без дистилляции могут ризонить и решать мат. задачи на уровне передовых моделей от того же OpenAI. Все происходит только за счет хитрого инференса. Подробнее ⬇️

Ключевая идея rStar – уже знакомый нам по многим статьям метод Monte Carlo Tree Search, который выполняет поиск по дереву решений. К слову, у самих HF недавно выходил блогпост-исследование с примерно таким же алгоритмом для ризонинга (вот наш разбор), а еще Alibaba делали подобное (разбор). Короче, идея не новая, даже в AlphaGo и AlphaZero уже был поиск по дереву, но что сделали Microsoft? Они ввели три дополнительных фишки:

🔷 Code-augmented CoT. Вместо исполользования классического Chain-of-Thought (CoT), который часто ошибается в промежуточных шагах, они дополнили его генерацией кода на питоне. Каждый шаг проверяется имплементацией — если что-то ломается, такую ветку просто отбрасывают.

🔷 Process Preference Model (PPM). Вместо громоздкой скучной ручной аннотации данных здесь используется Q-values из поиска по дереву для создания пар предпочтений. Получается попарная оценка ответов с стиле "этот лучше чем этот", а затем PPM оптимизируют через pairwise ranking лосс.

🔷 Self-evolution. Это итеративный процесс, в котором модель обучается на данных, которые она сама же и генерирует. Обратите внимание, что никакая сторонняя модель тут не используется, все на своем топливе. Просто на каждом шаге хорошие ризонинг-траектории попадают в дату, которая используется в следующем цикле. И нет, это не вырождается.

Результаты получили ну очень крутые: на 8 траекториях для поиска rStar-Math улучшила Qwen2.5-Math-7B на бенче MATH с 58.8% до 89.4%, а на 64 — до 90% (это лучше, чем o1-preview на +4.5%). На AIME 2024 в итоге получилось достичь 53.3% (больше, чем o1-preview на +8.7%). Все это, еще раз, на крошке 7B!

Полностью статья лежит тут, код и данные скоро обещают открыть 🍜
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥143👍3623👀2
137

Столько раз на презентации Nvidia на международной выставке CES было произнесено AI. Это примерно раз в 40 секунд 👥

AMD тоже поднапряглись: говорили AI раз в 30 секунд.

Только Intel отстали от тренда. Не дело
Please open Telegram to view this post
VIEW IN TELEGRAM
😁125🔥11👍10🤪3🤨21
Общий объем компьюта, который используется для обучения моделек, увеличился с 2018 года в 10 000 раз 😲

Такими числами в своем новом исследовании нас радуют известные EpochAI. Они установили, что за последние 6 лет объем вычислений рос каждый год в четыре раза.

При этом быстрее всего разрастался размер кластеров (то есть непосредственно количество железа для обучения) – примерно в 1,7 раза в год (40% общего роста).

На втором месте – время обучения. Оно тоже увеличивалось стремительно: в 1,5 раза каждый год. И, конечно, помимо прочего, за шесть лет наши чипы стали сильно лучше: количество FLOP/s, достижимое на обучающем оборудовании, выросло в 8 раз с 2018 года.

Отчет целиком здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5212
DeepSeek: 100 additional authors not shown
Google: подержи мое пиво
😁135🔥35👍18
Meta проиграла суд по делу о нарушении авторских прав в процессе обучения ИИ

Это был один из первых исков, который был подан на корпорацию за обучение моделек на данных, защищенных автоским правом (да, даже считая тысяча и один иск на OpenAI). Его подавали еще в начале 2023 писатели Ричард Кадри и Кристофер Голден, а также комик Сара Сильверман.

Сначала Meta вину отрицали, и говорили, что обучали модели на безобидном датасете Books3 (там 196 000 книг). Однако в ходе разбирательства оказалось... что собирали эти данные в компании с помощью LibGen. Кто не в курсе – это самая известная пиратская либа для скачивания книг, созданная, кстати, в России.

😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23724🤯13👍7👏5😎5😐1👀1
GAN умер; да здравствует GAN!

Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇

Итак, GAN был одной из первых генеративных архитектур. Чем же он плох? Самое главное, нестабильностью: чтобы заставить лосс сойтись, обычно нужно продать дьяволу душу. Есть миллион статей, описывающих кучу трюков для таких танцев с бубном, но это все еще попытки компенсировать фундаментальные недостатки архитектуры.

Здесь же авторы предлагают вообще переосмыслить подход и представляют архитектуру R3GAN. В R3GAN нет эмпирических трюков, как например в StyleGAN2, но зато есть новая функция потерь Relativistic Pairing GAN. Это продолжение идеи о лоссе Relativistic GAN, который был предложен еще давно, но здесь авторы добавили две хитрые регуляризации, и, что самое главное не имперически, а теоретически доказали локальную сходимость. В итоге получаем стабильность + универсальность для разных распределений даты.

В архитектуре тоже кое-что изменилось. Авторы полностью отказались от рудиментов, которые оставались в ганах аж с 2015 (ака нормализация, впрыскивание шума и тд) и добавили современных подходов: заменили стандартные свертки на групповые, добавили больше остаточных блоков в стиле ResNet, увеличили ширину боттлнеков и переделали ресемплинг с помощью билинейной интерполяции (раньше было просто транспонирование сверток).

В итоге R3GAN очень заметно превзошла StyleGAN2 на нескольких датасетах по FID, и даже показывает какие-то конкурентоспособные результаты по сравнению с диффузионными моделями, при этом оставаясь более эффективной с точки зрения вычислительных затрат.

Есть даже демо, потыкать и погенерить можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
100👍59🔥27👏3🫡31
🍯
😁78🔥1910😐10🤨6👍3
Media is too big
VIEW IN TELEGRAM
Вышло крутое полуторачасовое интервью Франсуа Шолле. Ниже – TLDR

Шолле – создатель Keras, ex ведущий исследователь Google DeepMind, автор книги "Deep Learning with Python", а также один из главных создателей того самого бенчмарка ARC AGI и учредитель соревнования ARC Prize. Из Google, он кстати, совсем недавно ушел и планирует открывать собственную компанию. Самое интересное из интервью:

🟦 Умение хорошо отвечать на сложные вопросы само по себе не гарантирует AGI, потому что бывает двух видов:
а) запоминание и применение паттернов, например, обучение алгоритму умножения чисел и его использование (это ближе к тому что умеют классические LLMки);
б) адаптация к новизне, то есть умение рекомпозировать и объединять известные когнитивные блоки для решения новых задач (ближе к o1).
Только если добиться от моделей полноценного ризонинга типа б) можно прийти к AGI (база)

🟦 Бенчмарк ARC AGI – как раз такой инструмент, который может помочь нам отличить а) от б). И по такому принципу должны строиться все современные бенчмарки, потому что, еще раз, просто умение отвечать на сложные вопросы ничего не доказывает, мы должны проверять умение рассуждать.

🟦 Но и с ARC AGI есть свои проблемы: в частности, он все еще недостаточно разнообразный. Кроме того, существуют известные методы, позволяющие восстанавливать содержимое приватного теста через отправку кучи сабмитов, и ARC AGI уязвим. В будущем Шолее планирует это исправить.

🟦 То, каких результатов добивается o1 делает ее абсолютно уникльной моделью, совершившей прорыв в генерализации. "Это уже далеко за рамками классического лубокого обучения" – говорит Шолле.

🟦 По его догадкам, o1 выполняет поиск по дереву в пространстве возможных Chain of Thought. Как устроен этот поиск, до конца не понятно, это может быть Монте-Карло или даже градиентный спуск.

Посмотреть полностью можно здесь (то что нужно в воскресенье)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍4425😁1👌1
Проверь ее, прежде чем жениться ‼️
😁287🔥2913👌10🗿5🤯3💯3👍1👏1
Понедельник
🔥130😁53👍186🫡3🗿3❤‍🔥1
Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов

При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.

Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).

Скорость прогресса иногда просто шокирует

Блогпост | Веса | Репа | Датасет
🔥100👍34😁94🤯1
Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами

Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.

На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка 💀
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚103😁31👍177🔥6🕊5🙈4🫡4🤔2🗿1🦄1
У каждой легенды свои слабости
😁199👍12🔥11💯842💅1
Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint

В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).

Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий

Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?
🔥67🤔24😁16👍13😐10🤪43💅2🤯1
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍3216😐31😁1