NEW BOT Телеграм, страница

Data Secrets

В топ-1 Paper of the day на Hugging Face сегодня невероятная статья от Microsoft, в которой они показывают, как научили крошечную модельку математическому ризонингу на уровне o1

Статья называется rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking и в ней на практике доказано, что маленькие модельки даже без дистилляции могут ризонить и решать мат. задачи на уровне передовых моделей от того же OpenAI. Все происходит только за счет хитрого инференса. Подробнее ⬇️

Ключевая идея rStar – уже знакомый нам по многим статьям метод Monte Carlo Tree Search, который выполняет поиск по дереву решений. К слову, у самих HF недавно выходил блогпост-исследование с примерно таким же алгоритмом для ризонинга (вот наш разбор), а еще Alibaba делали подобное (разбор). Короче, идея не новая, даже в AlphaGo и AlphaZero уже был поиск по дереву, но что сделали Microsoft? Они ввели три дополнительных фишки:

🔷

Code-augmented CoT. Вместо исполользования классического Chain-of-Thought (CoT), который часто ошибается в промежуточных шагах, они дополнили его генерацией кода на питоне. Каждый шаг проверяется имплементацией — если что-то ломается, такую ветку просто отбрасывают.

🔷

Process Preference Model (PPM). Вместо громоздкой скучной ручной аннотации данных здесь используется Q-values из поиска по дереву для создания пар предпочтений. Получается попарная оценка ответов с стиле "этот лучше чем этот", а затем PPM оптимизируют через pairwise ranking лосс.

🔷

Self-evolution. Это итеративный процесс, в котором модель обучается на данных, которые она сама же и генерирует. Обратите внимание, что никакая сторонняя модель тут не используется, все на своем топливе. Просто на каждом шаге хорошие ризонинг-траектории попадают в дату, которая используется в следующем цикле. И нет, это не вырождается.

Результаты получили ну очень крутые: на 8 траекториях для поиска rStar-Math улучшила Qwen2.5-Math-7B на бенче MATH с 58.8% до 89.4%, а на 64 — до 90% (это лучше, чем o1-preview на +4.5%). На AIME 2024 в итоге получилось достичь 53.3% (больше, чем o1-preview на +8.7%). Все это, еще раз, на крошке 7B!

Полностью статья лежит тут, код и данные скоро обещают открыть 🍜

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥143👍36❤23👀2

18.2K views13:45

Data Secrets

137

Столько раз на презентации Nvidia на международной выставке CES было произнесено AI. Это примерно раз в 40 секунд 👥

AMD тоже поднапряглись: говорили AI раз в 30 секунд.

Только Intel отстали от тренда. Не дело

Please open Telegram to view this post

VIEW IN TELEGRAM

😁125🔥11👍10🤪3🤨2❤1

15.9K views17:12

Data Secrets

137 Столько раз на презентации Nvidia на международной выставке CES было произнесено AI. Это примерно раз в 40 секунд 👥 AMD тоже поднапряглись: говорили AI раз в 30 секунд. Только Intel отстали от тренда. Не дело

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Инвесторы дуреют с этой прикормки

😁244👏16👍13❤2😍1

17.8K views19:18

Data Secrets

Общий объем компьюта, который используется для обучения моделек, увеличился с 2018 года в 10 000 раз

😲

Такими числами в своем новом исследовании нас радуют известные EpochAI. Они установили, что за последние 6 лет объем вычислений рос каждый год в четыре раза.

При этом быстрее всего разрастался размер кластеров (то есть непосредственно количество железа для обучения) – примерно в 1,7 раза в год (40% общего роста).

На втором месте – время обучения. Оно тоже увеличивалось стремительно: в 1,5 раза каждый год. И, конечно, помимо прочего, за шесть лет наши чипы стали сильно лучше: количество FLOP/s, достижимое на обучающем оборудовании, выросло в 8 раз с 2018 года.

Отчет целиком здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

👍52❤12

15.7K viewsedited 06:40

Data Secrets

DeepSeek: 100 additional authors not shown
Google: подержи мое пиво

😁135🔥35👍18

13.8K views09:21

Data Secrets

Meta проиграла суд по делу о нарушении авторских прав в процессе обучения ИИ

Это был один из первых исков, который был подан на корпорацию за обучение моделек на данных, защищенных автоским правом (да, даже считая тысяча и один иск на OpenAI). Его подавали еще в начале 2023 писатели Ричард Кадри и Кристофер Голден, а также комик Сара Сильверман.

Сначала Meta вину отрицали, и говорили, что обучали модели на безобидном датасете Books3 (там 196 000 книг). Однако в ходе разбирательства оказалось... что собирали эти данные в компании с помощью LibGen. Кто не в курсе – это самая известная пиратская либа для скачивания книг, созданная, кстати, в России.

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁237❤24🤯13👍7👏5😎5😐1👀1

15.1K views14:03

Data Secrets

GAN умер; да здравствует GAN!

Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇

Итак, GAN был одной из первых генеративных архитектур. Чем же он плох? Самое главное, нестабильностью: чтобы заставить лосс сойтись, обычно нужно продать дьяволу душу. Есть миллион статей, описывающих кучу трюков для таких танцев с бубном, но это все еще попытки компенсировать фундаментальные недостатки архитектуры.

Здесь же авторы предлагают вообще переосмыслить подход и представляют архитектуру R3GAN. В R3GAN нет эмпирических трюков, как например в StyleGAN2, но зато есть новая функция потерь Relativistic Pairing GAN. Это продолжение идеи о лоссе Relativistic GAN, который был предложен еще давно, но здесь авторы добавили две хитрые регуляризации, и, что самое главное не имперически, а теоретически доказали локальную сходимость. В итоге получаем стабильность + универсальность для разных распределений даты.

В архитектуре тоже кое-что изменилось. Авторы полностью отказались от рудиментов, которые оставались в ганах аж с 2015 (ака нормализация, впрыскивание шума и тд) и добавили современных подходов: заменили стандартные свертки на групповые, добавили больше остаточных блоков в стиле ResNet, увеличили ширину боттлнеков и переделали ресемплинг с помощью билинейной интерполяции (раньше было просто транспонирование сверток).

В итоге R3GAN очень заметно превзошла StyleGAN2 на нескольких датасетах по FID, и даже показывает какие-то конкурентоспособные результаты по сравнению с диффузионными моделями, при этом оставаясь более эффективной с точки зрения вычислительных затрат.

Есть даже демо, потыкать и погенерить можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤100👍59🔥27👏3🫡3⚡1

15K views08:23

Data Secrets

🍯

😁78🔥19❤10😐10🤨6👍3

13.4K views13:42

Вышло крутое полуторачасовое интервью Франсуа Шолле. Ниже – TLDR

Шолле – создатель Keras, ex ведущий исследователь Google DeepMind, автор книги "Deep Learning with Python", а также один из главных создателей того самого бенчмарка ARC AGI и учредитель соревнования ARC Prize. Из Google, он кстати, совсем недавно ушел и планирует открывать собственную компанию. Самое интересное из интервью:

🟦

Умение хорошо отвечать на сложные вопросы само по себе не гарантирует AGI, потому что бывает двух видов:
а) запоминание и применение паттернов, например, обучение алгоритму умножения чисел и его использование (это ближе к тому что умеют классические LLMки);
б) адаптация к новизне, то есть умение рекомпозировать и объединять известные когнитивные блоки для решения новых задач (ближе к o1).
Только если добиться от моделей полноценного ризонинга типа б) можно прийти к AGI (база)

🟦 Бенчмарк ARC AGI – как раз такой инструмент, который может помочь нам отличить а) от б). И по такому принципу должны строиться все современные бенчмарки, потому что, еще раз, просто умение отвечать на сложные вопросы ничего не доказывает, мы должны проверять умение рассуждать.

🟦 Но и с ARC AGI есть свои проблемы: в частности, он все еще недостаточно разнообразный. Кроме того, существуют известные методы, позволяющие восстанавливать содержимое приватного теста через отправку кучи сабмитов, и ARC AGI уязвим. В будущем Шолее планирует это исправить.

🟦 То, каких результатов добивается o1 делает ее абсолютно уникльной моделью, совершившей прорыв в генерализации. "Это уже далеко за рамками классического лубокого обучения" – говорит Шолле.

🟦 По его догадкам, o1 выполняет поиск по дереву в пространстве возможных Chain of Thought. Как устроен этот поиск, до конца не понятно, это может быть Монте-Карло или даже градиентный спуск.

Посмотреть полностью можно здесь (то что нужно в воскресенье)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥71👍44❤25😁1👌1

14.4K views09:42

Data Secrets

Проверь ее, прежде чем жениться ‼️

😁287🔥29❤13👌10🗿5🤯3💯3👍1👏1

15K views14:23

Data Secrets

Понедельник

🔥130😁53👍18❤6🫡3🗿3❤‍🔥1

13.5K views07:21

Data Secrets

Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов

При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.

Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).

Скорость прогресса иногда просто шокирует

Блогпост | Веса | Репа | Датасет

🔥100👍34😁9❤4🤯1

14.5K views08:57

Data Secrets

Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами

Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.

На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚103😁31👍17❤7🔥6🕊5🙈4🫡4🤔2🗿1🦄1

16.7K views12:24

Data Secrets

У каждой легенды свои слабости

😁199👍12🔥11💯8❤4☃2💅1

14.3K views17:08

Data Secrets

Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint

В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).

Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий

Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?

🔥67🤔24😁16👍13😐10🤪4❤3💅2🤯1

14.6K viewsedited 08:18

Data Secrets

У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥114👍32❤16😐3⚡1😁1

27.4K views11:41

About

Blog

Apps

Platform