NEW BOT Телеграм, страница

Data Secrets

Зацените, на что мы случайно наткнулись на гитхабе: мемориальная доска бенчмарков "Killed by LLM"

Проект создан пару недель назад неким Робом Копелем и представляет из себя кладбище бенчмарков, которые были пройдены модельками. Бенчмарк считается убитым, если больше не способен служить индикатором передовых достижений. То есть, даже если эти тесты остаются важными и значимыми, высокий скор какой-то новой модели на них больше не означает, что мы вышли на новый уровень возможностей ИИ.

Среди погибших в этом году числятся ARC-AGI, MATH, Human Eval и др. Вот, что пишет автор в ридми:

Этот проект создан, чтобы немного развлечь нас и напомнить о впечатляющем прогрессе, которого мы достигли — большей части из этого я даже не надеялся увидеть при своей жизни.

Вот он, идеальный новогодний пет-проект. Следим за тем, как мемориал будет расти в 2025:

r0bk.github.io/killedbyllm/

❤115🔥34👍22❤‍🔥3👻3🙈1

13.5K viewsedited 10:38

Data Secrets

Google DeepMind, видимо, планируют искать свои собственные пути скейлить модельки

Мы заметили, что буквально на днях они открыли две интересные вакансии: Research Engineer, World Modeling и Research Scientist, World Modeling. Но это необычный WM: в обеих вакансиях написано, что основным направлением работы будет исследование скейлинга в претрейне на новых модальностях, в частности на видео.

В целом, что-то такое ожидалось, когда Google недавно выпустили Veo. В вакансиях так, кстати, и написано: "Команда будет сотрудничать с командами Gemini, Veo и Genie и развивать их работу".

Нанимает в эту команду, к слову, бывший лид команды SORA в OpenAI, Тим Брукс. Он ушел из стартапа в октябре, и уже успел приложить руку к Veo. А теперь, видимо, Veo послужит мощным источником синтетики.

Кто знает, может DeepMind и найдет в этом золотую жилу скейлинга. В любом случай, ждем от них крутых релизов в этом году

👍56🔥21❤9🫡1

13.1K views15:17

На YouTube канале Anthropic ночью вышло новое интересное видео про alignment

Присутствовали четверо разработчиков команды элаймента, среди которых был знаменитый Ян Лейке, ушедший из OpenAI вместе с Суцкевером. Видео длится всего 28 минут, посмотреть полностью советуем здесь, а вот основные и самые интересные тейки:

🟦

Главная проблема элаймента сегодня – масштабирование. Текущие подходы вроде RLHF и constitutional AI работают для относительно "предсказумых" задач. Но что произойдет, когда модели начнут решать задачи, которые люди не могут проконтролировать напрямую (например, разработка новых белков в биоресерсе)? Такой элаймент пока остается открытым вопросом.

🟦

Ризонинг – это еще один челлендж. Сейчас цепочки размышлений моделей понятны и их можно анализировать, потому что модели думают на английском. Но в будущем это изменится, и проверять CoT станет сложнее.

🟦Поэтому два главных и самых перспективных направления ресерча сейчас – это интерпретация фичей (см. пост про исследования стартапа на эту тему №1, №2, №3) и супер-alignment, то есть элаймент сложных автономных систем, которые могут принимать долгосрочные решения. Интерпретация нужна, чтобы контролировать, не врет ли нам модель, не примеряет ли маску послушного гражданина, просто чтобы пройти проверку. А супер-элаймент – это будущее.

🟦Лейке предполагает, что самым вероятным решением для супер-элаймента является делегирование элаймента другим ИИ-моделям, то есть его полная автоматизация. Сейчас исследователи уже пробуют элайнить маленькие модели и заставлять их выравнивать более мощные, но главный вопрос: как быть уверенными, что модель, которой мы доверяем, не саботирует процесс? – все еще открыт.

🟦Для решения этого вопроса, в частности, в Anthropic недавно появились целые команды, одни из которых занимаются анти-элайментом, то есть создают моделей-злюк, а другие берут эти модели и пытаются научиться их "понимать", определять источник проблемы и исправлять ее. Это называется red-blue team.

Еще раз ссылка на полное видео: www.youtube.com/watch?v=IPmt8b-qLgk

Please open Telegram to view this post

VIEW IN TELEGRAM

👍63❤23🔥21🤯4😁3

13K views07:50

Data Secrets

В топ-1 Paper of the day на Hugging Face сегодня невероятная статья от Microsoft, в которой они показывают, как научили крошечную модельку математическому ризонингу на уровне o1

Статья называется rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking и в ней на практике доказано, что маленькие модельки даже без дистилляции могут ризонить и решать мат. задачи на уровне передовых моделей от того же OpenAI. Все происходит только за счет хитрого инференса. Подробнее ⬇️

Ключевая идея rStar – уже знакомый нам по многим статьям метод Monte Carlo Tree Search, который выполняет поиск по дереву решений. К слову, у самих HF недавно выходил блогпост-исследование с примерно таким же алгоритмом для ризонинга (вот наш разбор), а еще Alibaba делали подобное (разбор). Короче, идея не новая, даже в AlphaGo и AlphaZero уже был поиск по дереву, но что сделали Microsoft? Они ввели три дополнительных фишки:

🔷

Code-augmented CoT. Вместо исполользования классического Chain-of-Thought (CoT), который часто ошибается в промежуточных шагах, они дополнили его генерацией кода на питоне. Каждый шаг проверяется имплементацией — если что-то ломается, такую ветку просто отбрасывают.

🔷

Process Preference Model (PPM). Вместо громоздкой скучной ручной аннотации данных здесь используется Q-values из поиска по дереву для создания пар предпочтений. Получается попарная оценка ответов с стиле "этот лучше чем этот", а затем PPM оптимизируют через pairwise ranking лосс.

🔷

Self-evolution. Это итеративный процесс, в котором модель обучается на данных, которые она сама же и генерирует. Обратите внимание, что никакая сторонняя модель тут не используется, все на своем топливе. Просто на каждом шаге хорошие ризонинг-траектории попадают в дату, которая используется в следующем цикле. И нет, это не вырождается.

Результаты получили ну очень крутые: на 8 траекториях для поиска rStar-Math улучшила Qwen2.5-Math-7B на бенче MATH с 58.8% до 89.4%, а на 64 — до 90% (это лучше, чем o1-preview на +4.5%). На AIME 2024 в итоге получилось достичь 53.3% (больше, чем o1-preview на +8.7%). Все это, еще раз, на крошке 7B!

Полностью статья лежит тут, код и данные скоро обещают открыть 🍜

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥143👍36❤23👀2

18.2K views13:45

Data Secrets

137

Столько раз на презентации Nvidia на международной выставке CES было произнесено AI. Это примерно раз в 40 секунд 👥

AMD тоже поднапряглись: говорили AI раз в 30 секунд.

Только Intel отстали от тренда. Не дело

Please open Telegram to view this post

VIEW IN TELEGRAM

😁125🔥11👍10🤪3🤨2❤1

15.9K views17:12

Data Secrets

137 Столько раз на презентации Nvidia на международной выставке CES было произнесено AI. Это примерно раз в 40 секунд 👥 AMD тоже поднапряглись: говорили AI раз в 30 секунд. Только Intel отстали от тренда. Не дело

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Инвесторы дуреют с этой прикормки

😁244👏16👍13❤2😍1

17.8K views19:18

Data Secrets

Общий объем компьюта, который используется для обучения моделек, увеличился с 2018 года в 10 000 раз

😲

Такими числами в своем новом исследовании нас радуют известные EpochAI. Они установили, что за последние 6 лет объем вычислений рос каждый год в четыре раза.

При этом быстрее всего разрастался размер кластеров (то есть непосредственно количество железа для обучения) – примерно в 1,7 раза в год (40% общего роста).

На втором месте – время обучения. Оно тоже увеличивалось стремительно: в 1,5 раза каждый год. И, конечно, помимо прочего, за шесть лет наши чипы стали сильно лучше: количество FLOP/s, достижимое на обучающем оборудовании, выросло в 8 раз с 2018 года.

Отчет целиком здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

👍52❤12

15.7K viewsedited 06:40

Data Secrets

DeepSeek: 100 additional authors not shown
Google: подержи мое пиво

😁135🔥35👍18

13.8K views09:21

Data Secrets

Meta проиграла суд по делу о нарушении авторских прав в процессе обучения ИИ

Это был один из первых исков, который был подан на корпорацию за обучение моделек на данных, защищенных автоским правом (да, даже считая тысяча и один иск на OpenAI). Его подавали еще в начале 2023 писатели Ричард Кадри и Кристофер Голден, а также комик Сара Сильверман.

Сначала Meta вину отрицали, и говорили, что обучали модели на безобидном датасете Books3 (там 196 000 книг). Однако в ходе разбирательства оказалось... что собирали эти данные в компании с помощью LibGen. Кто не в курсе – это самая известная пиратская либа для скачивания книг, созданная, кстати, в России.

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁237❤24🤯13👍7👏5😎5😐1👀1

15.1K views14:03

Data Secrets

GAN умер; да здравствует GAN!

Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇

Итак, GAN был одной из первых генеративных архитектур. Чем же он плох? Самое главное, нестабильностью: чтобы заставить лосс сойтись, обычно нужно продать дьяволу душу. Есть миллион статей, описывающих кучу трюков для таких танцев с бубном, но это все еще попытки компенсировать фундаментальные недостатки архитектуры.

Здесь же авторы предлагают вообще переосмыслить подход и представляют архитектуру R3GAN. В R3GAN нет эмпирических трюков, как например в StyleGAN2, но зато есть новая функция потерь Relativistic Pairing GAN. Это продолжение идеи о лоссе Relativistic GAN, который был предложен еще давно, но здесь авторы добавили две хитрые регуляризации, и, что самое главное не имперически, а теоретически доказали локальную сходимость. В итоге получаем стабильность + универсальность для разных распределений даты.

В архитектуре тоже кое-что изменилось. Авторы полностью отказались от рудиментов, которые оставались в ганах аж с 2015 (ака нормализация, впрыскивание шума и тд) и добавили современных подходов: заменили стандартные свертки на групповые, добавили больше остаточных блоков в стиле ResNet, увеличили ширину боттлнеков и переделали ресемплинг с помощью билинейной интерполяции (раньше было просто транспонирование сверток).

В итоге R3GAN очень заметно превзошла StyleGAN2 на нескольких датасетах по FID, и даже показывает какие-то конкурентоспособные результаты по сравнению с диффузионными моделями, при этом оставаясь более эффективной с точки зрения вычислительных затрат.

Есть даже демо, потыкать и погенерить можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤100👍59🔥27👏3🫡3⚡1

14.9K views08:23

Data Secrets

🍯

😁78🔥19❤10😐10🤨6👍3

13.4K views13:42

Вышло крутое полуторачасовое интервью Франсуа Шолле. Ниже – TLDR

Шолле – создатель Keras, ex ведущий исследователь Google DeepMind, автор книги "Deep Learning with Python", а также один из главных создателей того самого бенчмарка ARC AGI и учредитель соревнования ARC Prize. Из Google, он кстати, совсем недавно ушел и планирует открывать собственную компанию. Самое интересное из интервью:

🟦

Умение хорошо отвечать на сложные вопросы само по себе не гарантирует AGI, потому что бывает двух видов:
а) запоминание и применение паттернов, например, обучение алгоритму умножения чисел и его использование (это ближе к тому что умеют классические LLMки);
б) адаптация к новизне, то есть умение рекомпозировать и объединять известные когнитивные блоки для решения новых задач (ближе к o1).
Только если добиться от моделей полноценного ризонинга типа б) можно прийти к AGI (база)

🟦 Бенчмарк ARC AGI – как раз такой инструмент, который может помочь нам отличить а) от б). И по такому принципу должны строиться все современные бенчмарки, потому что, еще раз, просто умение отвечать на сложные вопросы ничего не доказывает, мы должны проверять умение рассуждать.

🟦 Но и с ARC AGI есть свои проблемы: в частности, он все еще недостаточно разнообразный. Кроме того, существуют известные методы, позволяющие восстанавливать содержимое приватного теста через отправку кучи сабмитов, и ARC AGI уязвим. В будущем Шолее планирует это исправить.

🟦 То, каких результатов добивается o1 делает ее абсолютно уникльной моделью, совершившей прорыв в генерализации. "Это уже далеко за рамками классического лубокого обучения" – говорит Шолле.

🟦 По его догадкам, o1 выполняет поиск по дереву в пространстве возможных Chain of Thought. Как устроен этот поиск, до конца не понятно, это может быть Монте-Карло или даже градиентный спуск.

Посмотреть полностью можно здесь (то что нужно в воскресенье)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥71👍44❤25😁1👌1

14.4K views09:42

Data Secrets

Проверь ее, прежде чем жениться ‼️

😁287🔥29❤13👌10🗿5🤯3💯3👍1👏1

15K views14:23

Data Secrets

Понедельник

🔥130😁53👍18❤6🫡3🗿3❤‍🔥1

13.5K views07:21

Data Secrets

Ресерчеры из Беркли опенсорснули Sky-T1-32B-Preview. Это ризонинг моделька, которую можно обучить локально всего за 450 долларов

При этом по бенчмаркам модель достаточно хороша: на AIME, Math500 и LiveCodeBench выбивает даже больше, чем o1-preview. В данных почти одна синтетика, которую генерировали с помощью QwQ и обрабатывали с помощью o1-mini. Базовая модель – Qwen2.5-32B-Instruct.

Все подробные инструкции по тому, как обучить модельку локально, есть в блогпосте и на гитхабе. При этом стоить это будет всего 450 долларов (против миллионов долларов на о1 и десятков тысяч даже на самые дешевые аналоги), и понадобится только 19 часов на восьми H100 (подъемно почти для любого бизнеса).

Скорость прогресса иногда просто шокирует

Блогпост | Веса | Репа | Датасет

🔥100👍34😁9❤4🤯1

14.5K views08:57

Data Secrets

Все: ИИ – это дорого!
Цукерберг: планирует до конца года заменить модельками инженеров с шестизначными зарплатами

Ладно, на самом деле он не говорил, что планирует заменять. Сказал только "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код". Читайте между строк.

На секундочку, по данным сайтов трекинга зарплат, сейчас миддлы в Meta получают сотни тысяч долларов. Представьте, сколько таких работает у Марка 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚103😁31👍17❤7🔥6🕊5🙈4🫡4🤔2🗿1🦄1

16.7K views12:24

Data Secrets

У каждой легенды свои слабости

😁199👍12🔥11💯8❤4☃2💅1

14.3K views17:08

About

Blog

Apps

Platform