Участвовал в круглом столе на Duck in AI.
Интересно пообщались про применение и особенностей разработки мультиагентных систем.
Встретил знакомых, приятная встреча😎
Интересно пообщались про применение и особенностей разработки мультиагентных систем.
Встретил знакомых, приятная встреча
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1
Наконец-то годная статья подошла. Нравится идея с рекурсивной подачей, но ждём повтора эксперимента, но уже с бОльшим размером весов.
Чую, что после этого прорыва снова будут показывать, у кого больше "базука".
Хотя локальные энтузиасты придумают неочевидное применение этого подхода.
В общем, давайте экспериментировать 🙂
Чую, что после этого прорыва снова будут показывать, у кого больше "базука".
Хотя локальные энтузиасты придумают неочевидное применение этого подхода.
В общем, давайте экспериментировать 🙂
Forwarded from Data Secrets
Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AGI 1 и ARC-AGI 2
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
👍8❤5🔥4
На мой взгляд потрясающее объяснение МЛ.
Теперь доступно и школьникам начальных классов 🫡
Теперь доступно и школьникам начальных классов 🫡
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на клевый промпт для Sora 2, который делает видео утренников на разные темы – умилительно же:
Тема выступления:
"Как работают трансформеры в языковых моделях"
Локация:
Пост-советская школа
– Качество видео как будто снято на слегка пиксельную камеру 90-х, школьный спектакль в день выступления
– Группа детей в костюмах на тематику разговаривает друг с другом
– Дети показывают сценку и читают слова на тему, будто в школе рассказывая тематику
– Аудитория поддерживающих родителей тихо ахает, и одна из мам в зале шепчет себе под нос что-то на тему выступления
❤4🔥2😁2🤩1
Forwarded from REU Data Science Club
Всем привет! 👋🏻
✨Приглашаем вас на лекцию по теме: "Архитектура ML. Проще-лучше. Идём от обратного"✨
С технологиями машинного обучения чаще всего связан какой-то большой объем данных и вычислительные нагрузки. Особенно в последнее время, обращая внимание на архитектуру трансформер. А всегда ли так нужно? Можно ли сложные задачи решить просто, элегантно и на слабых устройствах? Об этом и поговорим, рассмотрим.
🗣️ Спикер: Артур Сапрыкин
🎯 Основатель и CEO Maglosya ([club228654879|@maglosya])
🎯 Преподаватель, автор курсов
🎯 Исследователь ML и AI.
🗓️ Когда?
23 октября (четверг), 19:30
📍Где?
Аудитория будет указана в комментариях
🔗Ссылка на регистрацию:
👉🏻 https://forms.gle/daoFZzYrXfe4asiB9
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 21 октября в 23:59❗️
С нами вы поставите модели даже на чайник! С нетерпением ждём вас на лекции 💫
#DSC_events
✨Приглашаем вас на лекцию по теме: "Архитектура ML. Проще-лучше. Идём от обратного"✨
С технологиями машинного обучения чаще всего связан какой-то большой объем данных и вычислительные нагрузки. Особенно в последнее время, обращая внимание на архитектуру трансформер. А всегда ли так нужно? Можно ли сложные задачи решить просто, элегантно и на слабых устройствах? Об этом и поговорим, рассмотрим.
🗣️ Спикер: Артур Сапрыкин
🎯 Основатель и CEO Maglosya ([club228654879|@maglosya])
🎯 Преподаватель, автор курсов
🎯 Исследователь ML и AI.
🗓️ Когда?
23 октября (четверг), 19:30
📍Где?
Аудитория будет указана в комментариях
🔗Ссылка на регистрацию:
👉🏻 https://forms.gle/daoFZzYrXfe4asiB9
❗️Внимание! Для гостей НЕ из РЭУ регистрация закрывается 21 октября в 23:59❗️
С нами вы поставите модели даже на чайник! С нетерпением ждём вас на лекции 💫
#DSC_events
❤4
Forwarded from REU Data Science Club
🐱 23 октября состоялась лекция "Архитектура ML. Проще-лучше. Идём от обратного" с Артуром Сапрыкиным
Ловите лучшие кадры с мероприятия! ✨
Хотите посмотреть запись?
Прикрепляем видео:
Запись лекции Артура Сапрыкина
вк - https://vk.com/video-200843593_456239171
ютуб - https://youtu.be/AFz9paJlWuc
#DSC_events
Ловите лучшие кадры с мероприятия! ✨
Хотите посмотреть запись?
Прикрепляем видео:
Запись лекции Артура Сапрыкина
вк - https://vk.com/video-200843593_456239171
ютуб - https://youtu.be/AFz9paJlWuc
#DSC_events
🔥6