Forwarded from Гречневые мысли
All work no play makes Claude a dull boy
Сидел недавно вечером, отдыхал после работы, кушал куриную грудку и выбирал себе плавки на яндекс маркете. Зацепился взглядом за мини-игры, которые дают какие-то бонусы, нашёл там 2048 и залип. Играл весь вечер, собрал какое-то большое число и внезапно заинтересовался — а насколько ллмки умеют играть в 2048?
Кроме автоматизации получения бонусов с яндекс маркета, меня интересовала ещё одна деталь. Моим дипломом в магистратуре была проверка умений VLM к физическому ризонингу — условно, даём модели картинку с 2D физической сценой и просим предсказать, что будет дальше. Но VLM (даже SOTA в лице GPT-4) очень плохо справлялись с этой задачей, путали лево и право и галлюцинировали цвета шариков, так что тот проект превратился в бенчмарк, где ллм в агентном цикле генерили код для симуляции этих сцен (и работало это всё равно довольно плохо). Соответственно, возникает вопрос — если в 2023 году VLM так плохо справлялись со spatial reasoning, насколько лучше с ним они будут справляться в конце 2025?
Проверить легко — вместе с клодом кодом написали движок для 2048, управляющийся через LEFT, RIGHT, UP, DOWN, прикрутили визуализацию, сделали нативный function calling (спасибо Kristaller за пулл-реквест) и запустили следующие модельки:
- Qwen-3-VL-8B-Thinking и Instruct — посмотреть, как работают мелкие open-source VL модельки, проаблейтив наличие или отсутствие thinking, текстовый или картиночный ввод и контекст в 5 ходов
- Qwen-3-VL-235B-Thinking и Instruct — посмотреть, как работают крупные open-source VL модельки, проаблейтив наличие или отсутствие thinking
- Gemini 2.5 Flash Lite — посмотреть, как работают закрытые VL модельки мелкого размера
- Claude 4.5 Sonnet — фронтир модель
К сожалению, 2048 очень рандомная игра. Хорошую стратегию всегда может испортить заспавнившаяся в неудачном месте цифра и игра будет проиграна. Да и из-за рандомности генерации двоек и четвёрок счёт в случае некоторых моделей при равном числе шагов отличался аж на 20%. Кроме того, за несколько ранов я мог наблюдать, что счёт ллмок из-за рандомности даже с зафиксированным сидом сильно скакали. Но несмотря на рандом, вот несколько паттернов, которые мне удалось заметить:
- Модели уже не слепые котятки, потому что ризонинг трейсы были относительно внятными и направления аргументировались осмысленно. Модели понимают концепцию направления и могут производить некоторый spatial reasoning, хоть и делают дофига ошибок.
- Хайскор — 256 + 128 у мелкого квена ризонера. Остальные модели добирались до 128 и дальше проигрывали. Автоматизировать получение бонусов на Яндекс Маркете не получится.
- Ризонинг, кажется, помогает. Qwen-3-VL-8B-Thinking и 235B-Thinking работали стабильно лучше, чем Instruct версии тех же моделей.
- Количество нелегальных шагов слабо зависит от итогового счёта и размера моделей. У Qwen-3-8B-Thinking в пять раз меньше нелегальных ходов, чем у Соннета.
- Кажется, мультимодальность мешает модели, но с этим непонятно. При смене домена с картиночного на текстовый число нелегальных шагов подскочило втрое, но и счёт вырос вдвое.
- 2048 — это плохой бенчмарк из-за рандомности. Что, впрочем, не остановило наших коллег из UC San Diego, UC Berkley и MBZUAI от включения этого энвайрмента в свой сабмит на ICLR 2026. Oh well.
- Я мог бы погуглить, прежде чем садиться тратить время и деньги на апи, но what's the fun in that? :P
Клод написал мне веб-страничку с визуализатором, посмотрите обязательно, это прикольно. Код выложен на моём гитхабе.
Сидел недавно вечером, отдыхал после работы, кушал куриную грудку и выбирал себе плавки на яндекс маркете. Зацепился взглядом за мини-игры, которые дают какие-то бонусы, нашёл там 2048 и залип. Играл весь вечер, собрал какое-то большое число и внезапно заинтересовался — а насколько ллмки умеют играть в 2048?
Кроме автоматизации получения бонусов с яндекс маркета, меня интересовала ещё одна деталь. Моим дипломом в магистратуре была проверка умений VLM к физическому ризонингу — условно, даём модели картинку с 2D физической сценой и просим предсказать, что будет дальше. Но VLM (даже SOTA в лице GPT-4) очень плохо справлялись с этой задачей, путали лево и право и галлюцинировали цвета шариков, так что тот проект превратился в бенчмарк, где ллм в агентном цикле генерили код для симуляции этих сцен (и работало это всё равно довольно плохо). Соответственно, возникает вопрос — если в 2023 году VLM так плохо справлялись со spatial reasoning, насколько лучше с ним они будут справляться в конце 2025?
Проверить легко — вместе с клодом кодом написали движок для 2048, управляющийся через LEFT, RIGHT, UP, DOWN, прикрутили визуализацию, сделали нативный function calling (спасибо Kristaller за пулл-реквест) и запустили следующие модельки:
- Qwen-3-VL-8B-Thinking и Instruct — посмотреть, как работают мелкие open-source VL модельки, проаблейтив наличие или отсутствие thinking, текстовый или картиночный ввод и контекст в 5 ходов
- Qwen-3-VL-235B-Thinking и Instruct — посмотреть, как работают крупные open-source VL модельки, проаблейтив наличие или отсутствие thinking
- Gemini 2.5 Flash Lite — посмотреть, как работают закрытые VL модельки мелкого размера
- Claude 4.5 Sonnet — фронтир модель
К сожалению, 2048 очень рандомная игра. Хорошую стратегию всегда может испортить заспавнившаяся в неудачном месте цифра и игра будет проиграна. Да и из-за рандомности генерации двоек и четвёрок счёт в случае некоторых моделей при равном числе шагов отличался аж на 20%. Кроме того, за несколько ранов я мог наблюдать, что счёт ллмок из-за рандомности даже с зафиксированным сидом сильно скакали. Но несмотря на рандом, вот несколько паттернов, которые мне удалось заметить:
- Модели уже не слепые котятки, потому что ризонинг трейсы были относительно внятными и направления аргументировались осмысленно. Модели понимают концепцию направления и могут производить некоторый spatial reasoning, хоть и делают дофига ошибок.
- Хайскор — 256 + 128 у мелкого квена ризонера. Остальные модели добирались до 128 и дальше проигрывали. Автоматизировать получение бонусов на Яндекс Маркете не получится.
- Ризонинг, кажется, помогает. Qwen-3-VL-8B-Thinking и 235B-Thinking работали стабильно лучше, чем Instruct версии тех же моделей.
- Количество нелегальных шагов слабо зависит от итогового счёта и размера моделей. У Qwen-3-8B-Thinking в пять раз меньше нелегальных ходов, чем у Соннета.
- Кажется, мультимодальность мешает модели, но с этим непонятно. При смене домена с картиночного на текстовый число нелегальных шагов подскочило втрое, но и счёт вырос вдвое.
- 2048 — это плохой бенчмарк из-за рандомности. Что, впрочем, не остановило наших коллег из UC San Diego, UC Berkley и MBZUAI от включения этого энвайрмента в свой сабмит на ICLR 2026. Oh well.
- Я мог бы погуглить, прежде чем садиться тратить время и деньги на апи, но what's the fun in that? :P
Клод написал мне веб-страничку с визуализатором, посмотрите обязательно, это прикольно. Код выложен на моём гитхабе.
👍36🔥11🤔3❤🔥1💩1
На хф и гитхаб выкатили HierarchicalTopK — метод обучения нейросетей, разработанный Т-Bank AI Research, который сохраняет интерпретируемость модели на любом уровне сложности.
Обычно уровень разреженности задают еще до обучения, а потом поменять его в процессе нельзя. HierarchicalTopK решает эту проблему — модель сразу учится на разных уровнях разреженности. В итоге не нужно держать пачку отдельных моделей на каждую задачу, а фичи остаются осмысленными при любом уровне разреженности. Метод можно юзать для аудита, анализа и быстрой настройки поведения модели. А еще как более адекватный способ понять что вообще происходит внутри нейросети.
https://huggingface.co/t-tech/flex-sae
https://github.com/corl-team/flexsae
Обычно уровень разреженности задают еще до обучения, а потом поменять его в процессе нельзя. HierarchicalTopK решает эту проблему — модель сразу учится на разных уровнях разреженности. В итоге не нужно держать пачку отдельных моделей на каждую задачу, а фичи остаются осмысленными при любом уровне разреженности. Метод можно юзать для аудита, анализа и быстрой настройки поведения модели. А еще как более адекватный способ понять что вообще происходит внутри нейросети.
https://huggingface.co/t-tech/flex-sae
https://github.com/corl-team/flexsae
1🍓73🥴28👍20 6🔥3🤔2❤🔥1
БАГЕТАТРОН 321М фулл синт ризонинг пртерен на 200б токенов выучила mmlu на скор выше чем у gpt3
https://huggingface.co/PleIAs/Baguettotron
https://huggingface.co/PleIAs/Baguettotron
😁84 14🤔6👍2🔥1
А прикиньте вы просите студентов вписать грант в статью и не даете студентам денег. Или даёте три копейки.
А потом ходите рассказываете про перспективы.
Выбирите своего бойца описанного в посте
А потом ходите рассказываете про перспективы.
Выбирите своего бойца описанного в посте
😁126🦄10👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Мечта мужчины:
500б оценки + сливать inf денег в нерабочие игрушки + махать крутым мечом на глазах у девочки
500б оценки + сливать inf денег в нерабочие игрушки + махать крутым мечом на глазах у девочки
🍓126😁64 23💊13 12🥴5💩3🌚2🔥1💔1 1
Love. Death. Transformers.
Мечта мужчины: 500б оценки + сливать inf денег в нерабочие игрушки + махать крутым мечом на глазах у девочки
Вы просто посмотрите как он светится
😁84💊17💩7🐳6 6😇3🥴2❤🔥1😢1 1
Outperforms DeepSeek R1 in math reasoning (AIME24: 80.3 vs 79.8)
@
1.5b
@
Надо сделать online math Bench
https://huggingface.co/WeiboAI/VibeThinker-1.5B
@
1.5b
@
Надо сделать online math Bench
https://huggingface.co/WeiboAI/VibeThinker-1.5B
huggingface.co
WeiboAI/VibeThinker-1.5B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😁44🔥4🥴3👍1
Love. Death. Transformers.
Outperforms DeepSeek R1 in math reasoning (AIME24: 80.3 vs 79.8) @ 1.5b @ Надо сделать online math Bench https://huggingface.co/WeiboAI/VibeThinker-1.5B
This media is not supported in your browser
VIEW IN TELEGRAM
💯30😁12 7😐3💅1💊1
Media is too big
VIEW IN TELEGRAM
- привет я подсяду? спасибо. почему мой аккаунт называется veronika_in_yandex_2002? ну, потому что мне понравился такой никнейм. работаю ли я в яндексе? да. да, я тимлид в крупнейшей it-компании в восточной европе. а почему ты спрашиваешь? в смысле навязываю тебе что то? так ты же сам спросил. ладно. хочу ли я чтобы все знали что я работаю в яндексе? боже, нет, конечно. почему я должна этого хотеть? нет, постой, это не так работает немножко. Хочешь сырок бю Александров? Да-да у нас день сырков по средам не удивляйся.
не надо выпендриваться? я не выпендриваюсь, ты просто сам спросил у меня. ясно, я сумасшедшая
не надо выпендриваться? я не выпендриваюсь, ты просто сам спросил у меня. ясно, я сумасшедшая
😁241💩60 20 8❤🔥7👍5 5🔥4🍌2😍1😨1
TIDAR - Think in Diffusion, Talk in Autoregression
Забавная статья про то что thiking можно декодить через диффузию+драфтовые токены, а ответ давать через AR маску;
Показывают на qwen1.5b что вообще вызывает вопросы, но показывают клевое ускорение
paper
Забавная статья про то что thiking можно декодить через диффузию+драфтовые токены, а ответ давать через AR маску;
Показывают на qwen1.5b что вообще вызывает вопросы, но показывают клевое ускорение
paper
🐳36🥴14🔥7❤🔥2 2👍1💋1
1)это первый пост игоря за хз сколько лет где есть явная критика опенаи или или их продуктов о х у е т ь
2) ну атлас правда хуйня, впрочем как и comet(пользовался обоими типа секунд 40)
https://news.1rj.ru/str/seeallochnaya/3085
2) ну атлас правда хуйня, впрочем как и comet(пользовался обоими типа секунд 40)
https://news.1rj.ru/str/seeallochnaya/3085
Telegram
Сиолошная
Прошло чуть больше 3 недель с выхода браузера ChatGPT Atlas. Мне надоело, возвращаюсь на Arc.
Во-первых, мне физически больно в этом браузере. Я нашёл 4 бага/проблемы, которые существенно влияют на качество работы, и лишь один из них — самый минорный — поправили.…
Во-первых, мне физически больно в этом браузере. Я нашёл 4 бага/проблемы, которые существенно влияют на качество работы, и лишь один из них — самый минорный — поправили.…
😁64👍6 5👏2😍1💋1
Love. Death. Transformers.
Вы просто посмотрите как он светится
Алекс Карп никогда в жизни не встречался с женщиной, он — турбоинцел на всю жизнь. Он - девственник, которого невозможно обнять, поцеловать, удержать, он - хладнокровный девственник.
«Я был слишком беден, чтобы гоняться за женщинами как за одноразовым удовольствием», - сказал он. «Потом я стал слишком богат, чтобы гоняться за ними как за чем-то значимым».
Истинный techbro.
«Я был слишком беден, чтобы гоняться за женщинами как за одноразовым удовольствием», - сказал он. «Потом я стал слишком богат, чтобы гоняться за ними как за чем-то значимым».
Истинный techbro.
😁168👍19🔥14🤓7💊5😨2💅2❤🔥1💯1💋1
Vqvae - это вообще-то главная часть в генеративке. Он решает, будет ли модель творить магию или кряхтеть как старый пылесос. Если он плохой - всё плохо.
В Сбере сделали сразу два токенизатора, и оба не просто хорошие - оба обгоняют открытый SOTA и по реконструкции, и по генерации.
2D-KVAE - для изображений, работает чище и аккуратнее нынешних открытых подходов.
3D-KVAE - для видео, и тут та же история: быстрее, точнее и в реконструкции, и в генерации.
Короче, два решения, которые уверенно обходят доступные аналоги.
На Хабре ребята открыто рассказывают, какая это боль - сделать хороший токенизатор, где споткнулись, какие хаки понадобились и почему это вообще важнее, чем кажется. Плюс сравнение с нынешним SOTA, чтобы видеть разницу не на словах.
И вишенка: всё это скоро станет open source.
люди делают не ресерч ради ресерча, а реально что-то серьёзное.
В Сбере сделали сразу два токенизатора, и оба не просто хорошие - оба обгоняют открытый SOTA и по реконструкции, и по генерации.
2D-KVAE - для изображений, работает чище и аккуратнее нынешних открытых подходов.
3D-KVAE - для видео, и тут та же история: быстрее, точнее и в реконструкции, и в генерации.
Короче, два решения, которые уверенно обходят доступные аналоги.
На Хабре ребята открыто рассказывают, какая это боль - сделать хороший токенизатор, где споткнулись, какие хаки понадобились и почему это вообще важнее, чем кажется. Плюс сравнение с нынешним SOTA, чтобы видеть разницу не на словах.
И вишенка: всё это скоро станет open source.
люди делают не ресерч ради ресерча, а реально что-то серьёзное.
1🐳67🥴56👍31💩10🔥8💊5🤷♂4😍1💋1🆒1
Forwarded from КПД
На этой неделе ребята из команды YandexGPT совместно c ШАДом (Школа анализа данных) провели интенсив по работе с LLM, где были затронуты вопросы обучения, инференса, и коммуникаций.
Материал довольно подробный и интересный, но требует определенной базы для вхождения.
В общем, рекомендую к просмотру всем интересующимся и желающим освежить знания.
Лекция 1: https://youtube.com/live/JMUWSdSD1Uk
Лекция 2: https://youtube.com/live/IAeAKcdMtsw
Лекция 3: https://youtube.com/live/BYiFv5PoMBw
Лекция 3.1: https://youtube.com/live/-52RgKQENl0
Лекция 4: https://youtube.com/live/VXI41kyQTPs
Лекция 5: https://youtube.com/live/AHMJICS2JQ0
Лекция 5.1: https://www.youtube.com/live/3v43mnx31OQ
Материал довольно подробный и интересный, но требует определенной базы для вхождения.
В общем, рекомендую к просмотру всем интересующимся и желающим освежить знания.
Лекция 1: https://youtube.com/live/JMUWSdSD1Uk
Лекция 2: https://youtube.com/live/IAeAKcdMtsw
Лекция 3: https://youtube.com/live/BYiFv5PoMBw
Лекция 3.1: https://youtube.com/live/-52RgKQENl0
Лекция 4: https://youtube.com/live/VXI41kyQTPs
Лекция 5: https://youtube.com/live/AHMJICS2JQ0
Лекция 5.1: https://www.youtube.com/live/3v43mnx31OQ
Youtube
- YouTube
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
👍64🔥24⚡6❤🔥5🥱3🤔1
Love. Death. Transformers.
от подписчека
This media is not supported in your browser
VIEW IN TELEGRAM
Круглое тащим, квадратное катим
😁106😢12 11❤🔥2🔥2 2😐1💋1
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
[Genshin Impact] Lumine travels to Liyue (edited version)
Welcome to the official demo for Lumine!
A generalist AI agent that perceives, reasons, and act in real time within 3D open worlds.
➡️ In this video, Lumine reaches and completes the main storyline in Liyue Harbor, and visiting the Adeptus dwelling deep…
A generalist AI agent that perceives, reasons, and act in real time within 3D open worlds.
➡️ In this video, Lumine reaches and completes the main storyline in Liyue Harbor, and visiting the Adeptus dwelling deep…
Denis Sexy IT 🤖
Видео на ночь – файнтюн Qwen2-VL-7B-Base 5 часов играет в Genshin Impact (видео укорено иногда); это маленькая модель и удивительно как авторы смогли добиться от нее таких результатов 😊
https://arxiv.org/abs/2511.08892
Tldr:
- история на 20 фреймов, предсказывают действие
- sft на прошлых трейсах
- без rl(не нужен тут)
Tldr:
- история на 20 фреймов, предсказывают действие
- sft на прошлых трейсах
- без rl(не нужен тут)
arXiv.org
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine...
👍33 10🔥7💋1