NEW BOT Телеграм, страница

All work no play makes Claude a dull boy

Сидел недавно вечером, отдыхал после работы, кушал куриную грудку и выбирал себе плавки на яндекс маркете. Зацепился взглядом за мини-игры, которые дают какие-то бонусы, нашёл там 2048 и залип. Играл весь вечер, собрал какое-то большое число и внезапно заинтересовался — а насколько ллмки умеют играть в 2048?

Кроме автоматизации получения бонусов с яндекс маркета, меня интересовала ещё одна деталь. Моим дипломом в магистратуре была проверка умений VLM к физическому ризонингу — условно, даём модели картинку с 2D физической сценой и просим предсказать, что будет дальше. Но VLM (даже SOTA в лице GPT-4) очень плохо справлялись с этой задачей, путали лево и право и галлюцинировали цвета шариков, так что тот проект превратился в бенчмарк, где ллм в агентном цикле генерили код для симуляции этих сцен (и работало это всё равно довольно плохо). Соответственно, возникает вопрос — если в 2023 году VLM так плохо справлялись со spatial reasoning, насколько лучше с ним они будут справляться в конце 2025?

Проверить легко — вместе с клодом кодом написали движок для 2048, управляющийся через LEFT, RIGHT, UP, DOWN, прикрутили визуализацию, сделали нативный function calling (спасибо Kristaller за пулл-реквест) и запустили следующие модельки:

- Qwen-3-VL-8B-Thinking и Instruct — посмотреть, как работают мелкие open-source VL модельки, проаблейтив наличие или отсутствие thinking, текстовый или картиночный ввод и контекст в 5 ходов
- Qwen-3-VL-235B-Thinking и Instruct — посмотреть, как работают крупные open-source VL модельки, проаблейтив наличие или отсутствие thinking
- Gemini 2.5 Flash Lite — посмотреть, как работают закрытые VL модельки мелкого размера
- Claude 4.5 Sonnet — фронтир модель

К сожалению, 2048 очень рандомная игра. Хорошую стратегию всегда может испортить заспавнившаяся в неудачном месте цифра и игра будет проиграна. Да и из-за рандомности генерации двоек и четвёрок счёт в случае некоторых моделей при равном числе шагов отличался аж на 20%. Кроме того, за несколько ранов я мог наблюдать, что счёт ллмок из-за рандомности даже с зафиксированным сидом сильно скакали. Но несмотря на рандом, вот несколько паттернов, которые мне удалось заметить:

- Модели уже не слепые котятки, потому что ризонинг трейсы были относительно внятными и направления аргументировались осмысленно. Модели понимают концепцию направления и могут производить некоторый spatial reasoning, хоть и делают дофига ошибок.
- Хайскор — 256 + 128 у мелкого квена ризонера. Остальные модели добирались до 128 и дальше проигрывали. Автоматизировать получение бонусов на Яндекс Маркете не получится.
- Ризонинг, кажется, помогает. Qwen-3-VL-8B-Thinking и 235B-Thinking работали стабильно лучше, чем Instruct версии тех же моделей.
- Количество нелегальных шагов слабо зависит от итогового счёта и размера моделей. У Qwen-3-8B-Thinking в пять раз меньше нелегальных ходов, чем у Соннета.
- Кажется, мультимодальность мешает модели, но с этим непонятно. При смене домена с картиночного на текстовый число нелегальных шагов подскочило втрое, но и счёт вырос вдвое.
- 2048 — это плохой бенчмарк из-за рандомности. Что, впрочем, не остановило наших коллег из UC San Diego, UC Berkley и MBZUAI от включения этого энвайрмента в свой сабмит на ICLR 2026. Oh well.
- Я мог бы погуглить, прежде чем садиться тратить время и деньги на апи, но what's the fun in that? :P

Клод написал мне веб-страничку с визуализатором, посмотрите обязательно, это прикольно. Код выложен на моём гитхабе.

👍36🔥11🤔3❤‍🔥1💩1

7.8K views08:26