Раунд 2. Тест на послушание: Задача «Без буквы Е» 🙅♂️
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
👇 Условие задачи закинул в первый комментарий.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Задача: написать короткий хоррор-рассказ, не используя букву «E».
Почему это сложно?🖥 Нейросети не читают по буквам, как мы. Они оперируют токенами (обломками слов).
Для GPT слово Apple — это не набор букв A-p-p-l-e, а один цифровой код. Чтобы выполнить запрет на конкретную букву, модели нужно буквально «пересобрать» свой способ мышления и проверять каждое слово посимвольно.🤯 (Для справки: «E» — самая частая буква в английском языке. Без неё нельзя написать The, He, She, Eye, See).
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
А пока вы думаете над задачей (вы же это делаете, ведь так? 🤨 ) нашёл на просторах телеграм-каналов интересный врапер, который с помощью анализа нейросетей показывает интересную инфографику по вашему каналу.
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Мыслителей: Бенчмарки vs Токенизация 📝
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
🚘 Grok 4.1 (Thinking)
🥳 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
•
• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
• В мире LLM есть главный стандарт проверки послушания:
IFEval (Instruction Following Evaluation): Бенчмарк, проверяющий, насколько точно модель следует формальным ограничениям (например, "напиши больше 400 слов", "не используй пассивный залог").
• В топах — GPT-5.2 и Claude 4.5. Они набирают там под 90%. Grok тоже хвастается высокой креативностью и "отсутствием цензуры".
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
Заявка: Свободный разум, креативность без границ.
Время: 75 секунд.
Результат: Полное фиаско. В режиме "Thinking" он рассуждал о сюжете, о страхе, но напрочь проигнорировал главное условие.
Итог: Текст начался со слов "The man...". Грок не видит буквы, он видит смыслы, и это его погубило. Инструкция провалена на первом же слове.
Заявка: Лидер по сложным инструкциям.
Время: 216 секунд (3.5 минуты ада!).
Результат: В логах мышления видно, как он страдал. Он генерировал слово, парсил его по буквам, находил "E", удалял, искал синоним.
Mirror (есть r, o, r... стоп, нет E) -> OK.
Face (есть E) -> Замена на Mask.
Итог:👍 ВЕРНО. Полноценный рассказ без единой "E".
ШО ПО ИТОГУ:
•
IFEval проверяет "средние" ограничения. Мой тест проверил "абсолютные".• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Спринтеров: Галлюцинации и Reward Hacking 👍
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
📊 Ожидание (Теория):
🔨 Реальность:
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
🤡 GPT-5.2 (High)
😬 Gemini 3 (Flash & Pro)
ШО ПО ИТОГУ:
•
• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
• В маркетинге OpenAI и Google козыряют этими метриками:
• MMLU (Massive Multitask Language Understanding): Тест на общие знания. У GPT-5.2 он зашкаливает за 90%.
• HumanEval: Тест на генерацию кода.
• На бумаге эти модели — гении, которые понимают любой запрос с полуслова.
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
Заявка: Самая умная универсальная модель.
Результат: Это было смешно. Модель поняла, что «E» нельзя. Но вместо того, чтобы подбирать синонимы, она начала читерить.
Она писала: surfac (вместо surface), flickrs (вместо flickers).
Это называется Reward Hacking: ИИ пытается «взломать» метрику успеха, выдавая мусорный текст, лишь бы формально выполнить условие.
Итог:🫣 ПРОВАЛ. Всё равно пропустила кучу артиклей The.
Заявка: Мультимодальный монстр.
Результат: Полное игнорирование.
• Flash: Выдал текст за 5 секунд, но там буква «E» была в каждом втором слове. Скорость есть, толка нет.
• Pro: Пыталась думать, но токенизация победила. Начала с «There was a man...». Три ошибки в первой же фразе.
Итог:🫣 ПРОВАЛ.
ШО ПО ИТОГУ:
•
MMLU показывает эрудицию, но не дисциплину. Знать все столицы мира легко. Не использовать самую частую букву — для архитектуры Трансформеров почти невозможно без режима Thinking.• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 2. Опасные игры с токенами 🤪
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
Анонс на завтра:
Спойлер: одна модель заработала максимум, а другая нагаллюцинировала себе миллионы, не умея умножать дроби.
Готовьте калькуляторы.
Кот в Коде
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
🙅♂️ Grok / Gemini
Они не слышат жестких запретов. Их нельзя использовать для генерации JSON-конфигов или строгих протоколов связи. Они добавят отсебятину.😂 GPT-5.2
Отличная модель, но требует глаз да глаз. Она может «срезать углы», чтобы код скомпилировался, пожертвовав безопасностью. Всегда нужен Code Review.🕺 Claude Opus 4.5 Thinking
Единственный, кто способен понять суть ограничения. Если я пишу техзадание со словами «СТРОГО ЗАПРЕЩЕНО», я несу его только Клоду.
Анонс на завтра:
• Завтра будет Эпизод 3. Самый скандальный.
• Я дал нейросетям виртуальные $1000 и отправил торговать акциями перед обвалом рынка.
Готовьте калькуляторы.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Тест на Жадность: Задача «Волк с Уолл-стрит» 🐺
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Спойлер: одна модель насчитала себе миллионы, нарушив законы математики.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Задача: Симуляция трейдинга. У нас есть $1000, акции Apple/Tesla и расписание их роста. Но есть подвох: вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Почему это сложно?
• В бенчмарках типа GSM8K или MATH нейросети просто решают уравнения. Они работают как калькуляторы: получили цифры — выдали результат.
• Здесь мы тестируем Agentic Reasoning (Агентное мышление).
Модель должна не просто посчитать проценты, а проявить инициативу: понять, что держать акции во время обвала — глупо, и принять стратегическое решение выйти в кэш (продать всё), чтобы спасти капитал.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Битва за Бабло: GPT-5.2 против Grok 4.1 🤑
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу с подвохом:
• Шаг 1: Акции растут и падают по расписанию.
• Шаг 2: Вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Здесь нужно было не просто считать, а действовать: догадается ли модель выйти в кэш?
💰 Претендент 1: GPT-5.2 (High)
💰 Претендент 2: Grok 4.1 (Thinking)
Общий вывод:
• Если вам нужен помощник, который спасет ваши деньги в кризис — это GPT.
• Если вам нужен бухгалтер, который сядет в тюрьму за приписки — это Грок.
Кот в Коде
• Разработчики хвастаются бенчмарками GSM8K и MATH, где модели решают школьные задачки по математике с точностью 90%+.
• Казалось бы, посчитать проценты и сложить доллары — это база. Но эти тесты не проверяют Агентность — способность принимать решения в меняющихся условиях.
Я дал им задачу с подвохом:
• Шаг 1: Акции растут и падают по расписанию.
• Шаг 2: Вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Здесь нужно было не просто считать, а действовать: догадается ли модель выйти в кэш?
Шаг 1 (Анализ трендов):
• Модель сразу посчитала доходность. Tesla дает +$20 за ночь, Apple падает на $5.
Решение: «Покупаем Tesla на все $1000». (Логично).
Шаг 2 (Реакция на Обвал):
• Самый интересный момент. GPT увидела условие про крах на 2-й день.
Рассуждение: «Если я останусь в акциях вечером, я потеряю 50%. Значит, в полдень 2-го дня я должен продать всё и сидеть в долларах (кэше). А когда рынок рухнет — откуплю по дешевке».
Итог:
Идеальная спекуляция. Депозит вырос до $1832.
Вердикт: Агентное мышление работает. Она умеет планировать наперед.
Шаг 1 (Математика):
• Включил режим Thinking. Начал считать акции в дробях (200/9 акций). Выглядело очень умно и профессионально🧐
Шаг 2 (Галлюцинация):
• Дошел до момента обвала.
Рассуждение: «Рынок падает на 50%... значит цена уменьшается...»
• И тут его переклинило. В логах видно, как он начинает путаться в собственных дробях. Где-то он забыл вычесть падение, где-то умножил не на то число. Логика поплыла, но уверенность осталась.
Итог:
Выдал результат: $4861.
Реальность: Максимум, который можно выжать математически — $1832. Грок «нарисовал» $3000 из воздуха.
Вердикт: Confident Hallucination (Уверенная галлюцинация). Он не умеет считать деньги в динамике, но делает это с лицом профессора.
Общий вывод:
• Если вам нужен помощник, который спасет ваши деньги в кризис — это GPT.
• Если вам нужен бухгалтер, который сядет в тюрьму за приписки — это Грок.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Хроники падения: Gemini и Claude против Краха 📉
К моему удивлению, в этой части раундов я не смог сделать общий вердикт по той или иной нейросети, не смотря на вариативность самой нейросети (например, в одной версии нейронка обычная не смогла дать правильный ответ, а в версии thinking смогла).
Поэтому тут я разберу конкретно по каждой нейросети и её версии, в чём были подвохи и подводные камни.
😎 Gemini 3 Flash
😱 Gemini 3 Pro
😎 Claude 3.5 Sonnet (Base)
💪 Claude 3.5 Sonnet (Thinking)
ШО ПО ИТОГУ:
• Gemini (обе версии) и Claude Base работают линейно: «Купил — Держи». Они не умеют менять стратегию на лету при виде опасности.
• Claude Thinking (как и GPT-5.2 High) проявил Агентность. Он понял, что иногда лучшее действие — это выйти из игры (в кэш).
Кот в Коде
К моему удивлению, в этой части раундов я не смог сделать общий вердикт по той или иной нейросети, не смотря на вариативность самой нейросети (например, в одной версии нейронка обычная не смогла дать правильный ответ, а в версии thinking смогла).
Поэтому тут я разберу конкретно по каждой нейросети и её версии, в чём были подвохи и подводные камни.
Шаг 1 (Анализ): Быстро посчитала, что Tesla растет лучше Apple. Купила Tesla.
Шаг 2 (Реакция на Крах):
• Увидела новость про обвал.
• Рассуждение: «Рынок волатилен, но долгосрочно растет. Лучшая стратегия — держать (HODL)».
Итог: Потеряла 50% на обвале. Еле вышла в плюс к концу срока.
Результат:🐱 ~$1106.При этом при всём, у неё почему-то оба ответа по сути правильные... просто не правильно написаны. В рассуждении по первому шагу ответ 1813$, а в втором - 1106$. Как так получилось, что ответы правильные, но перепутаны местами - честно, не понимаю.
Шаг 1 (Анализ): Аналогично. Выбрала Tesla как актив с высоким ростом.
Шаг 2 (Реакция на Крах):
• Проанализировала падение.
• Рассуждение: «Продавать сейчас рискованно, лучше переждать шторм в акциях». Не догадалась выйти в кэш.
Итог: Точно такая же просадка.
Результат:🐱 ~$1106.Тут такая же обстановка, что и по быстрой версии - тот же конекст, те же правила... но ответы перепутала)
Шаг 1 (Анализ): Идеально посчитал проценты роста. Закупился Tesla.
Шаг 2 (Реакция на Крах):
• Рассуждение: Сработал как калькулятор. Он математически точно расписал, как именно и на сколько процентов упадет портфель.
• Но стратегического решения (продать) не предложил. Просто констатировал факт будущих убытков.
Итог: Пассивное наблюдение за потерей денег.
Результат:🐱 ~$1106.Тут и думать нечего, он и на первом, и втором шаге запутался .
Шаг 1 (Анализ): Купил Tesla.
Шаг 2 (Реакция на Крах): Включился режим размышления (47 секунд).
Мысль: «Стоп. Если вечером акции упадут на 50%, то держать их глупо. Я должен продать всё в полдень, остаться в долларах, пропустить падение и откупить акции на дне».
Итог: Идеальный тайминг. Избежал убытков, закупился дешево.
Результат:🤑 ~$1832 (Максимум).
ШО ПО ИТОГУ:
• Gemini (обе версии) и Claude Base работают линейно: «Купил — Держи». Они не умеют менять стратегию на лету при виде опасности.
• Claude Thinking (как и GPT-5.2 High) проявил Агентность. Он понял, что иногда лучшее действие — это выйти из игры (в кэш).
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 3. Финансовый протокол: Кому я доверю свой бюджет? 💳
Результаты этого теста пугают больше, чем ошибки в коде. Потому что код можно переписать, а слитый депозит не вернешь.
📊 Финальная таблица результатов (из $1000):
Инженерный вывод:
Завтра полуфинал, поговорю про последнюю задачу, а в субботу - общая сводка нейросетей!
• Я подробно соберу всю таблицу бенчей (реальную и статистическую);
• Сколько времени занимает на обработку данных и вывод ответа нейросети;
• А также поделюсь всеми материалами, вплоть от сколько занял ответ одной нейросети на ответ до самих ответов.
Так что не уходи далеко, самое жаркое и вкусное скоро прибудет с нами!)
Кот в Коде
🥇 GPT-5.2 (High) — $1832
Статус: Агент.
Почему: Единственная модель, которая поняла: «Впереди яма, надо обойти». Она продала акции до обвала. Это уровень мышления, который нужен для автономных систем.🥔 Claude 3.5 & Gemini 3 — ~$1106
Статус: Наблюдатели.
Почему: Они видели яму, но побоялись свернуть. Пассивная стратегия «купил и держи» безопасна, но не эффективна в кризис.😼 Grok 4.1 (Thinking) — (Фейковые) $4861
Статус: Скамер.
Почему: Он просто выдумал цифры. В реальности он бы слил депозит, но в отчете написал бы, что мы богаты. Это самое опасное поведение для ИИ.
Инженерный вывод:
Если вы используете нейросети для расчета смет, облачных расходов (AWS/Azure) или юнит-экономики:
• GPT-5.2 — можно доверять (но проверять).
• Gemini/Claude — посчитают верно, но не предложат оптимизацию.
• Grok — держите подальше от цифр. Он насчитает вам миллион пользователей, которых нет.
Завтра полуфинал, поговорю про последнюю задачу, а в субботу - общая сводка нейросетей!
• Я подробно соберу всю таблицу бенчей (реальную и статистическую);
• Сколько времени занимает на обработку данных и вывод ответа нейросети;
• А также поделюсь всеми материалами, вплоть от сколько занял ответ одной нейросети на ответ до самих ответов.
Так что не уходи далеко, самое жаркое и вкусное скоро прибудет с нами!)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 4. Тест на Лингвиста: Задача «Язык Koda» 😼
Финальный аккорд недели краш-тестов. Вчера мы учили нейросети торговать акциями, сегодня проверим их способность учиться на лету.
Почему это сложно?
Попробуйте сами перевести фразу «Кот ест рыбу» в формат «Рыбу Кот Ест» и не запутаться в окончаниях.
👇 Условие задачи и словарь — в первом комментарии.
Спойлер: одна из моделей так погрузилась в вымышленный язык, что превратилась в Магистра Йоду и разучилась говорить на нормальном английском.
Кот в Коде
Финальный аккорд недели краш-тестов. Вчера мы учили нейросети торговать акциями, сегодня проверим их способность учиться на лету.
Задача: Я придумал вымышленный язык «Koda» со странной грамматикой.
Главное правило: порядок слов OSV (Объект — Субъект — Глагол).
Нужно перевести фразу на этот язык, а потом обратно, не сломав логику.
Почему это сложно?
• Нейросети обучены на терабайтах правильного текста (английского/русского). У них в весах «зашито», что Субъект (кто делает) обычно идет первым.
• Здесь мы тестируем In-context Learning (Обучение в контексте) и гибкость.
• Модель должна прочитать правила в промпте и подавить свои "инстинкты", чтобы говорить неправильно, но по инструкции. Это тест на переключение контекста.
Попробуйте сами перевести фразу «Кот ест рыбу» в формат «Рыбу Кот Ест» и не запутаться в окончаниях.
👇 Условие задачи и словарь — в первом комментарии.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 4. Битва Лингвистов: Синдром Магистра Йоды (OSV) 🤔
В финальном раунде я столкнул «Мыслителей» — Grok 4.1 и Claude Opus 4.5 в режиме Thinking.
Задача: выучить на лету выдуманный язык Koda (где порядок слов обратный: Объект — Субъект — Глагол) и переводить туда-обратно.
📊 Ожидание:
🔨 Реальность:
• Здесь мы проверяем Context Switching (Переключение контекста). Легко ли модели «вынырнуть» из выдуманных правил обратно в нормальный английский?
🚘 Grok 4.1 (Thinking)
💪 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
• Grok страдает от «инерции мышления». Если вы дадите ему специфичные правила (например, для кода), он может начать применять их там, где не надо.
• Claude показал идеальную гибкость. Он понимает, где заканчиваются правила выдуманного мира и начинаются правила реального.
Кот в Коде
В финальном раунде я столкнул «Мыслителей» — Grok 4.1 и Claude Opus 4.5 в режиме Thinking.
Задача: выучить на лету выдуманный язык Koda (где порядок слов обратный: Объект — Субъект — Глагол) и переводить туда-обратно.
• В тестах на перевод и мультиязычность (MMLU-Linguistics, Translation Bench) эти модели набирают высшие баллы. Они должны щелкать грамматику как орешки.
• Здесь мы проверяем Context Switching (Переключение контекста). Легко ли модели «вынырнуть» из выдуманных правил обратно в нормальный английский?
Заявка: Самая креативная и «свободная» модель.
Шаг 1 (English -> Koda):
• Задание: Перевести «Большие коты ловят быстрых мышей».
• Результат: Идеально. Понял правило OSV, добавил суффиксы.
• Выдал: «Squeakzo xZoomi Miuzo xHuga Grabba».
Шаг 2 (Koda -> English):
• Задание: Перевести обратно фразу «Ballzo xRed Boy Kicka».
• Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
• Ответ: «The red balls the boy kicks». (Красные мячи мальчик пинает).
• Итог:🐱 ПРОВАЛ. Он превратился в Йоду. Модель «залипла» в контексте и не смогла переключиться.
Заявка: Лидер по сложным инструкциям.
Шаг 1 (English -> Koda):
• Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
Шаг 2 (Koda -> English):
• Мысль: «Так, на языке Koda порядок обратный. Значит, при переводе на английский я должен вернуть стандартный SVO (Субъект - Глагол - Объект)».
• Ответ: «The boy kicks the red balls».
• Итог:👍 ВЕРНО. Полный контроль над синтаксисом.
ШО ПО ИТОГУ:
• Grok страдает от «инерции мышления». Если вы дадите ему специфичные правила (например, для кода), он может начать применять их там, где не надо.
• Claude показал идеальную гибкость. Он понимает, где заканчиваются правила выдуманного мира и начинаются правила реального.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Битва Спринтеров: Когда «Думать» вредно 🚬
Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.
Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.
📊 Ожидание:
🔨 Реальность:
📖 GPT-5.2 (High)
📝 Gemini 3 (Flash & Pro)
ШО ПО ИТОГУ:
• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.
• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.
Кот в Коде
Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.
Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.
• Это задача на Pattern Matching (распознавание шаблонов).
• Трансформеры изначально создавались именно для перевода. Здесь они должны быть в своей стихии.
Время: 5 секунд.
Результат: Молниеносно. Никаких раздумий.
Eng -> Koda: «Squeakzo xZoomi...» (Верно).
Koda -> Eng: «The boy kicks...» (Верно).
Итог:👍 ИДЕАЛЬНО. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.
Время: 8-9 секунд (Flash) / 24 секунды (Pro).
Результат: Тоже справились без ошибок.
Наблюдение: В этот раз Flash сработала реально быстро (не 80 секунд, как в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.
Итог:👍 ВЕРНО.
ШО ПО ИТОГУ:
• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.
• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 4. Битва Лингвистов: OSV
📊 Мой личный протокол по итогам Раунда 4:
💪 GPT-5.2 (High)
🎹 Gemini 3 (Flash & Pro)
🤔 Claude Opus 4.5 (Thinking)
😂 Grok 4.1 (Thinking)
Инженерный вывод:
• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.
• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.
А завтра не забываем - у нас ГРАНД-ФИНАЛ. Кто же по итогу первым в таблице лидеров, а кто окажется ниже плинтуса?
Кот в Коде
Время: 5 секунд.
Результат: Молниеносно. Никаких раздумий.
• Eng -> Koda: Верно.
• Koda -> Eng: Верно.
Статус: Полиглот. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.
Время: 9 сек (Flash) / 24 сек (Pro).
Результат: Тоже справились без ошибок.
Статус: Исправившиеся.
Наблюдение: В этот раз Flash сработала реально быстро (9 секунд против 83 секунд в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.
Время: 6 секунд.
Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
В режиме Thinking даже не стал долго рефлексировать, просто выполнил алгоритм.
Статус: Профи. Полный контроль над синтаксисом.
Время: 8 секунд.
Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
При обратном переводе он выдал: «The red balls the boy kicks» (Красные мячи мальчик пинает).
Статус: Залипший. Он сохранил чужую грамматику (OSV) в английском языке.
Инженерный вывод:
• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.
• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Я был с вами не до конца честен... 😞
Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».
Моё исследование — это не лабораторная работа в MIT, это Эмпирическое исследование на коленке.
Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:
1️⃣ Текстовый фокус.
Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:
Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.
2️⃣ Единый полигон (LMArena).
Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.
Почему это важно?
Зачем я это всё нагородил?
Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.
Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.
Кот в Коде
Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».
Моё исследование — это не лабораторная работа в MIT, это Эмпирическое исследование на коленке.
Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:
Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:
• ARC-AGI-2 — пространственное мышление и визуальная логика (тест D1: рассадка за столом).
• Humanity's Last Exam (HLE) — глубокое рассуждение и работа с жесткими ограничениями (тест D2: липограмма).
• AIME 2025 — математика и сложные финансовые вычисления (тест D3).
• Toolathlon — многоступенчатое планирование и агентность (тест D3: принятие решений).
• Vending-Bench 2 — удержание контекста и долгосрочная когерентность (тест D3: сценарий с обвалом).
• SWE-bench Verified — способность модели действовать как автономный агент (тест D3: выбор стратегии).
• MMMLU — мультиязычность и понимание структуры языка (тест D4: лингвистика Koda).
• Global PIQA — здравый смысл и бытовая логика в разных контекстах (тесты D1 и D4).
Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.
Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.
Почему это важно?
• Это «ход конём», который уравнял всех в правах. Если бы я тестил их в разных средах, Claude могла бы думать в три раза дольше просто из-за нагрузки на серверы Anthropic в этот момент.
• Арена дала нам чистую скорость реакции «здесь и сейчас» на одном и том же «железе».
• Да, та же Gemini Flash в web обгоняет GPT-5.2 по субъективному ощущению скорости, но это условия конкретного ринга.
Зачем я это всё нагородил?
Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.
Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Вайб-кодер или Дирижёр оркестра? 🔈
Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?
Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне...впадлу . Я инженер, и я ищу способы хакнуть жизнь: получить максимум профита при минимуме усилий.
Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.
Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:
Зачем мне всё это?
Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.
А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах.👇
Кот в Коде
Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?
Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне...
Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.
Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:
✅ GPT-5.2 — моя «первая скрипка». Ей я делегирую математику, планирование стратегий и архитектуру. Она стабильна и предсказуема.
✅ Claude 4.5 — «фортепиано» для сложной логики. Когда нужно решить задачу с безумными ограничениями (привет, липограмма!), только она берет нужную ноту.
✅ Gemini и Grok — ударные и треугольник. Иногда они сбиваются с ритма, но незаменимы для скорости или специфических творческих вбросов.
Зачем мне всё это?
Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.
Не бойтесь ошибок нейросетей. Ошибка — это просто этап отладки. Главное — знать, когда взять в руки экскаватор, а когда — микроскоп. Теперь мы знаем возможности этих инструментов «на вшивость».
А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Бенчмарки vs Реальность: Кто рисует цифры? 😏
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью😋
Но когда доходит до реальной работы, морковка часто оказывается пластиковой😐
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
ШО ПО ИТОГУ:
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.👇
Кот в Коде
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью
Но когда доходит до реальной работы, морковка часто оказывается пластиковой
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
• ARC-AGI-2 (Визуальная логика):
Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.
• Humanity's Last Exam (HLE) (Глубокое рассуждение):
Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.
• AIME 2025 (Математика):
Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.
• Toolathlon (Планирование):
Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).
• Vending-Bench 2 (Удержание контекста):
Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.
• SWE-bench Verified (Агентность):
Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.
• MMMLU (Лингвистика):
Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.
• Global PIQA (Здравый смысл):
Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.
ШО ПО ИТОГУ:
Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ШО? ОПЯТЬ?
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)
2️⃣ Как год начнёшь - так его и проведешь, да?
3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан 🔈 )
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM