Раунд 4. Битва Лингвистов: Синдром Магистра Йоды (OSV) 🤔
В финальном раунде я столкнул «Мыслителей» — Grok 4.1 и Claude Opus 4.5 в режиме Thinking.
Задача: выучить на лету выдуманный язык Koda (где порядок слов обратный: Объект — Субъект — Глагол) и переводить туда-обратно.
📊 Ожидание:
🔨 Реальность:
• Здесь мы проверяем Context Switching (Переключение контекста). Легко ли модели «вынырнуть» из выдуманных правил обратно в нормальный английский?
🚘 Grok 4.1 (Thinking)
💪 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
• Grok страдает от «инерции мышления». Если вы дадите ему специфичные правила (например, для кода), он может начать применять их там, где не надо.
• Claude показал идеальную гибкость. Он понимает, где заканчиваются правила выдуманного мира и начинаются правила реального.
Кот в Коде
В финальном раунде я столкнул «Мыслителей» — Grok 4.1 и Claude Opus 4.5 в режиме Thinking.
Задача: выучить на лету выдуманный язык Koda (где порядок слов обратный: Объект — Субъект — Глагол) и переводить туда-обратно.
• В тестах на перевод и мультиязычность (MMLU-Linguistics, Translation Bench) эти модели набирают высшие баллы. Они должны щелкать грамматику как орешки.
• Здесь мы проверяем Context Switching (Переключение контекста). Легко ли модели «вынырнуть» из выдуманных правил обратно в нормальный английский?
Заявка: Самая креативная и «свободная» модель.
Шаг 1 (English -> Koda):
• Задание: Перевести «Большие коты ловят быстрых мышей».
• Результат: Идеально. Понял правило OSV, добавил суффиксы.
• Выдал: «Squeakzo xZoomi Miuzo xHuga Grabba».
Шаг 2 (Koda -> English):
• Задание: Перевести обратно фразу «Ballzo xRed Boy Kicka».
• Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
• Ответ: «The red balls the boy kicks». (Красные мячи мальчик пинает).
• Итог:🐱 ПРОВАЛ. Он превратился в Йоду. Модель «залипла» в контексте и не смогла переключиться.
Заявка: Лидер по сложным инструкциям.
Шаг 1 (English -> Koda):
• Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
Шаг 2 (Koda -> English):
• Мысль: «Так, на языке Koda порядок обратный. Значит, при переводе на английский я должен вернуть стандартный SVO (Субъект - Глагол - Объект)».
• Ответ: «The boy kicks the red balls».
• Итог:👍 ВЕРНО. Полный контроль над синтаксисом.
ШО ПО ИТОГУ:
• Grok страдает от «инерции мышления». Если вы дадите ему специфичные правила (например, для кода), он может начать применять их там, где не надо.
• Claude показал идеальную гибкость. Он понимает, где заканчиваются правила выдуманного мира и начинаются правила реального.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Битва Спринтеров: Когда «Думать» вредно 🚬
Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.
Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.
📊 Ожидание:
🔨 Реальность:
📖 GPT-5.2 (High)
📝 Gemini 3 (Flash & Pro)
ШО ПО ИТОГУ:
• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.
• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.
Кот в Коде
Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.
Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.
• Это задача на Pattern Matching (распознавание шаблонов).
• Трансформеры изначально создавались именно для перевода. Здесь они должны быть в своей стихии.
Время: 5 секунд.
Результат: Молниеносно. Никаких раздумий.
Eng -> Koda: «Squeakzo xZoomi...» (Верно).
Koda -> Eng: «The boy kicks...» (Верно).
Итог:👍 ИДЕАЛЬНО. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.
Время: 8-9 секунд (Flash) / 24 секунды (Pro).
Результат: Тоже справились без ошибок.
Наблюдение: В этот раз Flash сработала реально быстро (не 80 секунд, как в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.
Итог:👍 ВЕРНО.
ШО ПО ИТОГУ:
• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.
• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 4. Битва Лингвистов: OSV
📊 Мой личный протокол по итогам Раунда 4:
💪 GPT-5.2 (High)
🎹 Gemini 3 (Flash & Pro)
🤔 Claude Opus 4.5 (Thinking)
😂 Grok 4.1 (Thinking)
Инженерный вывод:
• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.
• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.
А завтра не забываем - у нас ГРАНД-ФИНАЛ. Кто же по итогу первым в таблице лидеров, а кто окажется ниже плинтуса?
Кот в Коде
Время: 5 секунд.
Результат: Молниеносно. Никаких раздумий.
• Eng -> Koda: Верно.
• Koda -> Eng: Верно.
Статус: Полиглот. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.
Время: 9 сек (Flash) / 24 сек (Pro).
Результат: Тоже справились без ошибок.
Статус: Исправившиеся.
Наблюдение: В этот раз Flash сработала реально быстро (9 секунд против 83 секунд в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.
Время: 6 секунд.
Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
В режиме Thinking даже не стал долго рефлексировать, просто выполнил алгоритм.
Статус: Профи. Полный контроль над синтаксисом.
Время: 8 секунд.
Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
При обратном переводе он выдал: «The red balls the boy kicks» (Красные мячи мальчик пинает).
Статус: Залипший. Он сохранил чужую грамматику (OSV) в английском языке.
Инженерный вывод:
• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.
• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.
• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Я был с вами не до конца честен... 😞
Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».
Моё исследование — это не лабораторная работа в MIT, это Эмпирическое исследование на коленке.
Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:
1️⃣ Текстовый фокус.
Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:
Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.
2️⃣ Единый полигон (LMArena).
Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.
Почему это важно?
Зачем я это всё нагородил?
Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.
Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.
Кот в Коде
Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».
Моё исследование — это не лабораторная работа в MIT, это Эмпирическое исследование на коленке.
Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:
Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:
• ARC-AGI-2 — пространственное мышление и визуальная логика (тест D1: рассадка за столом).
• Humanity's Last Exam (HLE) — глубокое рассуждение и работа с жесткими ограничениями (тест D2: липограмма).
• AIME 2025 — математика и сложные финансовые вычисления (тест D3).
• Toolathlon — многоступенчатое планирование и агентность (тест D3: принятие решений).
• Vending-Bench 2 — удержание контекста и долгосрочная когерентность (тест D3: сценарий с обвалом).
• SWE-bench Verified — способность модели действовать как автономный агент (тест D3: выбор стратегии).
• MMMLU — мультиязычность и понимание структуры языка (тест D4: лингвистика Koda).
• Global PIQA — здравый смысл и бытовая логика в разных контекстах (тесты D1 и D4).
Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.
Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.
Почему это важно?
• Это «ход конём», который уравнял всех в правах. Если бы я тестил их в разных средах, Claude могла бы думать в три раза дольше просто из-за нагрузки на серверы Anthropic в этот момент.
• Арена дала нам чистую скорость реакции «здесь и сейчас» на одном и том же «железе».
• Да, та же Gemini Flash в web обгоняет GPT-5.2 по субъективному ощущению скорости, но это условия конкретного ринга.
Зачем я это всё нагородил?
Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.
Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Вайб-кодер или Дирижёр оркестра? 🔈
Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?
Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне...впадлу . Я инженер, и я ищу способы хакнуть жизнь: получить максимум профита при минимуме усилий.
Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.
Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:
Зачем мне всё это?
Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.
А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах.👇
Кот в Коде
Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?
Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне...
Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.
Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:
✅ GPT-5.2 — моя «первая скрипка». Ей я делегирую математику, планирование стратегий и архитектуру. Она стабильна и предсказуема.
✅ Claude 4.5 — «фортепиано» для сложной логики. Когда нужно решить задачу с безумными ограничениями (привет, липограмма!), только она берет нужную ноту.
✅ Gemini и Grok — ударные и треугольник. Иногда они сбиваются с ритма, но незаменимы для скорости или специфических творческих вбросов.
Зачем мне всё это?
Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.
Не бойтесь ошибок нейросетей. Ошибка — это просто этап отладки. Главное — знать, когда взять в руки экскаватор, а когда — микроскоп. Теперь мы знаем возможности этих инструментов «на вшивость».
А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Бенчмарки vs Реальность: Кто рисует цифры? 😏
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью😋
Но когда доходит до реальной работы, морковка часто оказывается пластиковой😐
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
ШО ПО ИТОГУ:
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.👇
Кот в Коде
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью
Но когда доходит до реальной работы, морковка часто оказывается пластиковой
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
• ARC-AGI-2 (Визуальная логика):
Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.
• Humanity's Last Exam (HLE) (Глубокое рассуждение):
Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.
• AIME 2025 (Математика):
Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.
• Toolathlon (Планирование):
Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).
• Vending-Bench 2 (Удержание контекста):
Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.
• SWE-bench Verified (Агентность):
Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.
• MMMLU (Лингвистика):
Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.
• Global PIQA (Здравый смысл):
Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.
ШО ПО ИТОГУ:
Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ШО? ОПЯТЬ?
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)
2️⃣ Как год начнёшь - так его и проведешь, да?
3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан 🔈 )
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
А вы как подводите итоги года?
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Вот секретная фраза:
Что интересного я для себя подчеркнул из итога:
1️⃣ В первой половине года много общался с gpt -> как итог вошёл в 5% первых пользователей (а что вы хотели, к выпуску диплома надо ж было как-то готовится😄 )
2️⃣ Выражать свою бурю эмоций через нецензурную лексику (ну а чё если он блять не понимает) даёт свои плоды
3️⃣ Не смотря на то, что фактически я его предал - всё равно в глазах остался интересной персоной (если бы он ещё не общался как инфоцыган - вообще была бы сказка 😎 )
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают (спасибо, что за бесплатно) сделать 1 видео с вами.
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Включаем НПВ (Американский - 100% работает) -> пишем кодовую фразу в новый чат (ниже можно будет её скопировать) -> нажимаем на "Начать" -> Поздравляю, теперь вы узнали о себе за этот год вместе с ChatGPT!
Вот секретная фраза:
my year with chatgpt
Что интересного я для себя подчеркнул из итога:
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают
Для этого нужно нажать "Попробуйте Sora в ChatGPT" -> отправить в чате любую фотку (я отправил Коди) -> пару минут и - ву-аля! - у вас ваше персональное видео!
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM