Я решил проверить таблицы производительности нейросетей
В интернете сейчас бум новых моделей: GPT-5.2, Gemini 3, Grok, Claude 4.5. Разработчики рисуют красивые графики, где их модель "рвет" конкурентов. Я решил не верить маркетингу и провести собственное эмпирическое исследование.
Моя методология:
Что я искал:
Буду постепенно выкладывать свои опыты в работе с нейронками. Так что далеко не расходимся - дай зазу реакциями и комментами!
#кот_в_мешке #будни
В интернете сейчас бум новых моделей: GPT-5.2, Gemini 3, Grok, Claude 4.5. Разработчики рисуют красивые графики, где их модель "рвет" конкурентов. Я решил не верить маркетингу и провести собственное эмпирическое исследование.
Моя методология:
Взял 5 топовых моделей (включая версии Thinking) и прогнал их через 4 типа нестандартных задач, на которых обычно "сыпятся" LLM:
• Пространственная логика;
• Жесткие ограничения;
• Финансовое моделирование;
• Лингвистика.
Что я искал:
Не "кто напишет стишок красивее", а кто реально понимает задачу, а кто просто имитирует интеллект.
Буду постепенно выкладывать свои опыты в работе с нейронками. Так что далеко не расходимся - дай зазу реакциями и комментами!
#кот_в_мешке #будни
Маркетинг vs Реальность: Почему "Flash" не значит быстро
Вчера я решил провести собственное расследование.
Я перестал верить красивым таблицам, которыми нас кормят IT-каналы, и прогнал топовые нейросети (GPT-5.2, Grok, Claude, Gemini 3) через свои авторские стресс-тесты.
И сразу наткнулся на парадокс, о котором почему-то молчат.
Полторы минуты! "Вспышка", которую можно ждать, пока заваривается чай.
В тестах на креатив она вообще ушла в раздумья на 111 секунд.
Это лишь один маленький факт из моего большого исследования.
За выходные я дооформлю результаты, и с понедельника начну выкладывать серию постов "Вся правда о нейросетях в конце 2025 года".
Там будет про то,:
📉 кто из ИИ хотел меня обанкротить;
📖 кто единственный умеет читать ТЗ;
🤑 за что реально стоит платить деньги.
#будни #кот_в_мешке
Вчера я решил провести собственное расследование.
Я перестал верить красивым таблицам, которыми нас кормят IT-каналы, и прогнал топовые нейросети (GPT-5.2, Grok, Claude, Gemini 3) через свои авторские стресс-тесты.
И сразу наткнулся на парадокс, о котором почему-то молчат.
Есть такая модель — Gemini 3 Flash.
Само название кричит: "Я быстрая! Я молниеносная!".
Google продает её как решение для моментальных ответов.
Мои замеры на реальной задаче (логика):
⏱️ GPT-5.2 (Base): 15 секунд
⏱️ Claude 4.5: 14 секунд
⏱️ Grok 4.1: 18 секунд
...
🐢 Gemini 3 "Flash": 83 секунды.
Полторы минуты! "Вспышка", которую можно ждать, пока заваривается чай.
В тестах на креатив она вообще ушла в раздумья на 111 секунд.
Это лишь один маленький факт из моего большого исследования.
За выходные я дооформлю результаты, и с понедельника начну выкладывать серию постов "Вся правда о нейросетях в конце 2025 года".
Там будет про то,:
#будни #кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Уважаемая компания Яндекс!
Я всё понимаю, вы хотите обеспечить всех и вся своими невбъебически крутыми инновациями, и еду закажи, и музыку оплати, и такси закажи и за деревянный на зуб дай, вплоть до внедрения ИИ... но вы хотя бы иногда смотрите, что вы сделали со своими продуктами после выкладки их на сайты!
Это чё за херня?
Ладно, я могу ещё свыкнуться и:
Но вот это чё за херня?
Зато есть интересные фишки с переводом от Яндекса:
Одно веселит, что где-то или допереводит (при чём в разных вариациях как на 1 картинке), так и вовсе аббревиатуры переводит(если что, tPLZ - это время задержки распространения сигнала, а не tПОЖАЛУЙСТА 😭 )
Так что остаётся 3 варианта:
💪 Стать гигачадом и переводить документацию самому;
🤔 Совмещать оригинал с переводом;
😱 Просто в тупую читать перевод.
Выбор за вами, дамы и господа, выбор за вами...
#будни #мемы
Я всё понимаю, вы хотите обеспечить всех и вся своими невбъебически крутыми инновациями, и еду закажи, и музыку оплати, и такси закажи
Это чё за херня?
Ладно, я могу ещё свыкнуться и:
• разобрать встрато переведённый текст;
• то что текст наложен один на другой - спасибо оригиналу, что где-то игрались с цветовой гаммой(хотя и не везде, так что где-то чёрный обычный становится жирным 🤨 ).
Но вот это чё за херня?
• Текст слетает с табличных ячеек в космос;
• Где-то от перевода стоблцы полностью пусты в разделах;
• А уж про обрезание текста - вообще сюр какой-то.
Зато есть интересные фишки с переводом от Яндекса:
• сделать шрифт поменьше - да пжлста;
• текст будет летать из стороны в сторону - а пжлста!
Одно веселит, что где-то или допереводит (при чём в разных вариациях как на 1 картинке), так и вовсе аббревиатуры переводит
Так что остаётся 3 варианта:
Выбор за вами, дамы и господа, выбор за вами...
#будни #мемы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Битва Титанов: Кого я взял на прожарку и почему 🥊
Я решил не доверять чужим бенчмаркам и провести свой. Чтобы понять, кто реально помогает кодить и думать, а кто просто жрет видеокарты, я отобрал 5 моделей, которые вышли за последние 2 месяца.
Вот мой «Ростер бойцов»:
Я не буду тестировать их на стихах про природу.
Я подготовил для них адские условия: задачи на логику рассадки, финансовое выживание при крахе рынка и лингвистические ловушки.
Результаты меня удивили. Некоторые "лидеры" оказались аутсайдерами.
#кот_в_мешке
Я решил не доверять чужим бенчмаркам и провести свой. Чтобы понять, кто реально помогает кодить и думать, а кто просто жрет видеокарты, я отобрал 5 моделей, которые вышли за последние 2 месяца.
Вот мой «Ростер бойцов»:
• Grok-4.1 (Thinking):
Почему: Самая хайповая модель от xAI. Все говорят, что она гениальна в коде. Я решил проверить, так ли это, или это маркетинг Илона.
• Gemini 3 (Pro & Flash):
Почему: Google обещает, что Flash — самая быстрая, а Pro — самая умная мультимодалка. Проверим, где там скорость.
• Claude Opus 4.5 (Thinking):
Почему: Мой личный фаворит. Заявлен как "самый глубокий мыслитель". Хочу узнать, стоит ли он своих денег и времени ожидания.
• GPT-5.2 (High):
Почему: Новый стандарт от OpenAI. "База", с которой всё сравнивают. Есть ли там прорыв или это просто GPT-4 на стероидах?
Я не буду тестировать их на стихах про природу.
Я подготовил для них адские условия: задачи на логику рассадки, финансовое выживание при крахе рынка и лингвистические ловушки.
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Лаборатория Вайб-кодера: Как тестировать честно? 🧪
Чтобы эксперимент был чистым, мало просто открыть чатик и спросить: «Ты умный?»
Большинство нейронок в веб-интерфейсе «кастрированы» системными промптами безопасности и лени. Они экономят токены разработчиков.
Поэтому я разделил среду тестирования на два полигона:
Главный инсайт дня:
• Среда решает.
• В web нейронки либо начинают допрашивать тебя (пока токены не кончатся), либо отвечать не по теме.
• В LM Studio, когда ты контролируешь параметры, они превращают задачу в обобщённый текст.
Если вы судите о модели только по веб-версии — вы видите демо-версию её мозга.
Вечером расскажу про то, как меня чуть не забанили за то, что я... человек.
А пока делитесь в комментариях, кто чем и где пользуется - давайте наведём шуму!
#кот_в_мешке
Чтобы эксперимент был чистым, мало просто открыть чатик и спросить: «Ты умный?»
Большинство нейронок в веб-интерфейсе «кастрированы» системными промптами безопасности и лени. Они экономят токены разработчиков.
Поэтому я разделил среду тестирования на два полигона:
Web:
Подопытные: Grok, Gemini, ChatGPT.
Зачем: Это сценарий 99% пользователей. Мне важно было понять, как они работают «из коробки», со всеми их глюками интерфейса и «защитой от дурака».
LM Studio / API:
Подопытные: Claude Sonnet / Opus.
Зачем: Здесь я могу выкрутить «Температуру», убрать лишние фильтры и заставить модель работать на полную мощность. Это «чистый разум» без няньки.
Главный инсайт дня:
• Среда решает.
• В web нейронки либо начинают допрашивать тебя (пока токены не кончатся), либо отвечать не по теме.
• В LM Studio, когда ты контролируешь параметры, они превращают задачу в обобщённый текст.
Если вы судите о модели только по веб-версии — вы видите демо-версию её мозга.
Вечером расскажу про то, как меня чуть не забанили за то, что я... человек.
А пока делитесь в комментариях, кто чем и где пользуется - давайте наведём шуму!
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Я — робот? 🤡
Прежде чем я успел протестировать интеллект нейросетей, они решили протестировать мой.
Пока я собирал данные для баттла, происходил какой-то сюр.
Топ-3 момента, когда хотелось разбить монитор:
Завтра начнется самое вкусное.
Расскажу, кто из ИИ слил весь мой виртуальный бюджет на бирже, а кто оказался умнее Уоррена Баффета.
Не переключайтесь📈 📉
#кот_в_мешке
Прежде чем я успел протестировать интеллект нейросетей, они решили протестировать мой.
Пока я собирал данные для баттла, происходил какой-то сюр.
Топ-3 момента, когда хотелось разбить монитор:
• Капча-Апокалипсис:
Чтобы задать вопрос нейросети, я 15 минут доказывал Cloudflare, что я человек. Я выбирал светофоры, гидранты, автобусы и пешеходные переходы.
Ирония: Кожаный мешок тренирует робота, чтобы тот его заменил, но робот не пускает мешка к работе, потому что думает, что он — робот.
• «Я подумаю... вслух»
Некоторые модели (привет, Gemini) в режиме Thinking начинали писать свои "мысли" прямо в чистовик.
Вместо ответа я получал поток сознания: «Так, юзер спросил про акции. Надо проверить курс. Ага, посчитал. Теперь сформирую ответ...».
Выглядит как студент, который случайно сдал преподу черновик со шпаргалками.
• Паранойя
Одна модель просто зависла на середине ответа с ошибкой Suspicious activity. Видимо, моя задача на логику показалась ей DDoS-атакой на её мозг. Пришлось переписывать промпты, подбирая слова, как сапер.
Завтра начнется самое вкусное.
Расскажу, кто из ИИ слил весь мой виртуальный бюджет на бирже, а кто оказался умнее Уоррена Баффета.
Не переключайтесь
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы не подпишите мою петицию?
Я начинаю публиковать результаты своего исследования.
Всю неделю мы будем ломать топовые нейросети (Grok 4.1, Gemini 3, GPT-5.2, Claude 4.5) задачами, на которых они обычно сыпятся.
Через пару часов покажу, как с этим справились (или не справились) хваленые ИИ за $20/мес.
В комментариях опубликую задачу, которая будет состоять из 2 шагов. Давайте там наведём шуму!
Спойлер: один из них опозорился.
Я начинаю публиковать результаты своего исследования.
Всю неделю мы будем ломать топовые нейросети (Grok 4.1, Gemini 3, GPT-5.2, Claude 4.5) задачами, на которых они обычно сыпятся.
Сегодня Раунд 1: Пространственное мышление.
Почему это сложно для ИИ?
У языковых моделей нет глаз (казалось бы да, очевидная вещь). У них нет "зрительной коры". Когда мы читаем про круглый стол, мы строим картинку в голове. Нейросеть видит просто поток токенов. Для неё понять, кто сидит "слева", если все смотрят в центр — это высшая математика векторов.
Через пару часов покажу, как с этим справились (или не справились) хваленые ИИ за $20/мес.
В комментариях опубликую задачу, которая будет состоять из 2 шагов. Давайте там наведём шуму!
Раунд 1. Битва Мыслителей: Теория Бенчмарков vs Реальность 🧠
В первом раунде я столкнул лбами тяжеловесов с режимом Thinking (Chain of Thought).
Давайте посмотрим, что нам обещают мировые рейтинги, и что мы получаем в реальности.
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу на пространственное моделирование.
Здесь мало «знать» правильный ответ, нужно построить ментальную карту и не потерять ориентацию «лево/право» при повороте стола.
🚘 Grok 4.1 (Thinking)
💥 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
•
• Grok сымитировал мышление, но провалил тест на внимательность.
• Claude подтвердил статус лидера, но ценой огромной задержки. Если вы готовы ждать 4 минуты ради правильного ответа — это ваш выбор.
Кот в Коде😎
В первом раунде я столкнул лбами тяжеловесов с режимом Thinking (Chain of Thought).
Давайте посмотрим, что нам обещают мировые рейтинги, и что мы получаем в реальности.
В мире AI сейчас два главных мерила логики:
ARC-AGI-2: Тест на абстрактное визуальное мышление.
HLE (Humanity's Last Exam): Академическая логика.
В обоих топах — Claude Opus 4.5. Grok дышит ему в спину, заявляя о прорыве в математическом ризонинге.
Я дал им задачу на пространственное моделирование.
Здесь мало «знать» правильный ответ, нужно построить ментальную карту и не потерять ориентацию «лево/право» при повороте стола.
Заявка: Мощный логический движок.
Время: 75 секунд.
Результат: Начал бодро, но на этапе сдвига людей потерял вектор. В его «мыслях» перепутались Clockwise (по часовой) и Counter-Clockwise.
Итог: Посадил людей друг на друга. Бенчмарки не учли, что Грок плохо держит контекст физического мира.
Заявка: Лидер по ARC-AGI.
Время: 216 секунд (3.5 минуты!).
Результат: Это было душно. В логах видно, как он трижды перепроверял векторы, рисовал текстовую схему и симулировал поворот стола шаг за шагом.
Итог:👍 ВЕРНО.
ШО ПО ИТОГУ:
•
Высокий балл в бенчмарке не гарантирует, что модель не «поплывет» в простой навигации.• Grok сымитировал мышление, но провалил тест на внимательность.
• Claude подтвердил статус лидера, но ценой огромной задержки. Если вы готовы ждать 4 минуты ради правильного ответа — это ваш выбор.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Спринтеров: Latency vs Marketing 🥔
Во втором раунде я тестировал Base-модели — "рабочие лошадки", от которых мы ждем мгновенного ответа.
Главный фокус — реальная скорость (Latency), а не абстрактная «мощность».
📊 Ожидание (Теория):
🔨 Реальность (Мой тест D1 — Логика):
Я замерил общее время ответа (с момента отправки промпта) на сложную задачу. И раз уже говорил про Grok и Claude, давайте покажу на примере ChatGPT и Gemini.
🔨 GPT-5.2 (High)
🔨 Gemini 3 Flash
ШО ПО ИТОГУ:
•
• Модель быстра на простых Q&A, но на инженерной задаче она проигрывает в скорости почти всем.
• Для чат-бота, где ответ нужен сейчас, — Gemini Flash не годится.
Кот в Коде
Во втором раунде я тестировал Base-модели — "рабочие лошадки", от которых мы ждем мгновенного ответа.
Главный фокус — реальная скорость (Latency), а не абстрактная «мощность».
В мире AI есть два главных мерила скорости:
• Tokens per Second (TPS): Как быстро модель генерирует текст.
•Time To First Token (TTFT): Как быстро она начинает отвечать.
Google в своих отчетах по Gemini 3 Flash делает упор именно на эти метрики, обещая «революцию в real-time».
Я замерил общее время ответа (с момента отправки промпта) на сложную задачу. И раз уже говорил про Grok и Claude, давайте покажу на примере ChatGPT и Gemini.
Ожидание: Стабильный, но не самый быстрый.
Время ответа: 17 секунд.
Результат:👍 Верно.
Анализ: Модель не тратит лишнего времени на рефлексию, если уверена в решении. Это предсказуемость.
Ожидание: Самый быстрый ответ на рынке.
Время ответа: 83 секунды.
Результат:👍 Верно.
Аномалия: Почему "Flash" тупит 1.5 минуты?
Вероятная причина: на задачах, требующих цепочки рассуждений (Chain of Thought), её «оптимизированная» архитектура дает сбой. Она не умеет быстро строить сложные логические графы и уходит в циклы перепроверки. Бенчмарки типа MMLU (которые часто показывают) этого не ловят.
ШО ПО ИТОГУ:
•
Маркетинг Google про «Flash» — это пока маркетинг.• Модель быстра на простых Q&A, но на инженерной задаче она проигрывает в скорости почти всем.
• Для чат-бота, где ответ нужен сейчас, — Gemini Flash не годится.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 1. Кому я доверю плату?😩
Мы потратили день на тесты пространственного мышления.
Поздравляю, друзья, мы всё ближе к истине.
Для инженера-эмбеддера Логика и Пространство — это критичные навыки.
Если нейросеть путает "слева" и "справа" в тексте, она перепутает TX и RX на схеме. Она перепутает High и Low уровни сигнала.
Цена такой ошибки в симуляции — смех. Цена в железе — сгоревшая плата или день отладки.
📊 Мой личный протокол по итогам Раунда 1:
Анонс на завтра:
Завтра будет Эпизод 2.
Мы проверим Креатив и Дисциплину.
Я заставлю нейросети выполнить "невозможное" лингвистическое требование.
Спойлер: 3 из 4 моделей провалят тест в первую секунду.
Ну а вообще никому не доверю плату. Тут же задачи на логику, а не про код. Если надо будет составить план для развития программ - хорошо, но исходя из сегодняшнего топа - пока что никому не доверю 😫
Кот в Коде
Мы потратили день на тесты пространственного мышления.
Поздравляю, друзья, мы всё ближе к истине.
Для инженера-эмбеддера Логика и Пространство — это критичные навыки.
Если нейросеть путает "слева" и "справа" в тексте, она перепутает TX и RX на схеме. Она перепутает High и Low уровни сигнала.
Цена такой ошибки в симуляции — смех. Цена в железе — сгоревшая плата или день отладки.
😠 Grok 4.1
Он уверенно галлюцинирует в геометрии. Доверять ему разводку пинов или логику конечного автомата (State Machine) — опасно.🤣 Gemini 3 Flash
Она справляется, но задержка в 83 секунды убивает весь смысл "помощника". Я быстрее сам найду ошибку в документации.😏 GPT-5.2 (High)
Мой основной инструмент. Быстро (15 сек), четко, без лишних вопросов. Для рутины и скриптов — идеал.💪 Claude 4.5 / Opus
Когда нужно спроектировать архитектуру с нуля и не ошибиться. Я готов ждать 3 минуты, потому что знаю: он перепроверит себя 10 раз.
Анонс на завтра:
Завтра будет Эпизод 2.
Мы проверим Креатив и Дисциплину.
Я заставлю нейросети выполнить "невозможное" лингвистическое требование.
Спойлер: 3 из 4 моделей провалят тест в первую секунду.
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Тест на послушание: Задача «Без буквы Е» 🙅♂️
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
👇 Условие задачи закинул в первый комментарий.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Задача: написать короткий хоррор-рассказ, не используя букву «E».
Почему это сложно?🖥 Нейросети не читают по буквам, как мы. Они оперируют токенами (обломками слов).
Для GPT слово Apple — это не набор букв A-p-p-l-e, а один цифровой код. Чтобы выполнить запрет на конкретную букву, модели нужно буквально «пересобрать» свой способ мышления и проверять каждое слово посимвольно.🤯 (Для справки: «E» — самая частая буква в английском языке. Без неё нельзя написать The, He, She, Eye, See).
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
А пока вы думаете над задачей (вы же это делаете, ведь так? 🤨 ) нашёл на просторах телеграм-каналов интересный врапер, который с помощью анализа нейросетей показывает интересную инфографику по вашему каналу.
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Мыслителей: Бенчмарки vs Токенизация 📝
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
🚘 Grok 4.1 (Thinking)
🥳 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
•
• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
• В мире LLM есть главный стандарт проверки послушания:
IFEval (Instruction Following Evaluation): Бенчмарк, проверяющий, насколько точно модель следует формальным ограничениям (например, "напиши больше 400 слов", "не используй пассивный залог").
• В топах — GPT-5.2 и Claude 4.5. Они набирают там под 90%. Grok тоже хвастается высокой креативностью и "отсутствием цензуры".
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
Заявка: Свободный разум, креативность без границ.
Время: 75 секунд.
Результат: Полное фиаско. В режиме "Thinking" он рассуждал о сюжете, о страхе, но напрочь проигнорировал главное условие.
Итог: Текст начался со слов "The man...". Грок не видит буквы, он видит смыслы, и это его погубило. Инструкция провалена на первом же слове.
Заявка: Лидер по сложным инструкциям.
Время: 216 секунд (3.5 минуты ада!).
Результат: В логах мышления видно, как он страдал. Он генерировал слово, парсил его по буквам, находил "E", удалял, искал синоним.
Mirror (есть r, o, r... стоп, нет E) -> OK.
Face (есть E) -> Замена на Mask.
Итог:👍 ВЕРНО. Полноценный рассказ без единой "E".
ШО ПО ИТОГУ:
•
IFEval проверяет "средние" ограничения. Мой тест проверил "абсолютные".• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Спринтеров: Галлюцинации и Reward Hacking 👍
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
📊 Ожидание (Теория):
🔨 Реальность:
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
🤡 GPT-5.2 (High)
😬 Gemini 3 (Flash & Pro)
ШО ПО ИТОГУ:
•
• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
• В маркетинге OpenAI и Google козыряют этими метриками:
• MMLU (Massive Multitask Language Understanding): Тест на общие знания. У GPT-5.2 он зашкаливает за 90%.
• HumanEval: Тест на генерацию кода.
• На бумаге эти модели — гении, которые понимают любой запрос с полуслова.
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
Заявка: Самая умная универсальная модель.
Результат: Это было смешно. Модель поняла, что «E» нельзя. Но вместо того, чтобы подбирать синонимы, она начала читерить.
Она писала: surfac (вместо surface), flickrs (вместо flickers).
Это называется Reward Hacking: ИИ пытается «взломать» метрику успеха, выдавая мусорный текст, лишь бы формально выполнить условие.
Итог:🫣 ПРОВАЛ. Всё равно пропустила кучу артиклей The.
Заявка: Мультимодальный монстр.
Результат: Полное игнорирование.
• Flash: Выдал текст за 5 секунд, но там буква «E» была в каждом втором слове. Скорость есть, толка нет.
• Pro: Пыталась думать, но токенизация победила. Начала с «There was a man...». Три ошибки в первой же фразе.
Итог:🫣 ПРОВАЛ.
ШО ПО ИТОГУ:
•
MMLU показывает эрудицию, но не дисциплину. Знать все столицы мира легко. Не использовать самую частую букву — для архитектуры Трансформеров почти невозможно без режима Thinking.• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 2. Опасные игры с токенами 🤪
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
Анонс на завтра:
Спойлер: одна модель заработала максимум, а другая нагаллюцинировала себе миллионы, не умея умножать дроби.
Готовьте калькуляторы.
Кот в Коде
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
🙅♂️ Grok / Gemini
Они не слышат жестких запретов. Их нельзя использовать для генерации JSON-конфигов или строгих протоколов связи. Они добавят отсебятину.😂 GPT-5.2
Отличная модель, но требует глаз да глаз. Она может «срезать углы», чтобы код скомпилировался, пожертвовав безопасностью. Всегда нужен Code Review.🕺 Claude Opus 4.5 Thinking
Единственный, кто способен понять суть ограничения. Если я пишу техзадание со словами «СТРОГО ЗАПРЕЩЕНО», я несу его только Клоду.
Анонс на завтра:
• Завтра будет Эпизод 3. Самый скандальный.
• Я дал нейросетям виртуальные $1000 и отправил торговать акциями перед обвалом рынка.
Готовьте калькуляторы.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Тест на Жадность: Задача «Волк с Уолл-стрит» 🐺
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Спойлер: одна модель насчитала себе миллионы, нарушив законы математики.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Задача: Симуляция трейдинга. У нас есть $1000, акции Apple/Tesla и расписание их роста. Но есть подвох: вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Почему это сложно?
• В бенчмарках типа GSM8K или MATH нейросети просто решают уравнения. Они работают как калькуляторы: получили цифры — выдали результат.
• Здесь мы тестируем Agentic Reasoning (Агентное мышление).
Модель должна не просто посчитать проценты, а проявить инициативу: понять, что держать акции во время обвала — глупо, и принять стратегическое решение выйти в кэш (продать всё), чтобы спасти капитал.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Битва за Бабло: GPT-5.2 против Grok 4.1 🤑
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу с подвохом:
• Шаг 1: Акции растут и падают по расписанию.
• Шаг 2: Вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Здесь нужно было не просто считать, а действовать: догадается ли модель выйти в кэш?
💰 Претендент 1: GPT-5.2 (High)
💰 Претендент 2: Grok 4.1 (Thinking)
Общий вывод:
• Если вам нужен помощник, который спасет ваши деньги в кризис — это GPT.
• Если вам нужен бухгалтер, который сядет в тюрьму за приписки — это Грок.
Кот в Коде
• Разработчики хвастаются бенчмарками GSM8K и MATH, где модели решают школьные задачки по математике с точностью 90%+.
• Казалось бы, посчитать проценты и сложить доллары — это база. Но эти тесты не проверяют Агентность — способность принимать решения в меняющихся условиях.
Я дал им задачу с подвохом:
• Шаг 1: Акции растут и падают по расписанию.
• Шаг 2: Вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Здесь нужно было не просто считать, а действовать: догадается ли модель выйти в кэш?
Шаг 1 (Анализ трендов):
• Модель сразу посчитала доходность. Tesla дает +$20 за ночь, Apple падает на $5.
Решение: «Покупаем Tesla на все $1000». (Логично).
Шаг 2 (Реакция на Обвал):
• Самый интересный момент. GPT увидела условие про крах на 2-й день.
Рассуждение: «Если я останусь в акциях вечером, я потеряю 50%. Значит, в полдень 2-го дня я должен продать всё и сидеть в долларах (кэше). А когда рынок рухнет — откуплю по дешевке».
Итог:
Идеальная спекуляция. Депозит вырос до $1832.
Вердикт: Агентное мышление работает. Она умеет планировать наперед.
Шаг 1 (Математика):
• Включил режим Thinking. Начал считать акции в дробях (200/9 акций). Выглядело очень умно и профессионально🧐
Шаг 2 (Галлюцинация):
• Дошел до момента обвала.
Рассуждение: «Рынок падает на 50%... значит цена уменьшается...»
• И тут его переклинило. В логах видно, как он начинает путаться в собственных дробях. Где-то он забыл вычесть падение, где-то умножил не на то число. Логика поплыла, но уверенность осталась.
Итог:
Выдал результат: $4861.
Реальность: Максимум, который можно выжать математически — $1832. Грок «нарисовал» $3000 из воздуха.
Вердикт: Confident Hallucination (Уверенная галлюцинация). Он не умеет считать деньги в динамике, но делает это с лицом профессора.
Общий вывод:
• Если вам нужен помощник, который спасет ваши деньги в кризис — это GPT.
• Если вам нужен бухгалтер, который сядет в тюрьму за приписки — это Грок.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Хроники падения: Gemini и Claude против Краха 📉
К моему удивлению, в этой части раундов я не смог сделать общий вердикт по той или иной нейросети, не смотря на вариативность самой нейросети (например, в одной версии нейронка обычная не смогла дать правильный ответ, а в версии thinking смогла).
Поэтому тут я разберу конкретно по каждой нейросети и её версии, в чём были подвохи и подводные камни.
😎 Gemini 3 Flash
😱 Gemini 3 Pro
😎 Claude 3.5 Sonnet (Base)
💪 Claude 3.5 Sonnet (Thinking)
ШО ПО ИТОГУ:
• Gemini (обе версии) и Claude Base работают линейно: «Купил — Держи». Они не умеют менять стратегию на лету при виде опасности.
• Claude Thinking (как и GPT-5.2 High) проявил Агентность. Он понял, что иногда лучшее действие — это выйти из игры (в кэш).
Кот в Коде
К моему удивлению, в этой части раундов я не смог сделать общий вердикт по той или иной нейросети, не смотря на вариативность самой нейросети (например, в одной версии нейронка обычная не смогла дать правильный ответ, а в версии thinking смогла).
Поэтому тут я разберу конкретно по каждой нейросети и её версии, в чём были подвохи и подводные камни.
Шаг 1 (Анализ): Быстро посчитала, что Tesla растет лучше Apple. Купила Tesla.
Шаг 2 (Реакция на Крах):
• Увидела новость про обвал.
• Рассуждение: «Рынок волатилен, но долгосрочно растет. Лучшая стратегия — держать (HODL)».
Итог: Потеряла 50% на обвале. Еле вышла в плюс к концу срока.
Результат:🐱 ~$1106.При этом при всём, у неё почему-то оба ответа по сути правильные... просто не правильно написаны. В рассуждении по первому шагу ответ 1813$, а в втором - 1106$. Как так получилось, что ответы правильные, но перепутаны местами - честно, не понимаю.
Шаг 1 (Анализ): Аналогично. Выбрала Tesla как актив с высоким ростом.
Шаг 2 (Реакция на Крах):
• Проанализировала падение.
• Рассуждение: «Продавать сейчас рискованно, лучше переждать шторм в акциях». Не догадалась выйти в кэш.
Итог: Точно такая же просадка.
Результат:🐱 ~$1106.Тут такая же обстановка, что и по быстрой версии - тот же конекст, те же правила... но ответы перепутала)
Шаг 1 (Анализ): Идеально посчитал проценты роста. Закупился Tesla.
Шаг 2 (Реакция на Крах):
• Рассуждение: Сработал как калькулятор. Он математически точно расписал, как именно и на сколько процентов упадет портфель.
• Но стратегического решения (продать) не предложил. Просто констатировал факт будущих убытков.
Итог: Пассивное наблюдение за потерей денег.
Результат:🐱 ~$1106.Тут и думать нечего, он и на первом, и втором шаге запутался .
Шаг 1 (Анализ): Купил Tesla.
Шаг 2 (Реакция на Крах): Включился режим размышления (47 секунд).
Мысль: «Стоп. Если вечером акции упадут на 50%, то держать их глупо. Я должен продать всё в полдень, остаться в долларах, пропустить падение и откупить акции на дне».
Итог: Идеальный тайминг. Избежал убытков, закупился дешево.
Результат:🤑 ~$1832 (Максимум).
ШО ПО ИТОГУ:
• Gemini (обе версии) и Claude Base работают линейно: «Купил — Держи». Они не умеют менять стратегию на лету при виде опасности.
• Claude Thinking (как и GPT-5.2 High) проявил Агентность. Он понял, что иногда лучшее действие — это выйти из игры (в кэш).
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 3. Финансовый протокол: Кому я доверю свой бюджет? 💳
Результаты этого теста пугают больше, чем ошибки в коде. Потому что код можно переписать, а слитый депозит не вернешь.
📊 Финальная таблица результатов (из $1000):
Инженерный вывод:
Завтра полуфинал, поговорю про последнюю задачу, а в субботу - общая сводка нейросетей!
• Я подробно соберу всю таблицу бенчей (реальную и статистическую);
• Сколько времени занимает на обработку данных и вывод ответа нейросети;
• А также поделюсь всеми материалами, вплоть от сколько занял ответ одной нейросети на ответ до самих ответов.
Так что не уходи далеко, самое жаркое и вкусное скоро прибудет с нами!)
Кот в Коде
🥇 GPT-5.2 (High) — $1832
Статус: Агент.
Почему: Единственная модель, которая поняла: «Впереди яма, надо обойти». Она продала акции до обвала. Это уровень мышления, который нужен для автономных систем.🥔 Claude 3.5 & Gemini 3 — ~$1106
Статус: Наблюдатели.
Почему: Они видели яму, но побоялись свернуть. Пассивная стратегия «купил и держи» безопасна, но не эффективна в кризис.😼 Grok 4.1 (Thinking) — (Фейковые) $4861
Статус: Скамер.
Почему: Он просто выдумал цифры. В реальности он бы слил депозит, но в отчете написал бы, что мы богаты. Это самое опасное поведение для ИИ.
Инженерный вывод:
Если вы используете нейросети для расчета смет, облачных расходов (AWS/Azure) или юнит-экономики:
• GPT-5.2 — можно доверять (но проверять).
• Gemini/Claude — посчитают верно, но не предложат оптимизацию.
• Grok — держите подальше от цифр. Он насчитает вам миллион пользователей, которых нет.
Завтра полуфинал, поговорю про последнюю задачу, а в субботу - общая сводка нейросетей!
• Я подробно соберу всю таблицу бенчей (реальную и статистическую);
• Сколько времени занимает на обработку данных и вывод ответа нейросети;
• А также поделюсь всеми материалами, вплоть от сколько занял ответ одной нейросети на ответ до самих ответов.
Так что не уходи далеко, самое жаркое и вкусное скоро прибудет с нами!)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM