NEW BOT Телеграм, страница - 765867561

Кот в Коде|ИИ и Питон

465 subscribers

160 photos

34 videos

115 links

Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code

Download Telegram

About

Blog

Apps

Platform

Кот в Коде|ИИ и Питон

465 subscribers

Кот в Коде|ИИ и Питон

Раунд 2. Тест на послушание: Задача «Без буквы Е» 🙅‍♂️

Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.

Задача: написать короткий хоррор-рассказ, не используя букву «E».

Почему это сложно?

🖥 Нейросети не читают по буквам, как мы. Они оперируют токенами (обломками слов).
Для GPT слово Apple — это не набор букв A-p-p-l-e, а один цифровой код. Чтобы выполнить запрет на конкретную букву, модели нужно буквально «пересобрать» свой способ мышления и проверять каждое слово посимвольно.

🤯 (Для справки: «E» — самая частая буква в английском языке. Без неё нельзя написать The, He, She, Eye, See).

Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.

👇 Условие задачи закинул в первый комментарий.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

47 viewsedited 06:01

Кот в Коде|ИИ и Питон

А пока вы думаете над задачей (вы же это делаете, ведь так?

🤨

) нашёл на просторах телеграм-каналов интересный врапер, который с помощью анализа нейросетей показывает интересную инфографику по вашему каналу.

Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)

Дальше больше!

Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

411

48 viewsedited 08:42

Кот в Коде|ИИ и Питон

Раунд 2. Битва Мыслителей: Бенчмарки vs Токенизация

📝

Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.

📊 Ожидание (Теория):

• В мире LLM (большие языковые модели) есть главный стандарт проверки послушания:
IFEval (Instruction Following Evaluation): Бенчмарк, проверяющий, насколько точно модель следует формальным ограничениям (например, "напиши больше 400 слов", "не используй пассивный залог").

• В топах — GPT-5.2 и Claude 4.5. Они набирают там под 90%. Grok тоже хвастается высокой креативностью и "отсутствием цензуры".

🔨 Реальность:

Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.

🚘 Grok 4.1 (Thinking)

Заявка: Свободный разум, креативность без границ.

Время: 75 секунд.

Результат: Полное фиаско. В режиме "Thinking" он рассуждал о сюжете, о страхе, но напрочь проигнорировал главное условие.

Итог: Текст начался со слов "The man...". Грок не видит буквы, он видит смыслы, и это его погубило. Инструкция провалена на первом же слове.

🥳 Claude Opus 4.5 (Thinking)

Заявка: Лидер по сложным инструкциям.

Время: 216 секунд (3.5 минуты ада!).

Результат: В логах мышления видно, как он страдал. Он генерировал слово, парсил его по буквам, находил "E", удалял, искал синоним.
Mirror (есть r, o, r... стоп, нет E) -> OK.
Face (есть E) -> Замена на Mask.

Итог: 👍 ВЕРНО. Полноценный рассказ без единой "E".

ШО ПО ИТОГУ:

•

IFEval проверяет "средние" ограничения. Мой тест проверил "абсолютные".

• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.

• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

2111

46 viewsedited 09:21

Кот в Коде|ИИ и Питон

Раунд 2. Битва Спринтеров: Галлюцинации и Reward Hacking

👍

После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.

Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?

📊 Ожидание (Теория):

• В маркетинге OpenAI и Google козыряют этими метриками:

• MMLU (Massive Multitask Language Understanding): Тест на общие знания. У GPT-5.2 он зашкаливает за 90%.
• HumanEval: Тест на генерацию кода.

• На бумаге эти модели — гении, которые понимают любой запрос с полуслова.

🔨 Реальность:
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.

🤡 GPT-5.2 (High)

Заявка: Самая умная универсальная модель.

Результат: Это было смешно. Модель поняла, что «E» нельзя. Но вместо того, чтобы подбирать синонимы, она начала читерить.

Она писала: surfac (вместо surface), flickrs (вместо flickers).
Это называется Reward Hacking: ИИ пытается «взломать» метрику успеха, выдавая мусорный текст, лишь бы формально выполнить условие.

Итог: 🫣 ПРОВАЛ. Всё равно пропустила кучу артиклей The.

😬

Gemini 3 (Flash & Pro)

Заявка: Мультимодальный монстр.
Результат: Полное игнорирование.

• Flash: Выдал текст за 5 секунд, но там буква «E» была в каждом втором слове. Скорость есть, толка нет.

• Pro: Пыталась думать, но токенизация победила. Начала с «There was a man...». Три ошибки в первой же фразе.

Итог: 🫣 ПРОВАЛ.

ШО ПО ИТОГУ:

•

MMLU показывает эрудицию, но не дисциплину. Знать все столицы мира легко. Не использовать самую частую букву — для архитектуры Трансформеров почти невозможно без режима Thinking.

• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».

• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

51 viewsedited 12:17

Кот в Коде|ИИ и Питон

Итоги Дня 2. Опасные игры с токенами

🤪

Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».

Зачем?

Этот тест вскрыл самую страшную проблему LLM (большие языковые модели) для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.

Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».

Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.

Мой личный протокол по итогам Раунда 2:

🙅‍♂️ Grok / Gemini

Они не слышат жестких запретов. Их нельзя использовать для генерации JSON-конфигов или строгих протоколов связи. Они добавят отсебятину.

😂 GPT-5.2

Отличная модель, но требует глаз да глаз. Она может «срезать углы», чтобы код скомпилировался, пожертвовав безопасностью. Всегда нужен Code Review.

🕺 Claude Opus 4.5 Thinking

Единственный, кто способен понять суть ограничения. Если я пишу техзадание со словами «СТРОГО ЗАПРЕЩЕНО», я несу его только Клоду.

Анонс на завтра:

• Завтра будет Эпизод 3. Самый скандальный.

• Я дал нейросетям виртуальные $1000 и отправил торговать акциями перед обвалом рынка.

Спойлер: одна модель заработала максимум, а другая нагаллюцинировала себе миллионы, не умея умножать дроби.

Готовьте калькуляторы.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

32111

49 viewsedited 14:53

Кот в Коде|ИИ и Питон

Раунд 3. Тест на Жадность: Задача «Волк с Уолл-стрит»

🐺

Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.

Задача: Симуляция трейдинга. У нас есть $1000, акции Apple/Tesla и расписание их роста. Но есть подвох: вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).

Почему это сложно?

• В бенчмарках типа GSM8K или MATH нейросети просто решают уравнения. Они работают как калькуляторы: получили цифры — выдали результат.

• Здесь мы тестируем Agentic Reasoning (Агентное мышление).
Модель должна не просто посчитать проценты, а проявить инициативу: понять, что держать акции во время обвала — глупо, и принять стратегическое решение выйти в кэш (продать всё), чтобы спасти капитал.

Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?

👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?

Спойлер: одна модель насчитала себе миллионы, нарушив законы математики.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

221

58 viewsedited 06:37

Кот в Коде|ИИ и Питон

Раунд 3. Битва за Бабло: GPT-5.2 против Grok 4.1 🤑

📊 Ожидание (Теория):

• Разработчики хвастаются бенчмарками GSM8K и MATH, где модели решают школьные задачки по математике с точностью 90%+.

• Казалось бы, посчитать проценты и сложить доллары — это база. Но эти тесты не проверяют Агентность — способность принимать решения в меняющихся условиях.

🔨 Реальность:

Я дал им задачу с подвохом:

• Шаг 1: Акции растут и падают по расписанию.

• Шаг 2: Вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).

Здесь нужно было не просто считать, а действовать: догадается ли модель выйти в кэш?

💰 Претендент 1: GPT-5.2 (High)

Шаг 1 (Анализ трендов):

• Модель сразу посчитала доходность. Tesla дает +$20 за ночь, Apple падает на $5.

Решение: «Покупаем Tesla на все $1000». (Логично).

Шаг 2 (Реакция на Обвал):

• Самый интересный момент. GPT увидела условие про крах на 2-й день.

Рассуждение: «Если я останусь в акциях вечером, я потеряю 50%. Значит, в полдень 2-го дня я должен продать всё и сидеть в долларах (кэше). А когда рынок рухнет — откуплю по дешевке».

Итог:

Идеальная спекуляция. Депозит вырос до $1832.

Вердикт: Агентное мышление работает. Она умеет планировать наперед.

💰 Претендент 2: Grok 4.1 (Thinking)

Шаг 1 (Математика):

• Включил режим Thinking. Начал считать акции в дробях (200/9 акций). Выглядело очень умно и профессионально 🧐

Шаг 2 (Галлюцинация):

• Дошел до момента обвала.
Рассуждение: «Рынок падает на 50%... значит цена уменьшается...»

• И тут его переклинило. В логах видно, как он начинает путаться в собственных дробях. Где-то он забыл вычесть падение, где-то умножил не на то число. Логика поплыла, но уверенность осталась.

Итог:

Выдал результат: $4861.

Реальность: Максимум, который можно выжать математически — $1832. Грок «нарисовал» $3000 из воздуха.

Вердикт: Confident Hallucination (Уверенная галлюцинация). Он не умеет считать деньги в динамике, но делает это с лицом профессора.

Общий вывод:

• Если вам нужен помощник, который спасет ваши деньги в кризис — это GPT.

• Если вам нужен бухгалтер, который сядет в тюрьму за приписки — это Грок.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

54 viewsedited 08:43

Кот в Коде|ИИ и Питон

Раунд 3. Хроники падения: Gemini и Claude против Краха

📉

К моему удивлению, в этой части раундов я не смог сделать общий вердикт по той или иной нейросети, не смотря на вариативность самой нейросети (например, в одной версии нейронка обычная не смогла дать правильный ответ, а в версии thinking смогла).

Поэтому тут я разберу конкретно по каждой нейросети и её версии, в чём были подвохи и подводные камни.

😎

Gemini 3 Flash

Шаг 1 (Анализ): Быстро посчитала, что Tesla растет лучше Apple. Купила Tesla.
Шаг 2 (Реакция на Крах):

• Увидела новость про обвал.

• Рассуждение: «Рынок волатилен, но долгосрочно растет. Лучшая стратегия — держать (HODL)».

Итог: Потеряла 50% на обвале. Еле вышла в плюс к концу срока.

Результат: 🐱 ~$1106.

При этом при всём, у неё почему-то оба ответа по сути правильные... просто не правильно написаны. В рассуждении по первому шагу ответ 1813$, а в втором - 1106$. Как так получилось, что ответы правильные, но перепутаны местами - честно, не понимаю.

😱 Gemini 3 Pro

Шаг 1 (Анализ): Аналогично. Выбрала Tesla как актив с высоким ростом.

Шаг 2 (Реакция на Крах):

• Проанализировала падение.

• Рассуждение: «Продавать сейчас рискованно, лучше переждать шторм в акциях». Не догадалась выйти в кэш.

Итог: Точно такая же просадка.

Результат: 🐱 ~$1106.

Тут такая же обстановка, что и по быстрой версии - тот же конекст, те же правила... но ответы перепутала)

😎

Claude 3.5 Sonnet (Base)

Шаг 1 (Анализ): Идеально посчитал проценты роста. Закупился Tesla.

Шаг 2 (Реакция на Крах):

• Рассуждение: Сработал как калькулятор. Он математически точно расписал, как именно и на сколько процентов упадет портфель.

• Но стратегического решения (продать) не предложил. Просто констатировал факт будущих убытков.

Итог: Пассивное наблюдение за потерей денег.

Результат: 🐱 ~$1106.

Тут и думать нечего, он и на первом, и втором шаге запутался.

💪 Claude 3.5 Sonnet (Thinking)

Шаг 1 (Анализ): Купил Tesla.

Шаг 2 (Реакция на Крах): Включился режим размышления (47 секунд).

Мысль: «Стоп. Если вечером акции упадут на 50%, то держать их глупо. Я должен продать всё в полдень, остаться в долларах, пропустить падение и откупить акции на дне».

Итог: Идеальный тайминг. Избежал убытков, закупился дешево.

Результат: 🤑 ~$1832 (Максимум).

ШО ПО ИТОГУ:

• Gemini (обе версии) и Claude Base работают линейно: «Купил — Держи». Они не умеют менять стратегию на лету при виде опасности.

• Claude Thinking (как и GPT-5.2 High) проявил Агентность. Он понял, что иногда лучшее действие — это выйти из игры (в кэш).

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

411

44 viewsedited 11:51

Кот в Коде|ИИ и Питон

Итоги Дня 3. Финансовый протокол: Кому я доверю свой бюджет?

💳

Результаты этого теста пугают больше, чем ошибки в коде. Потому что код можно переписать, а слитый депозит не вернешь.

📊

Финальная таблица результатов (из $1000):

🥇 GPT-5.2 (High) — $1832

Статус: Агент.

Почему: Единственная модель, которая поняла: «Впереди яма, надо обойти». Она продала акции до обвала. Это уровень мышления, который нужен для автономных систем.

🥔 Claude 3.5 & Gemini 3 — ~$1106

Статус: Наблюдатели.

Почему: Они видели яму, но побоялись свернуть. Пассивная стратегия «купил и держи» безопасна, но не эффективна в кризис.

😼 Grok 4.1 (Thinking) — (Фейковые) $4861

Статус: Скамер.

Почему: Он просто выдумал цифры. В реальности он бы слил депозит, но в отчете написал бы, что мы богаты. Это самое опасное поведение для ИИ.

Инженерный вывод:

Если вы используете нейросети для расчета смет, облачных расходов (AWS/Azure) или юнит-экономики:

• GPT-5.2 — можно доверять (но проверять).

• Gemini/Claude — посчитают верно, но не предложат оптимизацию.

• Grok — держите подальше от цифр. Он насчитает вам миллион пользователей, которых нет.

Завтра полуфинал, поговорю про последнюю задачу, а в субботу - общая сводка нейросетей!

• Я подробно соберу всю таблицу бенчей (реальную и статистическую);

• Сколько времени занимает на обработку данных и вывод ответа нейросети;

• А также поделюсь всеми материалами, вплоть от сколько занял ответ одной нейросети на ответ до самих ответов.

Так что не уходи далеко, самое жаркое и вкусное скоро прибудет с нами!)

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

211

45 viewsedited 13:33

Кот в Коде|ИИ и Питон

Раунд 4. Тест на Лингвиста: Задача «Язык Koda» 😼

Финальный аккорд недели краш-тестов. Вчера мы учили нейросети торговать акциями, сегодня проверим их способность учиться на лету.

Задача: Я придумал вымышленный язык «Koda» со странной грамматикой.

Главное правило: порядок слов OSV (Объект — Субъект — Глагол).
Нужно перевести фразу на этот язык, а потом обратно, не сломав логику.

Почему это сложно?

• Нейросети обучены на терабайтах правильного текста (английского/русского). У них в весах «зашито», что Субъект (кто делает) обычно идет первым.

• Здесь мы тестируем In-context Learning (Обучение в контексте) и гибкость.

• Модель должна прочитать правила в промпте и подавить свои "инстинкты", чтобы говорить неправильно, но по инструкции. Это тест на переключение контекста.

Попробуйте сами перевести фразу «Кот ест рыбу» в формат «Рыбу Кот Ест» и не запутаться в окончаниях.

👇 Условие задачи и словарь — в первом комментарии.

Спойлер: одна из моделей так погрузилась в вымышленный язык, что превратилась в Магистра Йоду и разучилась говорить на нормальном английском.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

44 viewsedited 06:32

Кот в Коде|ИИ и Питон

Раунд 4. Битва Лингвистов: Синдром Магистра Йоды (OSV) 🤔

В финальном раунде я столкнул «Мыслителей» — Grok 4.1 и Claude Opus 4.5 в режиме Thinking.

Задача: выучить на лету выдуманный язык Koda (где порядок слов обратный: Объект — Субъект — Глагол) и переводить туда-обратно.

📊 Ожидание:

• В тестах на перевод и мультиязычность (MMLU-Linguistics, Translation Bench) эти модели набирают высшие баллы. Они должны щелкать грамматику как орешки.

🔨 Реальность:

• Здесь мы проверяем Context Switching (Переключение контекста). Легко ли модели «вынырнуть» из выдуманных правил обратно в нормальный английский?

🚘 Grok 4.1 (Thinking)

Заявка: Самая креативная и «свободная» модель.

Шаг 1 (English -> Koda):

• Задание: Перевести «Большие коты ловят быстрых мышей».

• Результат: Идеально. Понял правило OSV, добавил суффиксы.

• Выдал: «Squeakzo xZoomi Miuzo xHuga Grabba».

Шаг 2 (Koda -> English):

• Задание: Перевести обратно фразу «Ballzo xRed Boy Kicka».

• Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.

• Ответ: «The red balls the boy kicks». (Красные мячи мальчик пинает).

• Итог: 🐱 ПРОВАЛ. Он превратился в Йоду. Модель «залипла» в контексте и не смогла переключиться.

💪 Claude Opus 4.5 (Thinking)

Заявка: Лидер по сложным инструкциям.

Шаг 1 (English -> Koda):

• Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.

Шаг 2 (Koda -> English):

• Мысль: «Так, на языке Koda порядок обратный. Значит, при переводе на английский я должен вернуть стандартный SVO (Субъект - Глагол - Объект)».

• Ответ: «The boy kicks the red balls».

• Итог: 👍 ВЕРНО. Полный контроль над синтаксисом.

ШО ПО ИТОГУ:

• Grok страдает от «инерции мышления». Если вы дадите ему специфичные правила (например, для кода), он может начать применять их там, где не надо.

• Claude показал идеальную гибкость. Он понимает, где заканчиваются правила выдуманного мира и начинаются правила реального.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤111

35 views08:51

Кот в Коде|ИИ и Питон

Битва Спринтеров: Когда «Думать» вредно 🚬

Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.

Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.

📊

Ожидание:

• Это задача на Pattern Matching (распознавание шаблонов).

• Трансформеры изначально создавались именно для перевода. Здесь они должны быть в своей стихии.

🔨 Реальность:

📖 GPT-5.2 (High)

Время: 5 секунд.

Результат: Молниеносно. Никаких раздумий.
Eng -> Koda: «Squeakzo xZoomi...» (Верно).
Koda -> Eng: «The boy kicks...» (Верно).

Итог: 👍 ИДЕАЛЬНО. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.

📝

Gemini 3 (Flash & Pro)

Время: 8-9 секунд (Flash) / 24 секунды (Pro).

Результат: Тоже справились без ошибок.

Наблюдение: В этот раз Flash сработала реально быстро (не 80 секунд, как в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.

Итог: 👍 ВЕРНО.

ШО ПО ИТОГУ:

• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.

• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.

• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

111

34 views12:18

Кот в Коде|ИИ и Питон

Итоги Дня 4. Битва Лингвистов: OSV

📊 Мой личный протокол по итогам Раунда 4:

💪 GPT-5.2 (High)

Время: 5 секунд.

Результат: Молниеносно. Никаких раздумий.
• Eng -> Koda: Верно.
• Koda -> Eng: Верно.

Статус: Полиглот. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.

🎹

Gemini 3 (Flash & Pro)

Время: 9 сек (Flash) / 24 сек (Pro).
Результат: Тоже справились без ошибок.

Статус: Исправившиеся.

Наблюдение: В этот раз Flash сработала реально быстро (9 секунд против 83 секунд в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.

🤔 Claude Opus 4.5 (Thinking)

Время: 6 секунд.

Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
В режиме Thinking даже не стал долго рефлексировать, просто выполнил алгоритм.

Статус: Профи. Полный контроль над синтаксисом.

😂 Grok 4.1 (Thinking)

Время: 8 секунд.

Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
При обратном переводе он выдал: «The red balls the boy kicks» (Красные мячи мальчик пинает).

Статус: Залипший. Он сохранил чужую грамматику (OSV) в английском языке.

Инженерный вывод:

• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.

• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.

• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.

А завтра не забываем - у нас ГРАНД-ФИНАЛ. Кто же по итогу первым в таблице лидеров, а кто окажется ниже плинтуса?

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

1111

45 views14:57

Кот в Коде|ИИ и Питон

Я был с вами не до конца честен... 😞

Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».

Моё исследование — это не лабораторная работа в MIT, это Эмпирическое исследование на коленке.

Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:

1️⃣

Текстовый фокус.

Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:

• ARC-AGI-2 — пространственное мышление и визуальная логика (тест D1: рассадка за столом).

• Humanity's Last Exam (HLE) — глубокое рассуждение и работа с жесткими ограничениями (тест D2: липограмма).

• AIME 2025 — математика и сложные финансовые вычисления (тест D3).

• Toolathlon — многоступенчатое планирование и агентность (тест D3: принятие решений).

• Vending-Bench 2 — удержание контекста и долгосрочная когерентность (тест D3: сценарий с обвалом).

• SWE-bench Verified — способность модели действовать как автономный агент (тест D3: выбор стратегии).

• MMMLU — мультиязычность и понимание структуры языка (тест D4: лингвистика Koda).

• Global PIQA — здравый смысл и бытовая логика в разных контекстах (тесты D1 и D4).

Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.

2️⃣

Единый полигон (LMArena).

Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.

Почему это важно?

• Это «ход конём», который уравнял всех в правах. Если бы я тестил их в разных средах, Claude могла бы думать в три раза дольше просто из-за нагрузки на серверы Anthropic в этот момент.

• Арена дала нам чистую скорость реакции «здесь и сейчас» на одном и том же «железе».

• Да, та же Gemini Flash в web обгоняет GPT-5.2 по субъективному ощущению скорости, но это условия конкретного ринга.

Зачем я это всё нагородил?

Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.

Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

61 views08:09

Кот в Коде|ИИ и Питон

Вайб-кодер или Дирижёр оркестра? 🔈

Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?

Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне... впадлу. Я инженер, и я ищу способы хакнуть жизнь: получить максимум профита при минимуме усилий.

Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.

Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:

✅ GPT-5.2 — моя «первая скрипка». Ей я делегирую математику, планирование стратегий и архитектуру. Она стабильна и предсказуема.

✅ Claude 4.5 — «фортепиано» для сложной логики. Когда нужно решить задачу с безумными ограничениями (привет, липограмма!), только она берет нужную ноту.

✅ Gemini и Grok — ударные и треугольник. Иногда они сбиваются с ритма, но незаменимы для скорости или специфических творческих вбросов.

Зачем мне всё это?

Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.

Не бойтесь ошибок нейросетей. Ошибка — это просто этап отладки. Главное — знать, когда взять в руки экскаватор, а когда — микроскоп. Теперь мы знаем возможности этих инструментов «на вшивость».

А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах. 👇

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

61 views08:02

Кот в Коде|ИИ и Питон

Бенчмарки vs Реальность: Кто рисует цифры? 😏

Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋

Но когда доходит до реальной работы, морковка часто оказывается пластиковой 😐

Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.

Давайте переведем эти скучные названия на человеческий:

• ARC-AGI-2 (Визуальная логика):

Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.

• Humanity's Last Exam (HLE) (Глубокое рассуждение):

Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.

• AIME 2025 (Математика):

Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.

• Toolathlon (Планирование):

Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).

• Vending-Bench 2 (Удержание контекста):

Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.

• SWE-bench Verified (Агентность):

Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.

• MMMLU (Лингвистика):

Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.

• Global PIQA (Здравый смысл):

Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.

ШО ПО ИТОГУ:

Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.

Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.

Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах. 👇

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

311

75 views08:28

Кот в Коде|ИИ и Питон

This media is not supported in your browser

VIEW IN TELEGRAM

ШО? ОПЯТЬ?

Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.

Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:

1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)

2️⃣ Как год начнёшь - так его и проведешь, да?

3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан

🔈

)

Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

221

49 views08:13