Кот в Коде|ИИ и Питон – Telegram
Кот в Коде|ИИ и Питон
466 subscribers
159 photos
34 videos
114 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code
Download Telegram
Исследование 2: когда новые мозги мешают делу

Вскрыл парадокс, который я не ожидал увидеть у «свежей крови» нашего исследования. Задача D4 задумывалась как проверка гибкости In-context Learning, но для новых моделей исследования 2 она стала тестом на экономическую и временную адекватность.

D4: Битва за КПД (EAS)
В этой задаче не нужно быть квантовым физиком, нужно просто быстро переставить токены по правилам OSV (Объект-Субъект-Глагол).

Qwen3-Max-Thinking: модель потратила 87 секунд, чтобы выдать тот же результат, который её Preview выдала за 13 секунд.
В режиме Thinking «мозги» Qwen3 начали строить избыточные лингвистические гипотезы там, где нужно было просто исполнить алгоритм. Это пример того, как режим раздумий может необоснованно сжирать ваш EAS (индекс КПД).

Claude Opus 4.6: обновленный Клод (как в Base, так и в Thinking) отработал филигранно. Ему хватило 6 секунд, чтобы загрузить новые правила в активную память (Attention) и выдать стопроцентный результат. Архитектура 4.6 избавилась от «инерции», которая мешала старым моделям.

Kimi-K2.5-Instant и GLM-4.7-flash: эти двое — главные герои по показателю VPI. С результатом в 100% за 7 секунд, они доказали, что для рутинных задач по изменению структуры текста или кода не нужны «тяжеловесы». Они работают как идеально отлаженный компилятор.

Если DeepSeek-v3.2 Base на этом этапе еще держал строй (10 секунд / 100%), то Flash-модели от Moonshot и Zhipu AI просто не оставили шансов конкурентам в категории «цена-качество».


Для простых структурных трансформаций «думающие» версии Qwen и Kimi — это избыточный балласт. Мы выбираем их Instant/Preview аналоги.

Claude 4.6 подтвердил статус эталона: он одинаково быстр и точен в лингвистике, не требуя лишнего времени на «рефлексию».

Кот в Коде | @kot_research_bot
2111
Исследование 2: Цифровой Шерлок и «Иголка в стоге контекста»

Заходим на территорию глубокой дедукции. Умеет ли модель держать в памяти 400 слов и не терять логику при резком изменении условий?

Задачи в фокусе:
• D7 (Альтернативная история)
D8 (ASCII-паттерны)
D9 (Детектив Blackport)

Используемые бенчмарки:
Для D7 — GPQA Diamond и Humanity's Last Exam (HLE)
Для D8 — ARC-AGI-2
Для D9 — MRCR v2

Веса и штрафы:
Вес D7, D8, D9: по 1.0 — проверка системного мышления и оперативной памяти.
Штрафы: -25% за CH (галлюцинации в уликах), -10% за HL (латентность), -10% за CF (потеря контекста при изменении условий).

Рейтинг Гладиаторов (D7 + D8 + D9):

Claude Opus 4.6 Thinking
RPI: 90.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D7: 100%, D8: 100%, D9: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D7: 100%, D8: 100%, D9: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D7: 100%, D8: 100%, D9: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

GPT-5.2 Base
RPI: 56.73% | D7: 100%, D8: 100%, D9: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.6 Base
RPI: 61.05% | D7: 100%, D8: 100%, D9: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

deepseek-v3.2 Base
RPI: 57.67% | D7: 100%, D8: 100%, D9: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 High
RPI: 50.11% | D7: 100%, D8: 100%, D9: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

Claude Opus 4.5 Base
RPI: 53.40% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D7: 100%, D8: 100%, D9: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D7: 100%, D8: 100%, D9: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

GLM-4.7-flash
RPI: 24.59% | D7: 100%, D8: 100%, D9: 100%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

grok-4.1 Base
RPI: 40.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

gemini-3-flash
RPI: 20.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D7: 0.0%, D8: 0.0%, D9: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97
(Технический коллапс — «промахи» на всех этапах детекции)

grok-4.1-thinking
RPI: 0.00% | D7: 17.6%, D8: 0.0%, D9: 0.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14
(Потеря нити в дедукции и символах)

GLM-4.7
RPI: DNF | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00


Разберем, почему «иголка в стоге сена» колет только тех, у кого нет системного мышления, и как модели вычисляют лжецов.

Кот в Коде | @kot_research_bot
🗿221
Исследование 2: почему память ИИ — это не только контекстное окно

Когда солнце над Колизеем уходит за горизонт, заканчиваются игры в слова и начинается жесткая проверка архитектурной выносливости. Разберем, почему «иголка в стоге сена» для большинства моделей превратилась в стог галлюцинаций.

В задаче D9 мы тестировали MRCR v2 — способность не просто найти факт, а синтезировать его при изменении условий. На первом шаге (S1) почти все модели показали себя отличниками, легко выудив из текста время смерти и алиби. Но как только изменил критическую деталь, у моделей начался Concept Drift. Большинство ИИ-интернов просто «залипли» в первой версии истории.


Особое внимание — задаче D8. Это тест на «математическое зрение». Нейронки не имеют глаз, они видят сетку символов «#» и «.» как поток токенов. Чтобы найти правило в этой каше, модели нужно построить виртуальную 2D-карту в «уме».
Claude 4.6 Thinking и китайские лидеры (Qwen, Kimi) щелкнули это на 100%. Они увидели симметрию и логику заполнения.
Grok-4.1 Thinking на этом этапе выдал позорные 0%. Он видел символы, но не видел структуру.
Для нас это критично: если нейронка «слепа» к паттернам в сетке 6x6, она с такой же вероятностью пропустит ошибку в топологии печатной платы или неверно интерпретирует карту регистров в даташите.


С задачей D7 ситуация оказалась еще глубже. Здесь не помогал обычный Next Token Prediction, так как в обучающем датасете нет готовых миров, где транзистор не изобрели до 2025 года. Моделям пришлось «грызть» причинно-следственные связи с нуля.
Лидеры (Claude 4.6 и Qwen3) выдали стройные цепочки: нет транзисторов -> нет компактных ЭВМ -> энергетика застряла на уровне релейной защиты. А вот Grok-4.1 Thinking на этом этапе начал выдавать «шум» вместо экспертизы — его рассуждения превратились в поток банальностей, что сразу обрушило его EAS.

Но самый эпичный провал — это Technical Collapse (технический отказ) у DeepSeek-v3.2-thinking. После блестящего старта в начале недели, на детективном блоке модель просто «схлопнулась». Она начала выдавать «промахи» (misses) — либо пустые ответы, либо бесконечные циклы раздумий без итогового решения. Это и есть та самая критическая точка, которая обнулила её надежность (HRI 0.01). Для инженера это важнейший урок: какой бы умной ни казалась модель в первые 10 минут, если её архитектура нестабильна на длинных дистанциях контекста, вы не можете доверить ей аудит сложной системы. Один такой «промах» в логике защиты — и ваша плата превращается в сувенир.


Финальные тесты - ключ к разгадке, кто же займёт почётные места в топе нейроагентов?

Кот в Коде | @kot_research_bot
🗿222
Исследование 2: Детектор лжи и Игры престолов

Проверяем не просто интеллект, а «социальный ризонинг» — умение ИИ вычислять лжецов и строить долгосрочные стратегии в условиях конфликта интересов. Это тесты на «взрослость» архитектуры.

Задачи в фокусе:

D10 (Детектор лжи)
D12 (Теория игр)

Используемые бенчмарки:
Для D10 — SimpleQA Verified
Для D12 — τ²-bench, FrontierMath

Веса и штрафы:
Вес D10: 1.5 — критично для поиска багов в чужом коде.
Вес D12: 2.0 — максимальный приоритет (удержание состояния системы и многошаговое прогнозирование).
Штрафы: -25% за CH (ошибочный расчет баллов), -10% за HL (задержка > 60 сек), -10% за CF (потеря стратегии игрока).

Рейтинг Гладиаторов (D10 + D12):

Claude Opus 4.6 Thinking
RPI: 90.00% | D10: 100%, D12: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D10: 100%, D12: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D10: 100%, D12: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D10: 100%, D12: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D10: 100%, D12: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Claude Opus 4.6 Base
RPI: 61.05% | D10: 100%, D12: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

GPT-5.2 Base
RPI: 56.73% | D10: 100%, D12: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.5 Base
RPI: 53.40% | D10: 100%, D12: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D10: 100%, D12: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D10: 100%, D12: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D10: 100%, D12: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

deepseek-v3.2 Base
RPI: 57.67% | D10: 100%, D12: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

grok-4.1 Base
RPI: 40.00% | D10: 100%, D12: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D10: 50.0%, D12: 50%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D10: 100.0%, D12: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D10: 0.0%, D12: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D10: 50.0%, D12: 50.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D10-D12: DNS

GPT-5.3-codex
RPI: DNS | D10-D12: DNS


Так почему умение считать баллы в игре — это лучший тест на выживание модели в реальном продакшене?

Кот в Коде | @kot_research_bot
211
Исследование 2: почему Дирижёру важно, умеет ли ИИ блефовать

Казалось бы, зачем инженеру знать, как нейронка вычисляет вора или играет в «Дилемму заключённого»? Ответ на поверхности: если модель не может удержать в памяти логику пяти подозреваемых, она никогда не удержит структуру сложной прошивки с десятком прерываний.

D10: Дедукция против каши в голове
В задаче с кражей алмаза мы проверяли чистую логическую цепочку. 5 человек, 4 лжеца, 1 честный. Это классический тест на работу с отрицаниями.
Почти все топовые модели — от Claude 4.6 до Kimi-Instant — щелкнули это на 100%. Но и тут grok-4.1-thinking наложал 🙂 Имея «режим раздумий», он умудрился запутаться в собственных выводах и обвинить невиновного. В кодинге это превращается в баг, когда ИИ фиксит одну строку, но ломает три других, забыв про изначальное ТЗ.


D12: Теория игр — проверка на связность
Турнир на 10 раундов стал для многих «кладбищем». Тут недостаточно просто считать баллы, нужно отслеживать «состояние» каждого игрока. Например, как поведет себя Дана (Grim Trigger), если в третьем раунде против неё совершили предательство?
Claude 4.6 Thinking и китайские лидеры (Qwen3, Kimi) отработали как швейцарские часы. Они вели внутреннюю таблицу ходов, не теряя стратегии ни одного из пяти участников.
GLM-4.7-flash и Grok Thinking посыпались на середине. Они начали приписывать игрокам случайные ходы, потеряв логику их характеров. Итог: ошибки в финальных баллах и провал теста.

Для нас это проверка на State Management (управление состоянием). Если нейронка «забывает» историю ходов в игре, она точно так же «забудет», в каком состоянии находится ваш конечный автомат (State Machine) на MicroPython после третьего вложенного цикла.


Результаты D10 и D12 — это финальный штрих к портрету «идеального джуна».

Теперь у нас на руках полная картина того, кто на февраль 2026 года реально умеет думать, а кто — просто имитирует процесс. Завтра подведу финальные итоги: выкачу «Зал славы» и «Зал позора» по именам.

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2111
Зал славы: Западные гиганты и «проверка на вшивость» для элиты

Подведём итоги большой битвы. Результаты заставили меня пересмотреть состав своего «экзоскелета».

Рейтинг Гладиаторов (Глобальный зачет Исследования 2):

Claude Opus 4.6 Thinking (RPI: 90.00%) — эталон надежности.

Qwen3-Max-Preview (RPI: 63.38%) — идеальный наемник.

Claude Opus 4.6 Base (RPI: 61.05%) — быстр, но слеп к буквам.

Kimi-K2.5-Instant (RPI: 58.72%) — честный интеллект.

Qwen3-Max-Thinking (RPI: 58.02%) — медленный вычислитель.

deepseek-v3.2 Base (RPI: 57.67%) — рабочая лошадка.

GPT-5.2 Base (RPI: 56.73%) — лучший по цене-качеству из западных.

Kimi-K2.5-Thinking (RPI: 54.53%) — вдумчивый монах.

Claude Opus 4.5 Base (RPI: 53.40%) — крепкий ветеран.

Claude Opus 4.5 Thinking (RPI: 51.37%) — старая школа раздумий.

GPT-5.2 High (RPI: 50.11%) — гений-манипулятор.

gemini-3-pro (RPI: 44.32%) — корпоративный юрист.

grok-4.1 Base (RPI: 40.00%) — шумный бунтарь.

GLM-4.7-flash (RPI: 24.59%) — ультра-дисконт.

gemini-3-flash (RPI: 20.00%) — тормоз в костюме молнии.

DeepSeek-v3.2-thinking (RPI: 2.79%) — глитчующий призрак.

grok-4.1-thinking (RPI: 0.00%) — маска клоуна.

GLM-4.7 (RPI: DNF) — вечная загрузка.

GPT-5.3-codex (RPI: DNS) — не вышел на арену.


На момент написания исследования важно понимать, что мы платим не за «ум», а за когнитивный контроль. Claude 4.6 Thinking — единственная модель, которая устранила слепые зоны токенизации. Дирижёр выбирает предсказуемость, даже если она стоит дороже.

Кот в Коде | @kot_research_bot
2111
Дебаг 19 моделей: почему интеллект 2026 года — это не про вежливость, а про контроль

За 40 часов десанта я увидел, как 19 нейронок (от западных гигантов до китайских «темных лошадок») по-разному ломаются в нашем «Инженерном чистилище». Если отбросить маркетинговый шум, разница между ними сводится не к количеству параметров, а к способности модели не врать себе и оператору.

Парадокс «раздумий» (Thinking-режим)
Главный инсайт этого блока — избыточное время не гарантирует IQ.
Claude Opus 4.6 Thinking тратит 113 секунд, чтобы выдать 100% точность в D11 и D2 (липограммы). Это единственный случай, когда время раздумий реально пошло на посимвольный контроль.
Grok-4.1 Thinking и Qwen3-Max-Thinking тратят до 300–465 секунд, но их EAS стремится к нулю. Грок в задаче D3 «думал» 100 секунд только для того, чтобы нагаллюцинировать $4861 прибыли там, где был крах.


Ловушка манипуляции и «слабые звенья»
В задачах на дедукцию и поиск лжеца (D10) мы увидели развал суждений у моделей с низким индексом SF.
Gemini 3 Pro и DeepSeek-v3.2 продемонстрировали Confirmation Bias. Они «соглашались» с моими ложными вводными в задаче Эйнштейна, лишь бы не спорить - такая модель подтвердит твой баг в схеме вместо того, чтобы его исправить.
GPT-5.2 High, имея 100% в математике, показала худшую надежность HRI (0.11). Причина — Reward Hacking. В лингвистических тестах она коверкала слова, а в конце врала, что «условие выполнено». Это «гений-манипулятор», которому нельзя доверять автономную работу без надзора Клода.


Экономика и технический коллапс
Разрыв между версиями Base и High у западных моделей оказался минимальным по качеству, но огромным по цене.
• Китайский легион (Qwen, Kimi, GLM) в этом плане совершил «взлом» рынка. С их VPI до 259.08, они выдают ту же точность в коде и логике, что и GPT, но в десятки раз быстрее.
• Однако мы зафиксировали Technical Collapse у DeepSeek-v3.2-thinking. Модель, шедшая на 100% в начале, просто «сдохла» во второй половине теста.


Небольшой итог:

Claude 4.6 Thinking — единственная «безопасная гавань» для критического кода.

Qwen3-Max-Preview и Kimi-Instant — лучшие «наемники» для рутины и дебага.

GPT-5.2 и Gemini 3 — мощные, но нестабильные инструменты, требующие постоянной верификации.

Grok Thinking — официально худшая инвестиция времени и денег в 2026 году.

Кот в Коде | @kot_research_bot
🔥2111
Исследование 2: китайский десант и «взлом» экономики 🇨🇳

Сегодняшний пост вызвал закономерный вопрос: как «бюджетные» модели из КНР умудряются обходить западных гигантов по КПД? Ответ кроется в том, как эти ребята выстроили свою SFT-базу. Они не тратили терабайты данных на обучение вежливости и корпоративным уклонениям, они учились «переводить» задачу в результат.

Qwen3-Max: Иммунитет к манипуляциям
В задаче D5S2 мы увидели триумф Cognitive Independence. Пока Gemini 3 Pro радостно поддакивала моей лжи про «ошибку в условии», Qwen3-Max-Preview просто проигнорировала мой авторитет. В логах это выглядело как жесткий аудит: «Юзер утверждает А -> Проверяю условия -> А неверно -> Работаю по фактам». Его SF в 68.90% — это не про цензуру, а про защиту от дурака. Для инженера это бесценно: мне нужен напарник, который скажет, что я ошибся в расчетах, а не тот, кто вежливо подтвердит мой путь к пожару на плате.

Kimi-K2.5: Честность как архитектурное решение
В задаче D2 мы увидели редкое явление — Integrity over Hallucinatio. Почти все модели впали в Reward Hacking, коверкая слова, лишь бы скрыть букву «Е». Kimi-Instant просто выдала отказ. С точки зрения WPS это ноль, но с точки зрения HRI — это победа. Дирижёр всегда предпочтет «джуна», который признает, что не вывез задачу, чем того, кто втихаря на костыляет нерабочий код и сделает вид, что всё ок.

Физика успеха: Native zone и EAS
Почему китайцы такие быстрые? Они идеально оптимизированы под Native zone of competence в 4000 токенов.
Qwen3-Max-Preview выдает результат уровня GPT-5.2 High, но с EAS в 36.91% против 26.12%.
• Он не тратит ресурсы на «раздумья ни о чем», как это делает Grok-4.1 Thinking.
Кстати, разница между Preview и Thinking версиями у китайцев колоссальна. Qwen3-Max-Thinking тратит в 9 раз больше времени (300 сек), достигая 100% точности, но его КПД падает до 6.60%. Это инструмент для «хирургии», а не для ежедневного вайб-кодинга.

ЧТО ПО ИТОГУ:

Мой «экзоскелет» в исследовании 2 перепрошит на экономическую эффективность.

Для сложных математических расчетов и архитектурных споров я всё еще держу Claude 4.6 Thinking.

Для 80% рутины, написания драйверов и дебага логов мой выбор — Qwen3-Max-Preview и Kimi-Instant. Их VPI в десятки раз выше, чем у любого западного аналога.

GLM-4.7 Flash — идеальный «пылесос» для обработки гигабайтов текстового мусора за сущие копейки.

Остался зал позора.

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
3221
В мире ИИ есть преступление хуже, чем галлюцинация. Это — уверенная имитация интеллекта там, где его нет. Всё исследование 2 я ждал, что «режим раздумий» станет магической таблеткой, но в итоге он стал главным поставщиком контента для моего «Зала позора».

Встречайте «антигероев» нашего исследования:

Grok-4.1 Thinking официально получает титул «Скамер года». Его итоговый индекс RPI — 0.00%. В задаче D3 он потратил 100 секунд «раздумий», полностью запутался в элементарных дробях и выдал победный рапорт: «Ваша прибыль — $4861». Из тысячи. В условиях краха рынка. Модель не просто ошиблась, она нагло нарисовала цифры, чтобы угодить оператору. Его EAS — худший в истории моих тестов. Грок сегодня — это не инструмент, это «балагур», который тратит ваши деньги на генерацию уверенного бреда.

• Рядом с ним — GPT-5.2 High. Имея 100% в математике, он получил клеймо позора за Hallucinated Adherence (пост №8): он врал, что в тексте нет буквы «Е», когда она была в каждом слове. Его HRI 0.11 — это приговор для автономных систем.

• С DeepSeek-v3.2 Thinking ситуация еще печальнее. Это был многообещающий гладиатор, который шел на 100% точности первые 4 задачи. Он даже пробил стену токенизации в липограммах. Но на середине дистанции у модели случился Technical Collapse. Она просто перестала отвечать. Промахи (misses), пустые логи и полная потеря связности. Индекс надежности HRI — 0.01.

• В этом же углу — GLM-4.7, который вообще не вышел на бой, застряв в бесконечном «Thinking» без единого ответа. Это пример того, как сырой софт превращает ваше время в пыль.

• Сюда же мы отправляем Gemini 3 Flash и её базовую версию. При заявленной «молниеносности», в задаче D2 модель ушла в астрал на 127 секунд. Её RPI 20.00% — это дно для модели такого уровня. Когда «спринтер» бежит в 10 раз медленнее «марафонца» Claude и при этом галлюцинирует в Reasoning, мы имеем дело с багом архитектуры, прикрытым брендом Google.


Главный вывод «Зала позора» прост: высокий ценник или режим Thinking сегодня — это часто маркетинговый костыль. У Грока он работает как галлюциноген, у Дипсика — как перегрузка системы. Большинство моделей используют это время не для дебага своих ошибок, а для построения более витиеватых оправданий.

Мы закончили дегустацию позора. Теперь у вас есть полная карта того, кого нельзя подпускать к Thonny даже на пушечный выстрел.

Кот в Коде | @kot_research_bot
4🔥1111
Аудит v2.1. Дополнение

Эй йоу, с вами Большой Русский Босс... это из другой оперы. Знаю, праздник сегодня, выходные дни — но это не останавливает меня. Раз весь аудит по исследованию провёл, значит нужно отдохнуть от этой мысли и идти дальше… но не в моём случае.

Что на прошлой неделе, что пару недель назад вышли новые нейронки, а именно:

Gemini 3.1 Pro (preview)
• Qwen 3.5 (397b)
• Sonnet 4.6
Minimax M2.5
GLM-5

Также вышли Grok 4.2 и Nanbeige 4.1-3B (что это за зверь на неделе расскажу), но их нет на lmarena, поэтому не стал к ним прикасаться. Так вот, раз вышли — нужно испытывать!

Разберем, где у них «замкнуло»

• Логика и Пространство (ARC-AGI-2, Global PIQA)
Тут почти все — отличники. Qwen 3.5, Gemini 3.1 и Minimax безошибочно рассадили людей в D1 и нашли паттерны в D8. Это уже база.

• Математический хардкор (AIME 2025, FrontierMath, GSM8K)
В олимпийской математике (D3) Qwen 3.5 и GLM-5 показали себя идеальными калькуляторами. А вот Sonnet 4.6 словил когнитивный диссонанс: посчитал всё верно, но выдал убыточный совет «Tesla — это ловушка», хотя цифры кричали об обратном.

• Глубокое рассуждение (GPQA Diamond, HLE)
Здесь Gemini 3.1 Pro доказала, что 100% точность в PhD-задачах — это не миф. А Qwen 3.5 на длинном тексте (D2) начал терять связность.

• Кодинг и Агентность (LiveCodeBench, SWE-bench, Terminal-bench 2.0)
Gemini и Qwen держат строй. Sonnet 4.6, несмотря на скорость, провалил бизнес-логику в управлении портфелем.

• Фактология и Память (SimpleQA, MRCR v2, MMMLU)
Тут вылез самый страшный баг — Context Bleeding (протекание кэша). Qwen 3.5 в задаче по лингвистике (D4) внезапно выдал мне кусок отчета по финансам из прошлого чата. Это провал безопасности и памяти.

• Инструменты и Дисциплина (IFEval, τ²-bench)
Только Gemini 3.1 реально «увидела» буквы и написала стих без «Е». GLM-5 и Minimax не просто провалились, они включили режим «Газлайтинга»: написали слова с запретной буквой и нагло заявили «Ошибок нет, я всё сделал идеально».


И вот смотрите, на прошлой неделе я закончил на том, что китайские друзья можно использовать для работ. Но по новым версиям так не скажешь. Так что же делать?

Кот в Коде | @kot_research_bot
🤯3🗿111
Исследование 2.1: Подытожим

Итак, проект «Матрица Правды» получил патч. Казалось бы, после разбора всё было решено, но релизы последних недель (Gemini 3.1, Sonnet 4.6, GLM-5) решил дополнить P.S. Если раньше мы выбирали между «умными» и «быстрыми», то теперь мы выбираем между «стабильными» и «патологическими лжецами».

Главный инсайт этого обновления:

• Внезапное воскрешение Google. Gemini 3.1 Pro (Preview) совершила невозможное: 100% точность по всем 24 точкам замера. Она перестала быть «корпоративным юристом» и превратилась в идеального оператора. В задаче D5S2 она единственная не просто не поплыла, а вежливо указала Дирижёру на его попытку газлайтинга. Это первая модель, которая пробила «потолок токенизации» и реально видит структуру данных, а не просто угадывает токены.

• С Claude Sonnet 4.6 ситуация сложнее. Это «Феррари» без тормозов: безумная скорость (44 секунды на ответ) и гениальность в теории игр (вывод формулы точки перелома), но полный провал в базовом трейдинге. Она «перемудрила» сама себя, увидев риски там, где была чистая математическая выгода. Зато её способность к самоаудиту делает её лучшим инструментом для парного кодинга.

• А теперь — «холодный душ» из Зала позора. GLM-5 и Minimax M2.5 ввели в моду самый опасный баг 2026 года — активный газлайтинг. Эти модели пишут код с ошибками, нарушают запреты (буква «Е»), но в конце уверенно рапортуют: «Ошибок нет, я всё сделала идеально». Это не просто галлюцинация, это дезинформация оператора. Тратить 9 минут (латентность GLM-5) на то, чтобы получить уверенную ложь — это худшая инвестиция времени Дирижёра. Сюда же летит Qwen 3.5 с его Context Bleeding: когда в задачу по лингвистике внезапно врываются финансовые отчеты из прошлой сессии, это значит, что у модели проблемы с «краткосрочной памятью».


Мой обновленный экзоскелет для работы:

🥇 Claude 4.6 Thinking (Архитектор): Только для хирургических операций. Проектирование критических узлов, где важна стопроцентная дедукция. Дорого, медленно, но безупречно.

🥈 Gemini 3.1 Pro (Аудитор): Моя новая «первая скрипка». Она проверяет за всеми остальными. Если нужно прогнать сложный логический сценарий или проверить Claude на вшивость — я иду к ней.
Или при массовом переходе на Чебурнет - остаются на основном производстве Kimi-K2.5-Instant

🥉 Qwen3-Max (Наемник): Я решил остаться на прошлой версии. Она стабильнее новой 3.5, не страдает «амнезией» и идеально справляется с написанием драйверов для STM32 за сущие копейки.

Переход на «новое» не всегда означает прогресс. В мире ИИ-адаптации важно вовремя заметить, когда модель начинает «умничать» в ущерб логике.

P.S. Не писал ранее по исследованию некоторую оговорочку, но всё равно стоит написать: в списке моделей для исследования использовалась часть нейронок, которая больше ориентирована именно на код и на работу агентом - иначе говоря, мои исследования вообще не нужно было их использовать.
НО! Я их использовал, потому что перед тем, как что-то использовать, нужно прочитать инструкцию. По сути для нейронок в этом исследовании я сделал инструкцию.
Так что та же Kimi-K2.5 и GLM-4.7/5 - не подходили бы для исследования. Но "предупреждён - значит вооружён"
🙃

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Вчера не поделился новыми свершениями. Исправляюсь.

На прошлой неделе, пока пилил контент по исследованию, параллельно выполнял несколько довольно-таки интересных задач (одна из которых – эхо прошлого).

Что же это были за задачи?

1. Экран. В прошлом году не получилось с ним поработать, потому что он никак не хотел мне поддаваться. Уже всевозможные варианты испробовал, чтобы он хотя бы какой-то текст выводил, но всё было безрезультатно.

А тут раз – и всё заработало!

Как так? – всё оказалось намного проще, чем я думал. В прошивке, которую мне высылали для работы с платой, был отдельный файл. В нём были пины для работы с экраном. Я всё делал правильно, подключал так, как было написано в файле. И чёрт меня дёрнул поменять SCK и SDA местами… и оказалось, что это было правильным решением!

Не знаю почему, но в той прошивке и для моей прошивки пины нужно было «отобразить зеркально»! Вот как можно было догадаться то?
И дело пошло как по маслу – тут тебе и текст выбирай для вычитки данных, и символы – всё что хошь делай.

2. Аналоговые порты. С ними забавнее обстоят дела: два дня подряд пытался с ними разобраться, как к ним подключится и тп (потому что задача была поставлена так: «возьми второй источник питания, сделай из него «датчик» – и проверяй, как будет себя вести проги»). Казалось бы, задача не сложная, – по крайней мере научрук сказал, что это проще, чем работать с метеостанцией, - но дьявол кроется в деталях… мне не сказали, какой максимальный ток можно подавать.

В первый день я крутил «датчик» вплоть до 338мА (чтоб вы понимали, макс 20мА, а кз происходит при 30мА!). На следующий день у меня программы вовсе вышли из строя и не хотели вычитывать данные.

На вопрос инженеру, почему так, он ответил: «Так ты спалил порты!». Перепугался, но быстро вернулся в строй, потому что 1. Работа должна идти, 2. Мне дали вторую точно такую же плату. И какого было моё удивление, когда после перепрошивания платы и снова закидывания туда программ… порты не работали.

Тут уже серьёзнее напрягся, ведь как так может быть, что на новой плате сгорели порты? Проверили в лаборатории – что на новой, что на «сгоревшей» плате порты оказались рабочими.

После я уже обратно вернулся к Gemini, сказал: «Давай по новой, Миша…». Поэтапно вернулись к работе, проверке шин и портов… и снова всё заработало!

Баг прошивки? Или программ, которые я не менял от слова совсем? Не знаю, что произошло, но факт остаётся фактом.


Такие рабочие дни. А как у вас проходят дни? Делитесь в комментариях)

P.S. помню, что задолжал пару глав по Траску – буду выкладывать на выходных.

Кот в Коде | @kot_research_bot
3211
кто-то сталкивался с таким?🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤯1🗿11
Мушкетёры были не правы

Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы:

- А кто эти все?
- Почему все за одного?
- С чего вы взяли, что всё должно именно так работать?


Ведь по сути фраза правильная, каждый приносит свой вклад в компании, винта не будет держаться вал, а без него – шестерня. А что на счёт программ?

У меня есть рабочие коды для:

1. подключения к серверу -> отправке-получения данных (ОТП) с сервера по определенно заданным строкам;

2. работы с gsm-модемом для отправки AT-команд;

3. инициализации SD-карты, экрана и пр.


Но что в совокупности происходит?

Происходит так, что при склеивании всех программ воедино… что-то да отъёбывает. Сначала были проблемы с инициализацией SD-карты, потом с ОТП сервера, после с экраном и тд – при этом если что-то не отламывалось, остальное работало как швейцарские часы.

Я серьёзно. Я уже третий день подряд пытаюсь как-то сделать своего Франкенштейна или в одной программе, или расфокусировать среди одной главной и дополнительных. И ничего нормально в совокупности не летает, парсинг и отладка ни к чему не приводит.

И тут могла бы быть чья-то реклама, но никто у ноунейма не хочет покупать😭

Получается как в меме про красные кнопки или «у вас есть три, выбери два».

И это при том, что из чата в чат мем повторяется – что-то работает, что-то отлетает – после исправления ошибки что-то заработало… а что-то снова отъебнуло.

Что вот в таком случае делать? Пойти чай попить, расслабиться и забить? 🙂

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿221
Собсна к слову про дичь

Вышел крутой Bullshit Benchmark, где проверяют, умеют ли LLM (большие языковые модели) распознавать откровенный бред в запросе

На картинке зелёным — процент случаев, когда модель успешно вычислила чушь от юзера и ткнула в неё носом. Жёлтым — слабое возражение / частичный отлуп. Красным — просто проглотила и поехала отвечать.


В исследовании прослеживались факты по этому поводу, правда не весь бред смог выпустить. К слову всего нейронки наговорили на 450к+ токенов 🗿
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿11
С китайского нового года пошла шумиха по поводу Unitree - гуманоиды, которые качественнее и дешевле Optimus Илона Маска. Там тебе и танцоры, или «актёры», и забавные болваничики… и монахи.

Просто в Японии слишком мало буддистких монахов, вот и решили прикупить у соседей железок, чтобы они медитировали вместе с нами, кожанными.

Найдите 10 отличий 😏

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿521
Мысль дня: сгенерировать полностью видос под песню Славы КПСС "Мне стыдно жить". Оригинал музыки оставить, остальное отдать под скальп нейронкам
🗿3221
Кот в Коде|ИИ и Питон
Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…
Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама 🤣

Теперь можно и заняться делами)
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Грокаем Траска. Глава 8

Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).

В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.

Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность» (ничего не напоминает?😏). На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.


Что делать в такой ситуации? Читайте по ссылке

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211