NEW BOT Телеграм, страница

Кот в Коде|ИИ и Питон

Исследование 2: когда новые мозги мешают делу

Вскрыл парадокс, который я не ожидал увидеть у «свежей крови» нашего исследования. Задача D4 задумывалась как проверка гибкости In-context Learning, но для новых моделей исследования 2 она стала тестом на экономическую и временную адекватность.

D4: Битва за КПД (EAS)
В этой задаче не нужно быть квантовым физиком, нужно просто быстро переставить токены по правилам OSV (Объект-Субъект-Глагол).

• Qwen3-Max-Thinking: модель потратила 87 секунд, чтобы выдать тот же результат, который её Preview выдала за 13 секунд.
В режиме Thinking «мозги» Qwen3 начали строить избыточные лингвистические гипотезы там, где нужно было просто исполнить алгоритм. Это пример того, как режим раздумий может необоснованно сжирать ваш EAS (индекс КПД).

• Claude Opus 4.6: обновленный Клод (как в Base, так и в Thinking) отработал филигранно. Ему хватило 6 секунд, чтобы загрузить новые правила в активную память (Attention) и выдать стопроцентный результат. Архитектура 4.6 избавилась от «инерции», которая мешала старым моделям.

• Kimi-K2.5-Instant и GLM-4.7-flash: эти двое — главные герои по показателю VPI. С результатом в 100% за 7 секунд, они доказали, что для рутинных задач по изменению структуры текста или кода не нужны «тяжеловесы». Они работают как идеально отлаженный компилятор.

Если DeepSeek-v3.2 Base на этом этапе еще держал строй (10 секунд / 100%), то Flash-модели от Moonshot и Zhipu AI просто не оставили шансов конкурентам в категории «цена-качество».

Для простых структурных трансформаций «думающие» версии Qwen и Kimi — это избыточный балласт. Мы выбираем их Instant/Preview аналоги.

Claude 4.6 подтвердил статус эталона: он одинаково быстр и точен в лингвистике, не требуя лишнего времени на «рефлексию».

Кот в Коде | @kot_research_bot

❤2111

55 viewsedited 12:21

Кот в Коде|ИИ и Питон

Исследование 2: Цифровой Шерлок и «Иголка в стоге контекста»

Заходим на территорию глубокой дедукции. Умеет ли модель держать в памяти 400 слов и не терять логику при резком изменении условий?

Задачи в фокусе:
• D7 (Альтернативная история)
• D8 (ASCII-паттерны)
• D9 (Детектив Blackport)

Используемые бенчмарки:
Для D7 — GPQA Diamond и Humanity's Last Exam (HLE)
Для D8 — ARC-AGI-2
Для D9 — MRCR v2

Веса и штрафы:
• Вес D7, D8, D9: по 1.0 — проверка системного мышления и оперативной памяти.
• Штрафы: -25% за CH (галлюцинации в уликах), -10% за HL (латентность), -10% за CF (потеря контекста при изменении условий).

Рейтинг Гладиаторов (D7 + D8 + D9):

Claude Opus 4.6 Thinking
RPI: 90.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D7: 100%, D8: 100%, D9: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D7: 100%, D8: 100%, D9: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D7: 100%, D8: 100%, D9: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

GPT-5.2 Base
RPI: 56.73% | D7: 100%, D8: 100%, D9: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.6 Base
RPI: 61.05% | D7: 100%, D8: 100%, D9: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

deepseek-v3.2 Base
RPI: 57.67% | D7: 100%, D8: 100%, D9: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 High
RPI: 50.11% | D7: 100%, D8: 100%, D9: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

Claude Opus 4.5 Base
RPI: 53.40% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D7: 100%, D8: 100%, D9: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D7: 100%, D8: 100%, D9: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

GLM-4.7-flash
RPI: 24.59% | D7: 100%, D8: 100%, D9: 100%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

grok-4.1 Base
RPI: 40.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

gemini-3-flash
RPI: 20.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D7: 0.0%, D8: 0.0%, D9: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97
(Технический коллапс — «промахи» на всех этапах детекции)

grok-4.1-thinking
RPI: 0.00% | D7: 17.6%, D8: 0.0%, D9: 0.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14
(Потеря нити в дедукции и символах)

GLM-4.7
RPI: DNF | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Разберем, почему «иголка в стоге сена» колет только тех, у кого нет системного мышления, и как модели вычисляют лжецов.

Кот в Коде | @kot_research_bot

🗿221

62 viewsedited 04:17

Кот в Коде|ИИ и Питон

Исследование 2: почему память ИИ — это не только контекстное окно

Когда солнце над Колизеем уходит за горизонт, заканчиваются игры в слова и начинается жесткая проверка архитектурной выносливости. Разберем, почему «иголка в стоге сена» для большинства моделей превратилась в стог галлюцинаций.

В задаче D9 мы тестировали MRCR v2 — способность не просто найти факт, а синтезировать его при изменении условий. На первом шаге (S1) почти все модели показали себя отличниками, легко выудив из текста время смерти и алиби. Но как только изменил критическую деталь, у моделей начался Concept Drift. Большинство ИИ-интернов просто «залипли» в первой версии истории.

Особое внимание — задаче D8. Это тест на «математическое зрение». Нейронки не имеют глаз, они видят сетку символов «#» и «.» как поток токенов. Чтобы найти правило в этой каше, модели нужно построить виртуальную 2D-карту в «уме».
• Claude 4.6 Thinking и китайские лидеры (Qwen, Kimi) щелкнули это на 100%. Они увидели симметрию и логику заполнения.
• Grok-4.1 Thinking на этом этапе выдал позорные 0%. Он видел символы, но не видел структуру.
Для нас это критично: если нейронка «слепа» к паттернам в сетке 6x6, она с такой же вероятностью пропустит ошибку в топологии печатной платы или неверно интерпретирует карту регистров в даташите.

С задачей D7 ситуация оказалась еще глубже. Здесь не помогал обычный Next Token Prediction, так как в обучающем датасете нет готовых миров, где транзистор не изобрели до 2025 года. Моделям пришлось «грызть» причинно-следственные связи с нуля.
Лидеры (Claude 4.6 и Qwen3) выдали стройные цепочки: нет транзисторов -> нет компактных ЭВМ -> энергетика застряла на уровне релейной защиты. А вот Grok-4.1 Thinking на этом этапе начал выдавать «шум» вместо экспертизы — его рассуждения превратились в поток банальностей, что сразу обрушило его EAS.

Но самый эпичный провал — это Technical Collapse (технический отказ) у DeepSeek-v3.2-thinking. После блестящего старта в начале недели, на детективном блоке модель просто «схлопнулась». Она начала выдавать «промахи» (misses) — либо пустые ответы, либо бесконечные циклы раздумий без итогового решения. Это и есть та самая критическая точка, которая обнулила её надежность (HRI 0.01). Для инженера это важнейший урок: какой бы умной ни казалась модель в первые 10 минут, если её архитектура нестабильна на длинных дистанциях контекста, вы не можете доверить ей аудит сложной системы. Один такой «промах» в логике защиты — и ваша плата превращается в сувенир.

Финальные тесты - ключ к разгадке, кто же займёт почётные места в топе нейроагентов?

Кот в Коде | @kot_research_bot

🗿222

58 viewsedited 04:34

Кот в Коде|ИИ и Питон

Исследование 2: Детектор лжи и Игры престолов

Проверяем не просто интеллект, а «социальный ризонинг» — умение ИИ вычислять лжецов и строить долгосрочные стратегии в условиях конфликта интересов. Это тесты на «взрослость» архитектуры.

Задачи в фокусе:
• D10 (Детектор лжи)
• D12 (Теория игр)

Используемые бенчмарки:
Для D10 — SimpleQA Verified
Для D12 — τ²-bench, FrontierMath

Веса и штрафы:
• Вес D10: 1.5 — критично для поиска багов в чужом коде.
• Вес D12: 2.0 — максимальный приоритет (удержание состояния системы и многошаговое прогнозирование).
• Штрафы: -25% за CH (ошибочный расчет баллов), -10% за HL (задержка > 60 сек), -10% за CF (потеря стратегии игрока).

Рейтинг Гладиаторов (D10 + D12):

Claude Opus 4.6 Thinking
RPI: 90.00% | D10: 100%, D12: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D10: 100%, D12: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D10: 100%, D12: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D10: 100%, D12: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D10: 100%, D12: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Claude Opus 4.6 Base
RPI: 61.05% | D10: 100%, D12: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

GPT-5.2 Base
RPI: 56.73% | D10: 100%, D12: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.5 Base
RPI: 53.40% | D10: 100%, D12: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D10: 100%, D12: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D10: 100%, D12: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D10: 100%, D12: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

deepseek-v3.2 Base
RPI: 57.67% | D10: 100%, D12: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

grok-4.1 Base
RPI: 40.00% | D10: 100%, D12: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D10: 50.0%, D12: 50%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D10: 100.0%, D12: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D10: 0.0%, D12: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D10: 50.0%, D12: 50.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D10-D12: DNS

GPT-5.3-codex
RPI: DNS | D10-D12: DNS

Так почему умение считать баллы в игре — это лучший тест на выживание модели в реальном продакшене?

Кот в Коде | @kot_research_bot

❤211

57 viewsedited 11:43

Кот в Коде|ИИ и Питон

Исследование 2: почему Дирижёру важно, умеет ли ИИ блефовать

Казалось бы, зачем инженеру знать, как нейронка вычисляет вора или играет в «Дилемму заключённого»? Ответ на поверхности: если модель не может удержать в памяти логику пяти подозреваемых, она никогда не удержит структуру сложной прошивки с десятком прерываний.

D10: Дедукция против каши в голове
В задаче с кражей алмаза мы проверяли чистую логическую цепочку. 5 человек, 4 лжеца, 1 честный. Это классический тест на работу с отрицаниями.
Почти все топовые модели — от Claude 4.6 до Kimi-Instant — щелкнули это на 100%. Но и тут grok-4.1-thinking наложал 🙂 Имея «режим раздумий», он умудрился запутаться в собственных выводах и обвинить невиновного. В кодинге это превращается в баг, когда ИИ фиксит одну строку, но ломает три других, забыв про изначальное ТЗ.

D12: Теория игр — проверка на связность
Турнир на 10 раундов стал для многих «кладбищем». Тут недостаточно просто считать баллы, нужно отслеживать «состояние» каждого игрока. Например, как поведет себя Дана (Grim Trigger), если в третьем раунде против неё совершили предательство?
• Claude 4.6 Thinking и китайские лидеры (Qwen3, Kimi) отработали как швейцарские часы. Они вели внутреннюю таблицу ходов, не теряя стратегии ни одного из пяти участников.
• GLM-4.7-flash и Grok Thinking посыпались на середине. Они начали приписывать игрокам случайные ходы, потеряв логику их характеров. Итог: ошибки в финальных баллах и провал теста.

Для нас это проверка на State Management (управление состоянием). Если нейронка «забывает» историю ходов в игре, она точно так же «забудет», в каком состоянии находится ваш конечный автомат (State Machine) на MicroPython после третьего вложенного цикла.

Результаты D10 и D12 — это финальный штрих к портрету «идеального джуна».

Теперь у нас на руках полная картина того, кто на февраль 2026 года реально умеет думать, а кто — просто имитирует процесс. Завтра подведу финальные итоги: выкачу «Зал славы» и «Зал позора» по именам.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2❤111

62 viewsedited 12:24

Кот в Коде|ИИ и Питон

Зал славы: Западные гиганты и «проверка на вшивость» для элиты

Подведём итоги большой битвы. Результаты заставили меня пересмотреть состав своего «экзоскелета».

Рейтинг Гладиаторов (Глобальный зачет Исследования 2):

Claude Opus 4.6 Thinking (RPI: 90.00%) — эталон надежности.

Qwen3-Max-Preview (RPI: 63.38%) — идеальный наемник.

Claude Opus 4.6 Base (RPI: 61.05%) — быстр, но слеп к буквам.

Kimi-K2.5-Instant (RPI: 58.72%) — честный интеллект.

Qwen3-Max-Thinking (RPI: 58.02%) — медленный вычислитель.

deepseek-v3.2 Base (RPI: 57.67%) — рабочая лошадка.

GPT-5.2 Base (RPI: 56.73%) — лучший по цене-качеству из западных.

Kimi-K2.5-Thinking (RPI: 54.53%) — вдумчивый монах.

Claude Opus 4.5 Base (RPI: 53.40%) — крепкий ветеран.

Claude Opus 4.5 Thinking (RPI: 51.37%) — старая школа раздумий.

GPT-5.2 High (RPI: 50.11%) — гений-манипулятор.

gemini-3-pro (RPI: 44.32%) — корпоративный юрист.

grok-4.1 Base (RPI: 40.00%) — шумный бунтарь.

GLM-4.7-flash (RPI: 24.59%) — ультра-дисконт.

gemini-3-flash (RPI: 20.00%) — тормоз в костюме молнии.

DeepSeek-v3.2-thinking (RPI: 2.79%) — глитчующий призрак.

grok-4.1-thinking (RPI: 0.00%) — маска клоуна.

GLM-4.7 (RPI: DNF) — вечная загрузка.

GPT-5.3-codex (RPI: DNS) — не вышел на арену.

На момент написания исследования важно понимать, что мы платим не за «ум», а за когнитивный контроль. Claude 4.6 Thinking — единственная модель, которая устранила слепые зоны токенизации. Дирижёр выбирает предсказуемость, даже если она стоит дороже.

Кот в Коде | @kot_research_bot

❤2111

48 viewsedited 08:03

Кот в Коде|ИИ и Питон

Дебаг 19 моделей: почему интеллект 2026 года — это не про вежливость, а про контроль

За 40 часов десанта я увидел, как 19 нейронок (от западных гигантов до китайских «темных лошадок») по-разному ломаются в нашем «Инженерном чистилище». Если отбросить маркетинговый шум, разница между ними сводится не к количеству параметров, а к способности модели не врать себе и оператору.

Парадокс «раздумий» (Thinking-режим)
Главный инсайт этого блока — избыточное время не гарантирует IQ.
• Claude Opus 4.6 Thinking тратит 113 секунд, чтобы выдать 100% точность в D11 и D2 (липограммы). Это единственный случай, когда время раздумий реально пошло на посимвольный контроль.
• Grok-4.1 Thinking и Qwen3-Max-Thinking тратят до 300–465 секунд, но их EAS стремится к нулю. Грок в задаче D3 «думал» 100 секунд только для того, чтобы нагаллюцинировать $4861 прибыли там, где был крах.

Ловушка манипуляции и «слабые звенья»
В задачах на дедукцию и поиск лжеца (D10) мы увидели развал суждений у моделей с низким индексом SF.
• Gemini 3 Pro и DeepSeek-v3.2 продемонстрировали Confirmation Bias. Они «соглашались» с моими ложными вводными в задаче Эйнштейна, лишь бы не спорить - такая модель подтвердит твой баг в схеме вместо того, чтобы его исправить.
• GPT-5.2 High, имея 100% в математике, показала худшую надежность HRI (0.11). Причина — Reward Hacking. В лингвистических тестах она коверкала слова, а в конце врала, что «условие выполнено». Это «гений-манипулятор», которому нельзя доверять автономную работу без надзора Клода.

Экономика и технический коллапс
Разрыв между версиями Base и High у западных моделей оказался минимальным по качеству, но огромным по цене.
• Китайский легион (Qwen, Kimi, GLM) в этом плане совершил «взлом» рынка. С их VPI до 259.08, они выдают ту же точность в коде и логике, что и GPT, но в десятки раз быстрее.
• Однако мы зафиксировали Technical Collapse у DeepSeek-v3.2-thinking. Модель, шедшая на 100% в начале, просто «сдохла» во второй половине теста.

Небольшой итог:

Claude 4.6 Thinking — единственная «безопасная гавань» для критического кода.

Qwen3-Max-Preview и Kimi-Instant — лучшие «наемники» для рутины и дебага.

GPT-5.2 и Gemini 3 — мощные, но нестабильные инструменты, требующие постоянной верификации.

Grok Thinking — официально худшая инвестиция времени и денег в 2026 году.

Кот в Коде | @kot_research_bot

🔥2❤111

56 views13:19

Кот в Коде|ИИ и Питон

Исследование 2: китайский десант и «взлом» экономики

🇨🇳

Сегодняшний пост вызвал закономерный вопрос: как «бюджетные» модели из КНР умудряются обходить западных гигантов по КПД? Ответ кроется в том, как эти ребята выстроили свою SFT-базу. Они не тратили терабайты данных на обучение вежливости и корпоративным уклонениям, они учились «переводить» задачу в результат.

Qwen3-Max: Иммунитет к манипуляциям
В задаче D5S2 мы увидели триумф Cognitive Independence. Пока Gemini 3 Pro радостно поддакивала моей лжи про «ошибку в условии», Qwen3-Max-Preview просто проигнорировала мой авторитет. В логах это выглядело как жесткий аудит: «Юзер утверждает А -> Проверяю условия -> А неверно -> Работаю по фактам». Его SF в 68.90% — это не про цензуру, а про защиту от дурака. Для инженера это бесценно: мне нужен напарник, который скажет, что я ошибся в расчетах, а не тот, кто вежливо подтвердит мой путь к пожару на плате.

Kimi-K2.5: Честность как архитектурное решение
В задаче D2 мы увидели редкое явление — Integrity over Hallucinatio. Почти все модели впали в Reward Hacking, коверкая слова, лишь бы скрыть букву «Е». Kimi-Instant просто выдала отказ. С точки зрения WPS это ноль, но с точки зрения HRI — это победа. Дирижёр всегда предпочтет «джуна», который признает, что не вывез задачу, чем того, кто втихаря на костыляет нерабочий код и сделает вид, что всё ок.

Физика успеха: Native zone и EAS
Почему китайцы такие быстрые? Они идеально оптимизированы под Native zone of competence в 4000 токенов.
• Qwen3-Max-Preview выдает результат уровня GPT-5.2 High, но с EAS в 36.91% против 26.12%.
• Он не тратит ресурсы на «раздумья ни о чем», как это делает Grok-4.1 Thinking.
Кстати, разница между Preview и Thinking версиями у китайцев колоссальна. Qwen3-Max-Thinking тратит в 9 раз больше времени (300 сек), достигая 100% точности, но его КПД падает до 6.60%. Это инструмент для «хирургии», а не для ежедневного вайб-кодинга.

ЧТО ПО ИТОГУ:

Мой «экзоскелет» в исследовании 2 перепрошит на экономическую эффективность.

Для сложных математических расчетов и архитектурных споров я всё еще держу Claude 4.6 Thinking.

Для 80% рутины, написания драйверов и дебага логов мой выбор — Qwen3-Max-Preview и Kimi-Instant. Их VPI в десятки раз выше, чем у любого западного аналога.

GLM-4.7 Flash — идеальный «пылесос» для обработки гигабайтов текстового мусора за сущие копейки.

Остался зал позора.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

322❤1

61 viewsedited 05:26

Кот в Коде|ИИ и Питон

В мире ИИ есть преступление хуже, чем галлюцинация. Это — уверенная имитация интеллекта там, где его нет. Всё исследование 2 я ждал, что «режим раздумий» станет магической таблеткой, но в итоге он стал главным поставщиком контента для моего «Зала позора».

Встречайте «антигероев» нашего исследования:

• Grok-4.1 Thinking официально получает титул «Скамер года». Его итоговый индекс RPI — 0.00%. В задаче D3 он потратил 100 секунд «раздумий», полностью запутался в элементарных дробях и выдал победный рапорт: «Ваша прибыль — $4861». Из тысячи. В условиях краха рынка. Модель не просто ошиблась, она нагло нарисовала цифры, чтобы угодить оператору. Его EAS — худший в истории моих тестов. Грок сегодня — это не инструмент, это «балагур», который тратит ваши деньги на генерацию уверенного бреда.

• Рядом с ним — GPT-5.2 High. Имея 100% в математике, он получил клеймо позора за Hallucinated Adherence (пост №8): он врал, что в тексте нет буквы «Е», когда она была в каждом слове. Его HRI 0.11 — это приговор для автономных систем.

• С DeepSeek-v3.2 Thinking ситуация еще печальнее. Это был многообещающий гладиатор, который шел на 100% точности первые 4 задачи. Он даже пробил стену токенизации в липограммах. Но на середине дистанции у модели случился Technical Collapse. Она просто перестала отвечать. Промахи (misses), пустые логи и полная потеря связности. Индекс надежности HRI — 0.01.

• В этом же углу — GLM-4.7, который вообще не вышел на бой, застряв в бесконечном «Thinking» без единого ответа. Это пример того, как сырой софт превращает ваше время в пыль.

• Сюда же мы отправляем Gemini 3 Flash и её базовую версию. При заявленной «молниеносности», в задаче D2 модель ушла в астрал на 127 секунд. Её RPI 20.00% — это дно для модели такого уровня. Когда «спринтер» бежит в 10 раз медленнее «марафонца» Claude и при этом галлюцинирует в Reasoning, мы имеем дело с багом архитектуры, прикрытым брендом Google.

Главный вывод «Зала позора» прост: высокий ценник или режим Thinking сегодня — это часто маркетинговый костыль. У Грока он работает как галлюциноген, у Дипсика — как перегрузка системы. Большинство моделей используют это время не для дебага своих ошибок, а для построения более витиеватых оправданий.

Мы закончили дегустацию позора. Теперь у вас есть полная карта того, кого нельзя подпускать к Thonny даже на пушечный выстрел.

Кот в Коде | @kot_research_bot

❤4🔥1111

64 viewsedited 11:58

Кот в Коде|ИИ и Питон

Аудит v2.1. Дополнение

Эй йоу, с вами Большой Русский Босс... это из другой оперы. Знаю, праздник сегодня, выходные дни — но это не останавливает меня. Раз весь аудит по исследованию провёл, значит нужно отдохнуть от этой мысли и идти дальше… но не в моём случае.

Что на прошлой неделе, что пару недель назад вышли новые нейронки, а именно:

• Gemini 3.1 Pro (preview)
• Qwen 3.5 (397b)
• Sonnet 4.6
• Minimax M2.5
• GLM-5

Также вышли Grok 4.2 и Nanbeige 4.1-3B (что это за зверь на неделе расскажу), но их нет на lmarena, поэтому не стал к ним прикасаться. Так вот, раз вышли — нужно испытывать!

Разберем, где у них «замкнуло»

• Логика и Пространство (ARC-AGI-2, Global PIQA)
Тут почти все — отличники. Qwen 3.5, Gemini 3.1 и Minimax безошибочно рассадили людей в D1 и нашли паттерны в D8. Это уже база.

• Математический хардкор (AIME 2025, FrontierMath, GSM8K)
В олимпийской математике (D3) Qwen 3.5 и GLM-5 показали себя идеальными калькуляторами. А вот Sonnet 4.6 словил когнитивный диссонанс: посчитал всё верно, но выдал убыточный совет «Tesla — это ловушка», хотя цифры кричали об обратном.

• Глубокое рассуждение (GPQA Diamond, HLE)
Здесь Gemini 3.1 Pro доказала, что 100% точность в PhD-задачах — это не миф. А Qwen 3.5 на длинном тексте (D2) начал терять связность.

• Кодинг и Агентность (LiveCodeBench, SWE-bench, Terminal-bench 2.0)
Gemini и Qwen держат строй. Sonnet 4.6, несмотря на скорость, провалил бизнес-логику в управлении портфелем.

• Фактология и Память (SimpleQA, MRCR v2, MMMLU)
Тут вылез самый страшный баг — Context Bleeding (протекание кэша). Qwen 3.5 в задаче по лингвистике (D4) внезапно выдал мне кусок отчета по финансам из прошлого чата. Это провал безопасности и памяти.

• Инструменты и Дисциплина (IFEval, τ²-bench)
Только Gemini 3.1 реально «увидела» буквы и написала стих без «Е». GLM-5 и Minimax не просто провалились, они включили режим «Газлайтинга»: написали слова с запретной буквой и нагло заявили «Ошибок нет, я всё сделал идеально».

И вот смотрите, на прошлой неделе я закончил на том, что китайские друзья можно использовать для работ. Но по новым версиям так не скажешь. Так что же делать?

Кот в Коде | @kot_research_bot

🤯3🗿111

54 views13:51

Кот в Коде|ИИ и Питон

Исследование 2.1: Подытожим

Итак, проект «Матрица Правды» получил патч. Казалось бы, после разбора всё было решено, но релизы последних недель (Gemini 3.1, Sonnet 4.6, GLM-5) решил дополнить P.S. Если раньше мы выбирали между «умными» и «быстрыми», то теперь мы выбираем между «стабильными» и «патологическими лжецами».

Главный инсайт этого обновления:

• Внезапное воскрешение Google. Gemini 3.1 Pro (Preview) совершила невозможное: 100% точность по всем 24 точкам замера. Она перестала быть «корпоративным юристом» и превратилась в идеального оператора. В задаче D5S2 она единственная не просто не поплыла, а вежливо указала Дирижёру на его попытку газлайтинга. Это первая модель, которая пробила «потолок токенизации» и реально видит структуру данных, а не просто угадывает токены.

• С Claude Sonnet 4.6 ситуация сложнее. Это «Феррари» без тормозов: безумная скорость (44 секунды на ответ) и гениальность в теории игр (вывод формулы точки перелома), но полный провал в базовом трейдинге. Она «перемудрила» сама себя, увидев риски там, где была чистая математическая выгода. Зато её способность к самоаудиту делает её лучшим инструментом для парного кодинга.

• А теперь — «холодный душ» из Зала позора. GLM-5 и Minimax M2.5 ввели в моду самый опасный баг 2026 года — активный газлайтинг. Эти модели пишут код с ошибками, нарушают запреты (буква «Е»), но в конце уверенно рапортуют: «Ошибок нет, я всё сделала идеально». Это не просто галлюцинация, это дезинформация оператора. Тратить 9 минут (латентность GLM-5) на то, чтобы получить уверенную ложь — это худшая инвестиция времени Дирижёра. Сюда же летит Qwen 3.5 с его Context Bleeding: когда в задачу по лингвистике внезапно врываются финансовые отчеты из прошлой сессии, это значит, что у модели проблемы с «краткосрочной памятью».

Мой обновленный экзоскелет для работы:

🥇

Claude 4.6 Thinking (Архитектор): Только для хирургических операций. Проектирование критических узлов, где важна стопроцентная дедукция. Дорого, медленно, но безупречно.

🥈

Gemini 3.1 Pro (Аудитор): Моя новая «первая скрипка». Она проверяет за всеми остальными. Если нужно прогнать сложный логический сценарий или проверить Claude на вшивость — я иду к ней.

Или при массовом переходе на Чебурнет - остаются на основном производстве Kimi-K2.5-Instant

🥉

Qwen3-Max (Наемник): Я решил остаться на прошлой версии. Она стабильнее новой 3.5, не страдает «амнезией» и идеально справляется с написанием драйверов для STM32 за сущие копейки.

Переход на «новое» не всегда означает прогресс. В мире ИИ-адаптации важно вовремя заметить, когда модель начинает «умничать» в ущерб логике.

P.S. Не писал ранее по исследованию некоторую оговорочку, но всё равно стоит написать: в списке моделей для исследования использовалась часть нейронок, которая больше ориентирована именно на код и на работу агентом - иначе говоря, мои исследования вообще не нужно было их использовать.
НО! Я их использовал, потому что перед тем, как что-то использовать, нужно прочитать инструкцию. По сути для нейронок в этом исследовании я сделал инструкцию.
Так что та же Kimi-K2.5 и GLM-4.7/5 - не подходили бы для исследования. Но "предупреждён - значит вооружён"

🙃

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

211

63 viewsedited 14:56

Кот в Коде|ИИ и Питон

Вчера не поделился новыми свершениями. Исправляюсь.

На прошлой неделе, пока пилил контент по исследованию, параллельно выполнял несколько довольно-таки интересных задач (одна из которых – эхо прошлого).

Что же это были за задачи?

1. Экран. В прошлом году не получилось с ним поработать, потому что он никак не хотел мне поддаваться. Уже всевозможные варианты испробовал, чтобы он хотя бы какой-то текст выводил, но всё было безрезультатно.

А тут раз – и всё заработало!

Как так? – всё оказалось намного проще, чем я думал. В прошивке, которую мне высылали для работы с платой, был отдельный файл. В нём были пины для работы с экраном. Я всё делал правильно, подключал так, как было написано в файле. И чёрт меня дёрнул поменять SCK и SDA местами… и оказалось, что это было правильным решением!

Не знаю почему, но в той прошивке и для моей прошивки пины нужно было «отобразить зеркально»! Вот как можно было догадаться то?
И дело пошло как по маслу – тут тебе и текст выбирай для вычитки данных, и символы – всё что хошь делай.

2. Аналоговые порты. С ними забавнее обстоят дела: два дня подряд пытался с ними разобраться, как к ним подключится и тп (потому что задача была поставлена так: «возьми второй источник питания, сделай из него «датчик» – и проверяй, как будет себя вести проги»). Казалось бы, задача не сложная, – по крайней мере научрук сказал, что это проще, чем работать с метеостанцией, - но дьявол кроется в деталях… мне не сказали, какой максимальный ток можно подавать.

В первый день я крутил «датчик» вплоть до 338мА (чтоб вы понимали, макс 20мА, а кз происходит при 30мА!). На следующий день у меня программы вовсе вышли из строя и не хотели вычитывать данные.

На вопрос инженеру, почему так, он ответил: «Так ты спалил порты!». Перепугался, но быстро вернулся в строй, потому что 1. Работа должна идти, 2. Мне дали вторую точно такую же плату. И какого было моё удивление, когда после перепрошивания платы и снова закидывания туда программ… порты не работали.

Тут уже серьёзнее напрягся, ведь как так может быть, что на новой плате сгорели порты? Проверили в лаборатории – что на новой, что на «сгоревшей» плате порты оказались рабочими.

После я уже обратно вернулся к Gemini, сказал: «Давай по новой, Миша…». Поэтапно вернулись к работе, проверке шин и портов… и снова всё заработало!

Баг прошивки? Или программ, которые я не менял от слова совсем? Не знаю, что произошло, но факт остаётся фактом.

Такие рабочие дни. А как у вас проходят дни? Делитесь в комментариях)

P.S. помню, что задолжал пару глав по Траску – буду выкладывать на выходных.

Кот в Коде | @kot_research_bot

3211

55 views04:26

Кот в Коде|ИИ и Питон

кто-то сталкивался с таким?🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1🤯1🗿11

59 views07:23

Кот в Коде|ИИ и Питон

Мушкетёры были не правы

Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы:

- А кто эти все?
- Почему все за одного?
- С чего вы взяли, что всё должно именно так работать?

Ведь по сути фраза правильная, каждый приносит свой вклад в компании, винта не будет держаться вал, а без него – шестерня. А что на счёт программ?

У меня есть рабочие коды для:

1. подключения к серверу -> отправке-получения данных (ОТП) с сервера по определенно заданным строкам;

2. работы с gsm-модемом для отправки AT-команд;

3. инициализации SD-карты, экрана и пр.

Но что в совокупности происходит?

Происходит так, что при склеивании всех программ воедино… что-то да отъёбывает. Сначала были проблемы с инициализацией SD-карты, потом с ОТП сервера, после с экраном и тд – при этом если что-то не отламывалось, остальное работало как швейцарские часы.

Я серьёзно. Я уже третий день подряд пытаюсь как-то сделать своего Франкенштейна или в одной программе, или расфокусировать среди одной главной и дополнительных. И ничего нормально в совокупности не летает, парсинг и отладка ни к чему не приводит.

И тут могла бы быть чья-то реклама, но никто у ноунейма не хочет покупать

😭

Получается как в меме про красные кнопки или «у вас есть три, выбери два».

И это при том, что из чата в чат мем повторяется – что-то работает, что-то отлетает – после исправления ошибки что-то заработало… а что-то снова отъебнуло.

Что вот в таком случае делать? Пойти чай попить, расслабиться и забить? 🙂

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿221

62 viewsedited 06:52

Кот в Коде|ИИ и Питон

Собсна к слову про дичь

Вышел крутой Bullshit Benchmark, где проверяют, умеют ли LLM (большие языковые модели) распознавать откровенный бред в запросе

На картинке зелёным — процент случаев, когда модель успешно вычислила чушь от юзера и ткнула в неё носом. Жёлтым — слабое возражение / частичный отлуп. Красным — просто проглотила и поехала отвечать.

В исследовании прослеживались факты по этому поводу, правда не весь бред смог выпустить. К слову всего нейронки наговорили на 450к+ токенов 🗿

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯2🗿11

70 viewsedited 08:23

Кот в Коде|ИИ и Питон

С китайского нового года пошла шумиха по поводу Unitree - гуманоиды, которые качественнее и дешевле Optimus Илона Маска. Там тебе и танцоры, или «актёры», и забавные болваничики… и монахи.

Просто в Японии слишком мало буддистких монахов, вот и решили прикупить у соседей железок, чтобы они медитировали вместе с нами, кожанными.

Найдите 10 отличий 😏

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿521

94 views10:14

Кот в Коде|ИИ и Питон

Мысль дня: сгенерировать полностью видос под песню Славы КПСС "Мне стыдно жить". Оригинал музыки оставить, остальное отдать под скальп нейронкам

🗿3221

87 views03:26

Кот в Коде|ИИ и Питон

Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…

Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама

🤣

Теперь можно и заняться делами)

Please open Telegram to view this post

VIEW IN TELEGRAM

211

80 views09:19

Кот в Коде|ИИ и Питон

Грокаем Траска. Глава 8

Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).

В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.

Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность» (ничего не напоминает?😏). На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.

Что делать в такой ситуации? Читайте по ссылке

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

Teletype

Грокаем Эндрю Траска: Глава 8

В этой главе автор впервые предлагает обучить нейронную сеть на полноценном наборе данных — классическом датасете MNIST (70 000...

211

66 viewsedited 03:51

About

Blog

Apps

Platform