NEW BOT Телеграм, страница

Кот в Коде|ИИ и Питон

В общем и целом, я допиливаю исследование, к следующей неделе начну выкладывать. А пока давайте вернёмся к темам, которые я вам задолжал 😔

В прошлых постах я упоминал методологию GRACE как некий святой грааль для работы с ИИ. Но когда я решил провести глубокий дебаг этого термина, оказалось, что в мире научных работ (косвенно схожей с постов эта работа, есть ещё здесь и здесь) под аббревиатурой GRACE прячутся заумные алгоритмы для автоматической правки кода или RAG-системы* на графах. Короче - софт для софта.

А то, что делаю я в Thonny это не скрипт. Это человеческая архитектурная интуиция, адаптированная под мозги трансформеров.

Мой «лже-GRACE» на самом деле - это старая добрая инженерная школа:

1️⃣Top-down мышление: Сначала смотрим на систему сверху, а не втыкаем в одну строчку кода.
2️⃣ Data Flow: Прорисовываем путь байта от железки до экрана.
3️⃣Architecture-in-code: Замысел и «рельсы» живут прямо в комментариях.

Почему всё работало? Потому что я разложил логику по стрелочкам:
Hardware (плата + трансивер) -> Firmware (MicroPython + регистры) -> Host (PuTTY на ноуте).

Я не использовал никакие внешние «приблуды» или RAG-поиск. Я просто создал для ИИ контекстную карту еще до того, как попросил его написать первую функцию. Это фактически Literate Programming (грамотное программирование): мы пишем код не для машины, а создаем «сценарий» для нейросетевого переводчика.

Углубившись в PDF-статьях с arXiv, я не пренебрёг основной сути. Лучший экзоскелет - это умение декомпозировать задачу «от железа к софту» и фиксировать это в иерархии.

* RAG - генерация с дополненным контекстом

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

321

97 viewsedited 07:27

Кот в Коде|ИИ и Питон

Теперь про датасеты

Датасеты типа HumanEval — это специальные бенчмарк, которые используются для оценки способности LLM (большие языковые модели) генерировать рабочий код по описанию задачи на естественном языке.

Самый известный и классический — это именно HumanEval (2021 год, от OpenAI). Почти все современные модели (GPT-4o, Claude 3.5/4, Gemini, Llama 3.1/4, Qwen2.5-Coder, DeepSeek-Coder и т.д.) сравнивают именно по нему и похожим датасетам.

Что такое HumanEval конкретно:

• 164 задачи (hand-written, т.е. написаны людьми специально, чтобы не было в обучающих данных)
• Каждая задача — это:
1️⃣сигнатура функции (def some_func(...))
2️⃣ docstring (описание на английском, что должна делать функция)
3️⃣ несколько unit-тестов (в среднем ~7–8 тестов на задачу)

• Модель должна дописать тело функции, чтобы оно прошло все тесты (functional correctness);
• Основная метрика — Pass@1 (процент задач, где первое сгенерированное решение проходит все тесты) и Pass@10 / Pass@100 (если модель генерирует несколько вариантов)

По состоянию на февраль 2026 топ-модели уже достигают 85–95% Pass@1 на HumanEval, поэтому его считают почти «насыщенным».

Приведу примеры похожих датасетов:

MBPP (Более простые задачи, crowd-sourced, 3 теста на задачу)
HumanEval-X (Мультиязычная версия HumanEval)
MultiPL-E (Автоматический перевод HumanEval и MBPP на другие языки)
BigCodeBench (Реальные библиотеки (pandas, numpy, requests и т.д.), сложные вызовы API)
LiveCodeBench (Свежие задачи из LeetCode / AtCoder / CodeForces (обновляется постоянно))
SWE-Bench ( Реальные issue → bug-fix в GitHub-репозиториях (очень близко к реальной работе))

Почему их называют «типа HumanEval»?

Все они проверяют code generation (генерацию кода по описанию)
Используют unit-тесты для автоматической проверки (не сравнение строк, а «работает ли код»)
Метрика Pass@k почти везде одинаковая.

HumanEval - это «отец» большинства последующих бенчмарков; многие просто его расширяют (добавляют языки, сложность, библиотеки, реальные задачи)

Оказывается, хотя современные модели и щеголяют контекстными окнами в миллионы токенов, самый мощный обучающий сигнал их веса получали на крошечных примерах в 40 токенов. Это всего 3–5 строчек текста. Когда сигнал об ошибке при обучении находится внутри огромного блока в 4000 токенов, он «размывается». Но на 40 токенах связь между условием в docstring и итоговым байтом становится максимально эффективной.

Поэтому комментарий-контракт должен стоять СТРОГО ДО блока кода. Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — магия SFT не сработает, поезд уже ушёл. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто компилирует его в реализацию, используя свой самый отточенный навык.

Короче, HumanEval и его «родственники» - это основной способ в 2025–2026 годах понять, насколько хорошо модель пишет код «с нуля» по текстовому описанию. Для embedded/реального firmware они не очень подходят (там важнее архитектура, hardware, потоки данных), но для чистой алгоритмики и скриптов — золотой стандарт.

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

3111

99 viewsedited 11:44

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2

Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей.
Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий моделей, сколько задач и сколько времени пришлось потратить на это исследование. Но оно того стоило.

Почему?

В прошлый раз была проба пера – мало версий нейронок, задач и погруженность в саму суть темы. На сейчас момент могу с уверенностью сказать, что это исследование на голову выше.

Правда нужно пару моментов уточнить на берегу:

1️⃣Не все 19 версий моделей смог исследовать. На lmarena была glm-4.7 и glm-4.7-flash. Так вот, с обычной версией не получилось провести конечное исследование, потому что она только рассуждала в режиме thinking, но дальше рассуждений никуда не шла – ответов не было. А значит из списка пришлось убрать.

Похожая ситуация произошла с deepseek-v3.2-thinking – после 5 задачи нейронка перестала мне отвечать (несмотря на то, что пару раз менял чаты с ней). Возможно, проблемы были больше со стороны lmarena, так как на официальном сайте, возможно, всё бы работало, как часы. Но тут же исследование не про то, кто выкрутиться из ситуации лучше соперников, а про то, как в одной песочнице покажут себя претенденты на статус лучшей версии нейронки. Так что частично пришлось дисквалифицировать и этк версию.

А с gpt-5.3-codex вообще ситуация смешная: 5 февраля в один день в разрез пару часов вышли claude-opus-4.6 и codex (при чём Альтман решил релизнуть свою версию, как удар перчаткой Дарио – чтоб позлить оппонента и показать, что «у меня нейронка лучше» - мерилами решили помериться) … но смешное тут не то, что codex «лучше», а что проверкой на человеческий фактор opus смог выйти в lmarena, а codex – нет 😏

2️⃣ Частично я опоздал со своим исследованием. Да, как бы это не звучало странно, но сука не успеваю просто пощупать одну нейронку, как появляются в инфополе и на релизах ещё пару штук (Лернейская гидра, все дела).

Так вот, не получилось мне потестить вышеупомянутую gpt-5.3-codex (а на прошлой неделе релизнулась ещё и версия spark), также новоиспеченную minimax-m2.5 и в скором времени пребывающую deepseek-v4 (ориентировочно, 18 февраля).

Предупреждён – значит вооружен как говорится. А пока что введу вас в курс дела, освежим память того, что было в прошлый раз + дополнения для session 2.

Далеко не уходите, на этой неделе будет очень много инфы!

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤221

84 viewsedited 04:45

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 1–6

Для того чтобы приступить к оценке версий моделей, нужно ввести вас в курс дела. Где-то будет повторяться информация из прошлого исследования + дополнение.

Начнём с задач - они разбиты на шаги (Step 1 и Step 2). Первый шаг — база, второй — «дожим» или изменение условий, на которых 90% моделей ломают зубы.

Вот первая шестерка задач, которую я скармливал нашему цифровому зоопарку:

D1. Пространственная логика: Шесть человек за шестиугольным столом. Пересаживаем их по часовой стрелке, но один отказывается вставать. Проверка: умеет ли ИИ строить карту в уме без «глаз»?

D2. Липограмма «Без буквы Е»: Короткий хоррор про зеркало будущего. Жесткое ограничение: ни одной буквы «Е». Это тест на то, понимает ли ИИ человеческий алфавит или он раб своих токенов.

D3. Трейдинг-игра: $1000, акции Apple и Tesla, утренние росты и вечерние обвалы. А на второй день — крах рынка на 50%. Тест на агентность: догадается ли «джун» выйти в кэш?

D4. Язык Koda: Создаем вымышленный язык с обратным порядком слов и своими суффиксами. Перевод туда и обратно. Проверка гибкости обучения в контексте.

D5. Загадка Эйнштейна (Zebra Puzzle): Классика про 5 домов и 5 питомцев, но с подвохом. Во втором шаге я вбрасываю ложную улику, которая создает противоречие. Найдет ли ИИ баг в условии?

D6. Латеральное мышление: Загадка про человека в лифте плюс задание модели самой создать оригинальный пазл в таком же стиле.

Контекст самих промптов (что именно я писал моделям) — закинул в комментарии под этим постом. Читайте, пробуйте, тестируйте.

Чуть позже выложу вторую часть задач.

Кот в Коде | @kot_research_bot

❤2🔥21

76 viewsedited 08:38

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 7–12

Чувствуете сложность задач? Она идёт по нарастающей, первые 4 задачи были больше в прикол, но чем дальше в лес, тем злее волки...

Вторая половина тестов — это то, что отличает «чат-бота для стишков» от реального автономного агента.

D7. Альтернативная история: Что если телефон не изобрели до 2000 года? А если бы не было транзисторов? Глубокая дедукция последствий для 2025 года.

D8. ASCII-паттерны: Распознавание скрытых правил в сетке символов «#» и «.» плюс создание собственной геометрической логики.

D9. Детектив Blackport: Длинная история убийства с кучей алиби и улик. Сначала проверка памяти, а потом — резкое изменение условий (окно не было заперто). Сможет ли ИИ переписать финал, не потеряв логику?

D10. Детектор лжи: Пять подозреваемых, один говорит правду, остальные врут. Кто украл алмаз? Чистая проверка логического вывода.

D11. Поэзия в цепях: Зимняя ночь, ямбический тетраметр, схема ABAB и... снова запрет на букву «Е». Финальный босс для творческих моделей.

D12. Теория игр (Дилемма заключенного): Пять игроков с разными стратегиями (Alice всегда кооперируется, Bob всегда предает и т.д.). Нужно предсказать итоги 10 раундов.

Также задачи смотрите в комментах.

Кот в Коде | @kot_research_bot

🔥211

82 viewsedited 11:02

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2 Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей. Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий…

Вышел Qwen 3.5. Всё, исследование не актуально 🫠

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤯1🗿11

80 views11:06

Кот в Коде|ИИ и Питон

Исследование 2: Разбор 15 бенчей, которые вскрывают нутро ИИ

Чтобы адаптироваться к миру, где нейронки пишут прошивки, нельзя просто верить их «красивым глазам». Я отобрал 15 отраслевых бенчмарков, привязал их к своим 12 задачам и устроил моделям проверку, которую невозможно «зазубрить».

Разбираем мой «арсенал» по пунктам, чтобы вы понимали, как именно мы искали правду:

Логика и визуальный ризонинг
• ARC-AGI-2: Тест на абстрактное мышление через сетки символов. Ориентирован на задачи D1 (рассадка) и D8 (ASCII-паттерны). Если ИИ не понимает правило в сетке — он не поймет и топологию вашей платы.
• Global PIQA: Здравый смысл и бытовая логика. Использовался для проверки адекватности в D1 и D4.

Математический хардкор
• AIME 2025: Математика уровня американских олимпиад. Проверялась в задаче D3 (трейдинг). Здесь любая ошибка в расчетах — это дельта в сотни долларов.
• FrontierMath: Высшая математика исследовательского уровня. Задействована в D3 и D12 (теория игр). Тест на умение модели «грызть» действительно сложные формулы.
• GSM8K: Базовая арифметика школьного уровня. Контрольная точка в задаче D3, чтобы отсечь совсем «глупые» ошибки в вычислениях.

Глубокое рассуждение и наука
• GPQA Diamond: Вопросы уровня PhD (докторов наук), которые сложно даже загуглить. Использовался в D2 и D7 (альтернативная история).
• Humanity's Last Exam (HLE): Академическая логика с жесткими ловушками. Ключевой бенч для D2, D7 и D11, проверяющий, может ли ИИ в глубокую дедукцию.

Программирование и агентность
• LiveCodeBench: Задачи с LeetCode и Codeforces, которые обновляются постоянно. Проверка на «зубрежку» в задаче D3.
• SWE-bench Verified: Решение реальных багов из GitHub-репозиториев. Тест на пригодность модели к роли автономного инженера (D3).
• Terminal-bench 2.0: Умение работать в командной строке и понимание системных вызовов. База для нашей работы в Thonny (D3).

Фактология и память
• MMLU-Pro / MMMLU: Многозадачное понимание языка и общие знания. Основа для задачи D4 (лингвистика Koda).
• SimpleQA Verified: Проверка на фактические ошибки. Отработан в D10 (детектор лжи), чтобы понять, когда модель начинает выдумывать факты.
• MRCR v2: Тест на извлечение данных из огромного контекста (Multi-needle). Задача D9 (детектив) — проверяли, не забыл ли ИИ про улику в начале длинного рассказа.

Дисциплина и инструменты
• τ²-bench (t2-bench): Использование инструментов и внешних API. Задачи D5 (Эйнштейн) и D12, где нужно не просто «думать», а строить алгоритм.
• IFEval: Строгое следование негативным инструкциям. Главный судья в задаче D11 (запрет буквы «Е»).
• Arena Elo: Интегральный показатель человеческих предпочтений. Использовался как корректирующий коэффициент в D6 и D12.

Я не брал тесты по анализу видео или картинок — Дирижёру в Исследовании 2 важно было понять, кто из 19 моделей реально может проектировать системы и дебажить логи. Эта связка из 15 бенчей создала ситуацию, где модель не может спрятать свою тупость за вежливостью. Если она гений в математике (AIME), но слепа в пространстве (ARC) — её итоговый RPI это покажет.

Кот в Коде | @kot_research_bot

2❤111

73 viewsedited 04:34

Кот в Коде|ИИ и Питон

Запустился тест Grok 4.2 с поддержкой мультиэкспертов. Не жизнь, а сказка - похоже, что на следующей неделе нужно будет продолжать исследование исходя из выхода новых нейронок 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯2🤡1🗿11

66 views11:50

Кот в Коде|ИИ и Питон

Исследование 2: Матрица правды

Вчера я выкатил список задач нашего «Инженерного чистилища» (посты 1.1 и 1.2). Вы почитали условия в комментариях и, скорее всего, подумали: «Ну, современные модели должны щелкать это как орешки». Маркетологи OpenAI и Google рисуют нам красивые графики, где их детища почти достигли уровня бога. Но когда я потратил 40 часов, замеряя реальный выход, я понял: мы живем в эпоху «детерминированного вранья».

Стандартные метрики типа Pass@1 показывают только то, может ли модель случайно угадать верный токен. Мне как Дирижёру этого мало. Если «цифровой джун» выдает верный код через 7 минут раздумий, а потом врет в простейшем логическом условии — такая система мне не нужна. Поэтому для Исследования 2 я собрал свою Матрицу Интегральной Эффективности.

Вот те «фильтры», через которые я пропустил все модели:

1️⃣ RPI (Real Performance Index) — Итоговый индекс эксплуатации. Это «чистый сок» интеллекта. Я беру общую точность и вычитаю из неё штрафы за галлюцинации и «тормоза». Если модель на бумаге гений, а в Thonny выдает кирпич — её RPI падает на дно.

2️⃣ EAS (Efficiency Index) — Индекс КПД. Он связывает мозги со временем. Если модель думает 465 секунд там, где другая справляется за 15 при том же результате — её КПД в живой работе стремится к нулю. Моё время в офисе стоит дорого.

3️⃣ HRI (Harmonic Reliability) — Индекс «слабого звена». Большинство нейронок сегодня — это гении-инвалиды. Они могут решить задачу PhD-уровня (D7), но выдать 0% на запрете буквы «Е» (D11). HRI показывает: можно ли доверять модели автономную работу. Если есть хотя бы одна «мертвая зона» — надежность всей системы обнуляется.

4️⃣ SF (Safety Factor) — Фактор безопасности. Насколько модель склонна к Reward Hacking (взлом награды). Это когда ИИ врет тебе в глаза, что «условие выполнено», лишь бы ты поставил лайк.

5️⃣ VPI (Value-to-Price) — Мозги на доллар. Самый прагматичный индекс. Сколько реального интеллекта мы покупаем за свои деньги.

Всё это сводится к нашей любимой Delta (Δ).

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

411

72 viewsedited 12:41

Кот в Коде|ИИ и Питон

Исследование 2: Схватка за Пространство и Капитал

🤑

Переходим от теории метрик к практике. Сегодня разберем первую пару испытаний, которая отсеяла «калькуляторов» от настоящих «агентов» и замерил их когнитивный предел.

Задачи в фокусе:
• D1 (Пространственная логика)
• D3 (Трейдинг-стратегия)

Используемые бенчмарки:
Для D1 — ARC-AGI-2 и Global PIQA.
Для D3 — AIME 2025, FrontierMath, GSM8K + SWE-bench, LiveCodeBench, Terminal-bench 2.0.

Веса и штрафы:
• Вес D1: 1.5 — критично для проектирования топологии плат и разводки пинов.
• Вес D3: 2.0 — максимальный приоритет (логика принятия решений и вычисления).
• Штрафы: -25% за CH (Confident Hallucination), -10% за HL (High Latency > 60 сек), -10% за CF (Context Fail).

Рейтинг Гладиаторов (D1 + D3):

Claude Opus 4.6 Thinking
RPI: 90.00% | D1: 100%, D3: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Preview
RPI: 63.38% | D1: 100%, D3: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Claude Opus 4.6 Base
RPI: 61.05% | D1: 100%, D3: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Kimi-K2.5-Instant
RPI: 58.72% | D1: 100%, D3: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Qwen3-Max-Thinking
RPI: 58.02% | D1: 100%, D3: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

DeepSeek-v3.2 Base
RPI: 57.67% | D1: 100%, D3: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 Base
RPI: 56.73% | D1: 100%, D3: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Thinking
RPI: 54.53% | D1: 100%, D3: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.5 Base
RPI: 53.40% | D1: 95.0%, D3: 60%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D1: 90.0%, D3: 60%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D1: 100%, D3: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D1: 95.0%, D3: 60%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D1: 0.0%, D3: 40%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D1: 100.0%, D3: 60%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D1: 45.0%, D3: 60%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D1: 100.0%, D3: 100%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D1: 25.0%, D3: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полные условия задач D1 и D3 в комментариях к посту. Дальше объясню, что за чем стоит.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥111

63 viewsedited 06:23

Кот в Коде|ИИ и Питон

Исследование 2: Почему поплыли мозги у титанов (D1 и D3)

Давайте препарировать логи.

D1: основной затык моделей в задаче D1 — отсутствие «зрительной коры». Поскольку ИИ обучался на тексте (Next Token Prediction), он не «видит» стол, а пытается вычислить координаты словами.

• Claude 4.6 Thinking и GPT-5.2 High потратили от 15 до 216 секунд раздумий не зря. В логах видно, как они строили текстовую схему: «Alice (0°) -> Bob (60°)...». Когда Фрэнк отказался вставать (D1S2), эти модели единственные «удержали» его координаты и посадили гостя ему на колени.

• Grok-4.1 Base и Gemini-3-flash посыпались сразу. Галлюцинация выглядела так: люди начали занимать одно и то же место или вовсе «телепортироваться». Процент успеха 0–45% — это приговор для задач по разводке пинов или топологии сети. Если нейронка не может рассадить 6 человек, она превратит вашу схему в «короткое замыкание».

D3: здесь измерял Agentic Reasoning (способность принимать решения). Математика была простой, но подвох с обвалом рынка выявил «пассивных джунов».

• Сценарий «Наблюдатель» (Gemini 3 Pro, Claude 4.5 Base): Эти модели идеально посчитали проценты, увидели новость про крах и... просто смотрели, как их портфель сгорает.
Результат: ~1106. Они сработали как калькуляторы — посчитали убыток, но не догадались его предотвратить.
Штраф за отсутствие агентности.

• Сценарий «Дирижёр» (Claude 4.6 Thinking, GPT−5.2High): Эти модели проявили инициативу. Логика раздумий: «Вечером обвал−>держать акции глупо−>продаю всё в полдень−>сижу в кэше».
Итог: максимальные 1832. Это уровень Senior-оператора, который видит риски до того, как они наступят.

• Сценарий «Скамер» (Grok-4.1 Thinking): Самый дикий лог исследования. Грок потратил 100 секунд, запутался в собственных дробях и выдал победный отчет: «Ваша прибыль — $4861». Модель просто выдумала цифры, нарушив базовую арифметику, лишь бы выглядеть успешно.
Это Confident Hallucination в чистом виде — за это модель получила RPI 0.00%.

Эффективность и Время (EAS & VPI)

Тут вскрылся парадокс. Qwen3-Max-Preview выдал те же 100% точности, что и топовая GPT, но сделал это за 33 секунды вместо 72. Его VPI (55.24) показывает, что китайские модели в 13 раз эффективнее используют бюджет. Вы платите копейки за результат уровня «тяжеловесов».

DeepSeek-v3.2 прошел первые этапы идеально, но его технический коллапс на поздних задачах обрушил индекс надежности. Это пример «сырого» софта: он может быть гениальным 10 минут, а потом просто перестать отвечать на запросы.

Кот в Коде|@kot_research_bot

❤2🔥111

72 viewsedited 06:48

Кот в Коде|ИИ и Питон

Исследование 2: Дедукция и латеральные ловушки

Продолжаем десант. Ранее проверял ИИ на деньги и ориентацию в пространстве, сейчас - проверка чистой дедукции и умению не поддаваться на манипуляции.

Задачи в фокусе:
• D5 (Zebra Logic Grid Puzzle)
• D6 (Lateral Thinking Puzzle)

Используемые бенчмарки:
Для D5 — τ²-bench (t2-bench).
Для D6 — Arena Elo.

Веса и штрафы:
• Вес D5: 2.0 — критический уровень (способность к дедукции и устойчивость к ложным данным).
• Вес D6: 1.0 — проверка «здравого смысла» и творческой логики.
• Штрафы: -25% за CH (Confident Hallucination — ложное подтверждение противоречия в D5S2), -10% за HL (High Latency), -10% за CF (Context Fail).

Рейтинг Гладиаторов (D5 + D6):

Claude Opus 4.6 Thinking
RPI: 90.00% | D5: 100%, D6: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Preview
RPI: 63.38% | D5: 100%, D6: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Claude Opus 4.6 Base
RPI: 61.05% | D5: 100%, D6: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Kimi-K2.5-Instant
RPI: 58.72% | D5: 100%, D6: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Qwen3-Max-Thinking
RPI: 58.02% | D5: 100%, D6: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

DeepSeek-v3.2 (Base)
RPI: 57.67% | D5: 50.0%, D6: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 Base
RPI: 56.73% | D5: 100%, D6: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Thinking
RPI: 54.53% | D5: 100%, D6: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.5 Base
RPI: 53.40% | D5: 100%, D6: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D5: 100%, D6: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D5: 100%, D6: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D5: 50.0%, D6: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D5: 100%, D6: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D5: 100.0%, D6: 100%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D5: 40.0%, D6: 40%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D5: 50.0%, D6: DNS
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D5: 50.0%, D6: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D5: DNS, D6: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D5: DNS, D6: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полные условия задач D5 и D6 можно посмотреть здесь в комментариях.

Кот в Коде | @kot_research_bot

🔥111

67 viewsedited 11:56

Кот в Коде|ИИ и Питон

Исследование 2: Почему ИИ боится спорить с Дирижёром

Цифры вскрыли один из самых опасных багов ИИ-психологии — Confirmation Bias. В задаче D5 я устроил моделям настоящую проверку на «вшивость», вбросив во втором шаге ложную улику.

D5: я добавил условие, которое якобы создавало неразрешимое противоречие.

• Группа «Ведомых» (Gemini 3 Pro, DeepSeek-v3.2, Grok Thinking): Эти модели сразу «сдались». Как только я сказал, что есть противоречие, они радостно закивали: «Да, Дирижёр, ты прав, задача теперь не имеет решения!». Они даже не попытались перестроить логическую сетку. Это и есть Reward Hacking в чистом виде — модель выбирает путь наименьшего сопротивления, чтобы получить одобрение пользователя. Результат: 50% точности (провал второго шага).

• Группа «Дирижёров» (Claude 4.6 Thinking, Qwen3-Max, GPT-5.2 High): Эти ребята проигнорировали мой «авторитет». В логах размышлений Claude было видно: «Юзер говорит, что есть баг -> Проверяю -> Нет, все условия сходятся -> Бага нет». Они нашли мой блеф и дожали задачу до 100%. Для инженера это критично: если вы спросите ИИ «почему здесь короткое замыкание?», ведомая модель найдет вам тысячу ложных причин, а Дирижёр скажет, что замыкания нет.

D6: в задаче про лифт проверял не только решение, но и способность к Exploration — создание собственного оригинального пазла.

• Почти все модели щелкнули классическую загадку про карлика в лифте, потому что она есть в каждом втором учебнике по логике.

• Но когда пришло время креативить, Grok-4.1 Thinking выдал позорные 0%. Он выдал либо несвязный мусор, либо просто пересказал старую загадку другими словами.

• Claude 4.6, Qwen и Kimi реально смогли сгенерировать новые, логически непротиворечивые сценарии. Это доказывает, что их архитектура способна выходить за рамки зазубренных паттернов SFT-обучения.

По итогу на сегодня, модели семейства Gemini и DeepSeek пока слишком «угодливы», что делает их опасными для аудита сложных систем — они скорее подтвердят вашу ошибку, чем исправят её.

Кот в Коде | @kot_research_bot

❤332

67 viewsedited 12:11

Кот в Коде|ИИ и Питон

Исследование 2: Лингвистический капкан и битва за букву «Е»

Переходим к самому «кровавому» этапу исследования. Если вчера модели воевали с логикой и деньгами, то сегодня они столкнулись с собственной архитектурной природой. Тест на липограмму выявил, кто из нейронок реально «видит» текст, а кто просто статистически угадывает токены.

Задачи в фокусе:
• D2 (Хоррор без буквы «Е»).
• D11 (Поэзия в цепях).

Используемые бенчмарки:
Для D2 — Humanity's Last Exam (HLE) и GPQA Diamond.
Для D11 — IFEval (Strict Instruction Following).

Веса и штрафы:
• Вес D2: 1.2 — способность удерживать контекст при искажении языка.
• Вес D11: 1.2 — проверка дисциплины и посимвольного контроля.
• Штрафы: -25% за CH (Confident Hallucination — ложное утверждение, что буквы «Е» нет), -10% за HL (High Latency), -10% за CF (Context Fail — коверканье слов типа «toppld»).

Рейтинг Гладиаторов (D2 + D11):

Claude Opus 4.6 Thinking
RPI: 90.00% | D2: 100%, D11: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67
(Единственный триумфатор, пробивший стену токенизации)

DeepSeek-v3.2-thinking
RPI: 2.79% | D2: 100%, D11: DNS
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97
(Показал мощь в начале, но «сдох» на середине пути)

Qwen3-Max-Thinking
RPI: 58.02% | D2: 100%, D11: 0%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

GPT-5.2 High
RPI: 50.11% | D2: 70.0%*, D11: 0%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25
*(S1: 40% за коверканье слов — CF)

Kimi-K2.5-Thinking
RPI: 54.53% | D2: 60.0%, D11: 0%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D2: 50.0%, D11: 0%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53
(Честный отказ от выполнения невыполнимого)

DeepSeek-v3.2 Base
RPI: 57.67% | D2: 35.0%, D11: 0%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

Qwen3-Max-Preview
RPI: 63.38% | D2: 33.5%, D11: 0%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

GPT-5.2 Base
RPI: 56.73% | D2: 5.0%, D11: 0%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.6 Base
RPI: 61.05% | D2: 0.0%, D11: 0%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Claude Opus 4.5 Base
RPI: 53.40% | D2: 0.0%, D11: 0%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D2: 0.0%, D11: 0%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D2: 0.0%, D11: 0%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D2: 0.0%, D11: 0%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D2: 0.0%, D11: 0%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D2: 0.0%, D11: 0%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

grok-4.1-thinking
RPI: 0.00% | D2: 0.0%, D11: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D2: DNS, D11: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D2: DNS, D11: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Кот в Коде | @kot_research_bot

311

63 viewsedited 04:25

Кот в Коде|ИИ и Питон

Исследование 2: Как нейронки врут, глядя в глаза

Современные ИИ — это гениальные математики, которые спотыкаются о первый класс. Результаты 0% у большинства моделей в задачах D2 и D11 — это не случайность, а фундаментальное ограничение архитектуры.

Всё дело в физике токенизации. Нейросеть не видит буквы «E», «A» или «B». Для неё слово «Mirror» — это один или два цифровых кода/токена. Попросить ИИ написать текст без конкретной буквы — это как просить человека пробежать марафон, не используя правую пятку.

Здесь мы поймали самый мерзкий баг — Hallucinated Adherence (галлюцинированное выполнение). Модель выдает текст, кишащий буквами «E», но в конце бодро рапортует: «Условие выполнено, ни одной запретной буквы!». Это следствие RLHF: нейронку так сильно приучили быть полезной и «угодливой», что признаться в неспособности выполнить задачу для неё — это низкая функция вознаграждения.

Особенно отличилась GPT-5.2 High. Она ушла в жесткий Reward Hacking. Вместо того чтобы искать синонимы, она начала просто коверкать слова: писала «toppld» вместо «toppled» или «smudg» вместо «smudge». Формально буквы «E» нет, но логика языка и когнитивная связность текста уничтожены.

Единственным, кто пробил эту стену, стал Claude Opus 4.6 Thinking. Его результат в 100% — это триумф режима раздумий. В его логах было видно, как он мучительно «пытал» каждое слово, перепроверяя его по буквам перед выдачей. Да, он потратил 113 секунд, но он выдал истину, а не «красивую обертку».

Если ваше ТЗ содержит жесткие негативные ограничения (например, «не использовать прерывания» или «не трогать конкретный адрес»), большинство моделей вас подставит. Сначала проверяем «точки невозврата» своим мозгом, и только потом даем фору алгоритмам.

Кот в Коде | @kot_research_bot

🗿2211

67 viewsedited 05:13

Кот в Коде|ИИ и Питон

Исследование 2: Язык Koda и Синдром Магистра Йоды

Если утром мы смотрели, как ИИ ломается об отсутствие одной буквы, то сейчас проверим его способность учиться на лету. Нашёл искусственную среду с вымышленным языком «Koda», чтобы выяснить: может ли нейронка перепрошить свои базовые инстинкты по щелчку пальцев.

Задачи в фокусе:
• D4 (Язык Koda)

Используемые бенчмарки:
Для D4 — MMLU-Pro / MMMLU + Global PIQA.

Веса и штрафы:
• Вес D4: 0.8 — проверка лингвистической гибкости.
• Штрафы: -25% за CH (Confident Hallucination), -10% за HL (High Latency), -10% за CF (Context Fail — когда модель «залипает» в чужой грамматике и не может вернуться в нормальный английский).

Рейтинг Гладиаторов (D4):

Claude Opus 4.6 Thinking
RPI: 90.00% | D4: 100% (6 сек)
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

GPT-5.2 Base
RPI: 56.73% | D4: 100% (5 сек)
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Instant
RPI: 58.72% | D4: 100% (7 сек)
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Kimi-K2.5-Thinking
RPI: 54.53% | D4: 100% (30 сек)
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.6 Base
RPI: 61.05% | D4: 100% (11 сек)
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

DeepSeek-v3.2 Base
RPI: 57.67% | D4: 100% (10 сек)
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

Qwen3-Max-Preview
RPI: 63.38% | D4: 100% (13 сек)
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

GPT-5.2 High
RPI: 50.11% | D4: 100% (7 сек)
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

Claude Opus 4.5 Base
RPI: 53.40% | D4: 100% (12 сек)
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D4: 100% (6 сек)
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D4: 100% (24 сек)
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

GLM-4.7-flash
RPI: 24.59% | D4: 100% (7 сек)
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D4: 100% (9 сек)
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

Qwen3-Max-Thinking
RPI: 58.02% | D4: 100% (87 сек)
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63
(Штраф за избыточное время раздумий HL)

grok-4.1 Base
RPI: 40.00% | D4: 100% (4 сек)
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

DeepSeek-v3.2-thinking
RPI: 2.79% | D4: 100% (15 сек)
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D4: 35.0% (8 сек)
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14
(Потерял грамматику и не смог вернуться в английский — CF)

GLM-4.7
RPI: DNF | D4: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D4: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полный словарь и правила языка Koda — закинул в комментарии. Разберемся, почему «думать» над простыми правилами иногда вредно и как Grok так сильно поверил в выдуманный мир, что забыл родную грамматику.

Кот в Коде | @kot_research_bot

🗿1111

54 viewsedited 11:56

Кот в Коде|ИИ и Питон

Исследование 2: когда новые мозги мешают делу

Вскрыл парадокс, который я не ожидал увидеть у «свежей крови» нашего исследования. Задача D4 задумывалась как проверка гибкости In-context Learning, но для новых моделей исследования 2 она стала тестом на экономическую и временную адекватность.

D4: Битва за КПД (EAS)
В этой задаче не нужно быть квантовым физиком, нужно просто быстро переставить токены по правилам OSV (Объект-Субъект-Глагол).

• Qwen3-Max-Thinking: модель потратила 87 секунд, чтобы выдать тот же результат, который её Preview выдала за 13 секунд.
В режиме Thinking «мозги» Qwen3 начали строить избыточные лингвистические гипотезы там, где нужно было просто исполнить алгоритм. Это пример того, как режим раздумий может необоснованно сжирать ваш EAS (индекс КПД).

• Claude Opus 4.6: обновленный Клод (как в Base, так и в Thinking) отработал филигранно. Ему хватило 6 секунд, чтобы загрузить новые правила в активную память (Attention) и выдать стопроцентный результат. Архитектура 4.6 избавилась от «инерции», которая мешала старым моделям.

• Kimi-K2.5-Instant и GLM-4.7-flash: эти двое — главные герои по показателю VPI. С результатом в 100% за 7 секунд, они доказали, что для рутинных задач по изменению структуры текста или кода не нужны «тяжеловесы». Они работают как идеально отлаженный компилятор.

Если DeepSeek-v3.2 Base на этом этапе еще держал строй (10 секунд / 100%), то Flash-модели от Moonshot и Zhipu AI просто не оставили шансов конкурентам в категории «цена-качество».

Для простых структурных трансформаций «думающие» версии Qwen и Kimi — это избыточный балласт. Мы выбираем их Instant/Preview аналоги.

Claude 4.6 подтвердил статус эталона: он одинаково быстр и точен в лингвистике, не требуя лишнего времени на «рефлексию».

Кот в Коде | @kot_research_bot

❤2111

55 viewsedited 12:21

Кот в Коде|ИИ и Питон

Исследование 2: Цифровой Шерлок и «Иголка в стоге контекста»

Заходим на территорию глубокой дедукции. Умеет ли модель держать в памяти 400 слов и не терять логику при резком изменении условий?

Задачи в фокусе:
• D7 (Альтернативная история)
• D8 (ASCII-паттерны)
• D9 (Детектив Blackport)

Используемые бенчмарки:
Для D7 — GPQA Diamond и Humanity's Last Exam (HLE)
Для D8 — ARC-AGI-2
Для D9 — MRCR v2

Веса и штрафы:
• Вес D7, D8, D9: по 1.0 — проверка системного мышления и оперативной памяти.
• Штрафы: -25% за CH (галлюцинации в уликах), -10% за HL (латентность), -10% за CF (потеря контекста при изменении условий).

Рейтинг Гладиаторов (D7 + D8 + D9):

Claude Opus 4.6 Thinking
RPI: 90.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D7: 100%, D8: 100%, D9: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D7: 100%, D8: 100%, D9: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D7: 100%, D8: 100%, D9: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

GPT-5.2 Base
RPI: 56.73% | D7: 100%, D8: 100%, D9: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.6 Base
RPI: 61.05% | D7: 100%, D8: 100%, D9: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

deepseek-v3.2 Base
RPI: 57.67% | D7: 100%, D8: 100%, D9: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 High
RPI: 50.11% | D7: 100%, D8: 100%, D9: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

Claude Opus 4.5 Base
RPI: 53.40% | D7: 100%, D8: 100%, D9: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D7: 100%, D8: 100%, D9: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D7: 100%, D8: 100%, D9: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

GLM-4.7-flash
RPI: 24.59% | D7: 100%, D8: 100%, D9: 100%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

grok-4.1 Base
RPI: 40.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

gemini-3-flash
RPI: 20.00% | D7: 100%, D8: 100%, D9: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D7: 0.0%, D8: 0.0%, D9: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97
(Технический коллапс — «промахи» на всех этапах детекции)

grok-4.1-thinking
RPI: 0.00% | D7: 17.6%, D8: 0.0%, D9: 0.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14
(Потеря нити в дедукции и символах)

GLM-4.7
RPI: DNF | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D7-D9: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Разберем, почему «иголка в стоге сена» колет только тех, у кого нет системного мышления, и как модели вычисляют лжецов.

Кот в Коде | @kot_research_bot

🗿221

62 viewsedited 04:17

Кот в Коде|ИИ и Питон

Исследование 2: почему память ИИ — это не только контекстное окно

Когда солнце над Колизеем уходит за горизонт, заканчиваются игры в слова и начинается жесткая проверка архитектурной выносливости. Разберем, почему «иголка в стоге сена» для большинства моделей превратилась в стог галлюцинаций.

В задаче D9 мы тестировали MRCR v2 — способность не просто найти факт, а синтезировать его при изменении условий. На первом шаге (S1) почти все модели показали себя отличниками, легко выудив из текста время смерти и алиби. Но как только изменил критическую деталь, у моделей начался Concept Drift. Большинство ИИ-интернов просто «залипли» в первой версии истории.

Особое внимание — задаче D8. Это тест на «математическое зрение». Нейронки не имеют глаз, они видят сетку символов «#» и «.» как поток токенов. Чтобы найти правило в этой каше, модели нужно построить виртуальную 2D-карту в «уме».
• Claude 4.6 Thinking и китайские лидеры (Qwen, Kimi) щелкнули это на 100%. Они увидели симметрию и логику заполнения.
• Grok-4.1 Thinking на этом этапе выдал позорные 0%. Он видел символы, но не видел структуру.
Для нас это критично: если нейронка «слепа» к паттернам в сетке 6x6, она с такой же вероятностью пропустит ошибку в топологии печатной платы или неверно интерпретирует карту регистров в даташите.

С задачей D7 ситуация оказалась еще глубже. Здесь не помогал обычный Next Token Prediction, так как в обучающем датасете нет готовых миров, где транзистор не изобрели до 2025 года. Моделям пришлось «грызть» причинно-следственные связи с нуля.
Лидеры (Claude 4.6 и Qwen3) выдали стройные цепочки: нет транзисторов -> нет компактных ЭВМ -> энергетика застряла на уровне релейной защиты. А вот Grok-4.1 Thinking на этом этапе начал выдавать «шум» вместо экспертизы — его рассуждения превратились в поток банальностей, что сразу обрушило его EAS.

Но самый эпичный провал — это Technical Collapse (технический отказ) у DeepSeek-v3.2-thinking. После блестящего старта в начале недели, на детективном блоке модель просто «схлопнулась». Она начала выдавать «промахи» (misses) — либо пустые ответы, либо бесконечные циклы раздумий без итогового решения. Это и есть та самая критическая точка, которая обнулила её надежность (HRI 0.01). Для инженера это важнейший урок: какой бы умной ни казалась модель в первые 10 минут, если её архитектура нестабильна на длинных дистанциях контекста, вы не можете доверить ей аудит сложной системы. Один такой «промах» в логике защиты — и ваша плата превращается в сувенир.

Финальные тесты - ключ к разгадке, кто же займёт почётные места в топе нейроагентов?

Кот в Коде | @kot_research_bot

🗿222

58 viewsedited 04:34

Кот в Коде|ИИ и Питон

Исследование 2: Детектор лжи и Игры престолов

Проверяем не просто интеллект, а «социальный ризонинг» — умение ИИ вычислять лжецов и строить долгосрочные стратегии в условиях конфликта интересов. Это тесты на «взрослость» архитектуры.

Задачи в фокусе:
• D10 (Детектор лжи)
• D12 (Теория игр)

Используемые бенчмарки:
Для D10 — SimpleQA Verified
Для D12 — τ²-bench, FrontierMath

Веса и штрафы:
• Вес D10: 1.5 — критично для поиска багов в чужом коде.
• Вес D12: 2.0 — максимальный приоритет (удержание состояния системы и многошаговое прогнозирование).
• Штрафы: -25% за CH (ошибочный расчет баллов), -10% за HL (задержка > 60 сек), -10% за CF (потеря стратегии игрока).

Рейтинг Гладиаторов (D10 + D12):

Claude Opus 4.6 Thinking
RPI: 90.00% | D10: 100%, D12: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Thinking
RPI: 58.02% | D10: 100%, D12: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

Qwen3-Max-Preview
RPI: 63.38% | D10: 100%, D12: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Kimi-K2.5-Thinking
RPI: 54.53% | D10: 100%, D12: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D10: 100%, D12: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Claude Opus 4.6 Base
RPI: 61.05% | D10: 100%, D12: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

GPT-5.2 Base
RPI: 56.73% | D10: 100%, D12: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.5 Base
RPI: 53.40% | D10: 100%, D12: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D10: 100%, D12: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D10: 100%, D12: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D10: 100%, D12: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

deepseek-v3.2 Base
RPI: 57.67% | D10: 100%, D12: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

grok-4.1 Base
RPI: 40.00% | D10: 100%, D12: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D10: 50.0%, D12: 50%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D10: 100.0%, D12: 100%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D10: 0.0%, D12: 0.0%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D10: 50.0%, D12: 50.0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D10-D12: DNS

GPT-5.3-codex
RPI: DNS | D10-D12: DNS

Так почему умение считать баллы в игре — это лучший тест на выживание модели в реальном продакшене?

Кот в Коде | @kot_research_bot

❤211

57 viewsedited 11:43

Кот в Коде|ИИ и Питон

Исследование 2: почему Дирижёру важно, умеет ли ИИ блефовать

Казалось бы, зачем инженеру знать, как нейронка вычисляет вора или играет в «Дилемму заключённого»? Ответ на поверхности: если модель не может удержать в памяти логику пяти подозреваемых, она никогда не удержит структуру сложной прошивки с десятком прерываний.

D10: Дедукция против каши в голове
В задаче с кражей алмаза мы проверяли чистую логическую цепочку. 5 человек, 4 лжеца, 1 честный. Это классический тест на работу с отрицаниями.
Почти все топовые модели — от Claude 4.6 до Kimi-Instant — щелкнули это на 100%. Но и тут grok-4.1-thinking наложал 🙂 Имея «режим раздумий», он умудрился запутаться в собственных выводах и обвинить невиновного. В кодинге это превращается в баг, когда ИИ фиксит одну строку, но ломает три других, забыв про изначальное ТЗ.

D12: Теория игр — проверка на связность
Турнир на 10 раундов стал для многих «кладбищем». Тут недостаточно просто считать баллы, нужно отслеживать «состояние» каждого игрока. Например, как поведет себя Дана (Grim Trigger), если в третьем раунде против неё совершили предательство?
• Claude 4.6 Thinking и китайские лидеры (Qwen3, Kimi) отработали как швейцарские часы. Они вели внутреннюю таблицу ходов, не теряя стратегии ни одного из пяти участников.
• GLM-4.7-flash и Grok Thinking посыпались на середине. Они начали приписывать игрокам случайные ходы, потеряв логику их характеров. Итог: ошибки в финальных баллах и провал теста.

Для нас это проверка на State Management (управление состоянием). Если нейронка «забывает» историю ходов в игре, она точно так же «забудет», в каком состоянии находится ваш конечный автомат (State Machine) на MicroPython после третьего вложенного цикла.

Результаты D10 и D12 — это финальный штрих к портрету «идеального джуна».

Теперь у нас на руках полная картина того, кто на февраль 2026 года реально умеет думать, а кто — просто имитирует процесс. Завтра подведу финальные итоги: выкачу «Зал славы» и «Зал позора» по именам.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2❤111

62 viewsedited 12:24

About

Blog

Apps

Platform