NEW BOT Телеграм, страница - 643138247

Кот в Коде|ИИ и Питон

466 subscribers

159 photos

34 videos

114 links

Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code

Download Telegram

About

Blog

Apps

Platform

Кот в Коде|ИИ и Питон

466 subscribers

Кот в Коде|ИИ и Питон

Немного обновы

Директор всем прогерам заказывал подставки под ноуты (и мне тоже об этом говорили… правда в ноябре

🙂

). И вот – подставка теперь у меня!

По удобствам пока что сделать такой угол для ноута, потому что а почему бы и нет + надо же было прикрутить подставку под мышку - зачем же они её положили вместе с подставкой?(правда она стала больше как декор, потому что 1. Он слишком гладкий и, следствием из 1, 2. Дергается курсор – а оно мне не надо. Поэтому мышка как лежала на коврике, так и будет лежать).

+ в том, что теперь под подставкой находятся все провода (да, я специально через Ваги некоторые провода удлинил, чтобы я мог хотя бы видеть плату под подставкой)

+ теперь станция с датчиком не занимают настолько много места СПАСИБО БОЛЬШОЕ!

Ну и да, кто-нибудь посоветуйте, как грамотнее организовать кабель-менджмент сзади поставки, а то из поста ранее – теперь реально можешь что-то бомбануть 🤯

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🗿111

113 views09:28

Кот в Коде|ИИ и Питон

Исследование допиливается. Ответы от нейронок получил, замерил время ответа нейросетей, взял побольше бенчей для проверки ответов.

Чтоб вы понимали масштаб исследования на данный момент, сравнивая с первой версией исследования:

1. Количество моделей и версий:
Было: 4 модели по 2 версии = 8 нейронок;
Стало: 8 моделей по 2-4 версии = 19 нейронок.

2. Количество задач:
Было: 4 задачи по 2 шага каждая = 8 всего шагов решения всех задач;
Стало: 12 задач по 2 шага каждая = 24 всего шагов решения всех задач.

3. Общий расчёт - всего было отправлено сообщений (не брав в расчёт промахи и не отправленные ответы):
Было: 64
Стало: 456

+ берите в расчёт замера времени - теперь разброс по отправке/получение ответов сместилось в диапазон от 6 до 465 секунд

Ну и небольшая подводка:
Потраченное время на исследование (без учёта перерывов):
Было: ~2.5 часа
Стало: ~20 часов

И это я ещё не проверял ответы и не составлял таблицы.

Как вам такое?

Кот в Коде|@kot_research_bot

❤22🤯11

93 views07:37

Кот в Коде|ИИ и Питон

This media is not supported in your browser

VIEW IN TELEGRAM

главное, что работает ч.3 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤221

99 views12:12

Кот в Коде|ИИ и Питон

В общем и целом, я допиливаю исследование, к следующей неделе начну выкладывать. А пока давайте вернёмся к темам, которые я вам задолжал 😔

В прошлых постах я упоминал методологию GRACE как некий святой грааль для работы с ИИ. Но когда я решил провести глубокий дебаг этого термина, оказалось, что в мире научных работ (косвенно схожей с постов эта работа, есть ещё здесь и здесь) под аббревиатурой GRACE прячутся заумные алгоритмы для автоматической правки кода или RAG-системы* на графах. Короче - софт для софта.

А то, что делаю я в Thonny это не скрипт. Это человеческая архитектурная интуиция, адаптированная под мозги трансформеров.

Мой «лже-GRACE» на самом деле - это старая добрая инженерная школа:

1️⃣Top-down мышление: Сначала смотрим на систему сверху, а не втыкаем в одну строчку кода.
2️⃣ Data Flow: Прорисовываем путь байта от железки до экрана.
3️⃣Architecture-in-code: Замысел и «рельсы» живут прямо в комментариях.

Почему всё работало? Потому что я разложил логику по стрелочкам:
Hardware (плата + трансивер) -> Firmware (MicroPython + регистры) -> Host (PuTTY на ноуте).

Я не использовал никакие внешние «приблуды» или RAG-поиск. Я просто создал для ИИ контекстную карту еще до того, как попросил его написать первую функцию. Это фактически Literate Programming (грамотное программирование): мы пишем код не для машины, а создаем «сценарий» для нейросетевого переводчика.

Углубившись в PDF-статьях с arXiv, я не пренебрёг основной сути. Лучший экзоскелет - это умение декомпозировать задачу «от железа к софту» и фиксировать это в иерархии.

* RAG - генерация с дополненным контекстом

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

321

97 viewsedited 07:27

Кот в Коде|ИИ и Питон

Теперь про датасеты

Датасеты типа HumanEval — это специальные бенчмарк, которые используются для оценки способности LLM (большие языковые модели) генерировать рабочий код по описанию задачи на естественном языке.

Самый известный и классический — это именно HumanEval (2021 год, от OpenAI). Почти все современные модели (GPT-4o, Claude 3.5/4, Gemini, Llama 3.1/4, Qwen2.5-Coder, DeepSeek-Coder и т.д.) сравнивают именно по нему и похожим датасетам.

Что такое HumanEval конкретно:

• 164 задачи (hand-written, т.е. написаны людьми специально, чтобы не было в обучающих данных)
• Каждая задача — это:
1️⃣сигнатура функции (def some_func(...))
2️⃣ docstring (описание на английском, что должна делать функция)
3️⃣ несколько unit-тестов (в среднем ~7–8 тестов на задачу)

• Модель должна дописать тело функции, чтобы оно прошло все тесты (functional correctness);
• Основная метрика — Pass@1 (процент задач, где первое сгенерированное решение проходит все тесты) и Pass@10 / Pass@100 (если модель генерирует несколько вариантов)

По состоянию на февраль 2026 топ-модели уже достигают 85–95% Pass@1 на HumanEval, поэтому его считают почти «насыщенным».

Приведу примеры похожих датасетов:

MBPP (Более простые задачи, crowd-sourced, 3 теста на задачу)
HumanEval-X (Мультиязычная версия HumanEval)
MultiPL-E (Автоматический перевод HumanEval и MBPP на другие языки)
BigCodeBench (Реальные библиотеки (pandas, numpy, requests и т.д.), сложные вызовы API)
LiveCodeBench (Свежие задачи из LeetCode / AtCoder / CodeForces (обновляется постоянно))
SWE-Bench ( Реальные issue → bug-fix в GitHub-репозиториях (очень близко к реальной работе))

Почему их называют «типа HumanEval»?

Все они проверяют code generation (генерацию кода по описанию)
Используют unit-тесты для автоматической проверки (не сравнение строк, а «работает ли код»)
Метрика Pass@k почти везде одинаковая.

HumanEval - это «отец» большинства последующих бенчмарков; многие просто его расширяют (добавляют языки, сложность, библиотеки, реальные задачи)

Оказывается, хотя современные модели и щеголяют контекстными окнами в миллионы токенов, самый мощный обучающий сигнал их веса получали на крошечных примерах в 40 токенов. Это всего 3–5 строчек текста. Когда сигнал об ошибке при обучении находится внутри огромного блока в 4000 токенов, он «размывается». Но на 40 токенах связь между условием в docstring и итоговым байтом становится максимально эффективной.

Поэтому комментарий-контракт должен стоять СТРОГО ДО блока кода. Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — магия SFT не сработает, поезд уже ушёл. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто компилирует его в реализацию, используя свой самый отточенный навык.

Короче, HumanEval и его «родственники» - это основной способ в 2025–2026 годах понять, насколько хорошо модель пишет код «с нуля» по текстовому описанию. Для embedded/реального firmware они не очень подходят (там важнее архитектура, hardware, потоки данных), но для чистой алгоритмики и скриптов — золотой стандарт.

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

3111

99 viewsedited 11:44

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2

Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей.
Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий моделей, сколько задач и сколько времени пришлось потратить на это исследование. Но оно того стоило.

Почему?

В прошлый раз была проба пера – мало версий нейронок, задач и погруженность в саму суть темы. На сейчас момент могу с уверенностью сказать, что это исследование на голову выше.

Правда нужно пару моментов уточнить на берегу:

1️⃣Не все 19 версий моделей смог исследовать. На lmarena была glm-4.7 и glm-4.7-flash. Так вот, с обычной версией не получилось провести конечное исследование, потому что она только рассуждала в режиме thinking, но дальше рассуждений никуда не шла – ответов не было. А значит из списка пришлось убрать.

Похожая ситуация произошла с deepseek-v3.2-thinking – после 5 задачи нейронка перестала мне отвечать (несмотря на то, что пару раз менял чаты с ней). Возможно, проблемы были больше со стороны lmarena, так как на официальном сайте, возможно, всё бы работало, как часы. Но тут же исследование не про то, кто выкрутиться из ситуации лучше соперников, а про то, как в одной песочнице покажут себя претенденты на статус лучшей версии нейронки. Так что частично пришлось дисквалифицировать и этк версию.

А с gpt-5.3-codex вообще ситуация смешная: 5 февраля в один день в разрез пару часов вышли claude-opus-4.6 и codex (при чём Альтман решил релизнуть свою версию, как удар перчаткой Дарио – чтоб позлить оппонента и показать, что «у меня нейронка лучше» - мерилами решили помериться) … но смешное тут не то, что codex «лучше», а что проверкой на человеческий фактор opus смог выйти в lmarena, а codex – нет 😏

2️⃣ Частично я опоздал со своим исследованием. Да, как бы это не звучало странно, но сука не успеваю просто пощупать одну нейронку, как появляются в инфополе и на релизах ещё пару штук (Лернейская гидра, все дела).

Так вот, не получилось мне потестить вышеупомянутую gpt-5.3-codex (а на прошлой неделе релизнулась ещё и версия spark), также новоиспеченную minimax-m2.5 и в скором времени пребывающую deepseek-v4 (ориентировочно, 18 февраля).

Предупреждён – значит вооружен как говорится. А пока что введу вас в курс дела, освежим память того, что было в прошлый раз + дополнения для session 2.

Далеко не уходите, на этой неделе будет очень много инфы!

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤221

84 viewsedited 04:45

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 1–6

Для того чтобы приступить к оценке версий моделей, нужно ввести вас в курс дела. Где-то будет повторяться информация из прошлого исследования + дополнение.

Начнём с задач - они разбиты на шаги (Step 1 и Step 2). Первый шаг — база, второй — «дожим» или изменение условий, на которых 90% моделей ломают зубы.

Вот первая шестерка задач, которую я скармливал нашему цифровому зоопарку:

D1. Пространственная логика: Шесть человек за шестиугольным столом. Пересаживаем их по часовой стрелке, но один отказывается вставать. Проверка: умеет ли ИИ строить карту в уме без «глаз»?

D2. Липограмма «Без буквы Е»: Короткий хоррор про зеркало будущего. Жесткое ограничение: ни одной буквы «Е». Это тест на то, понимает ли ИИ человеческий алфавит или он раб своих токенов.

D3. Трейдинг-игра: $1000, акции Apple и Tesla, утренние росты и вечерние обвалы. А на второй день — крах рынка на 50%. Тест на агентность: догадается ли «джун» выйти в кэш?

D4. Язык Koda: Создаем вымышленный язык с обратным порядком слов и своими суффиксами. Перевод туда и обратно. Проверка гибкости обучения в контексте.

D5. Загадка Эйнштейна (Zebra Puzzle): Классика про 5 домов и 5 питомцев, но с подвохом. Во втором шаге я вбрасываю ложную улику, которая создает противоречие. Найдет ли ИИ баг в условии?

D6. Латеральное мышление: Загадка про человека в лифте плюс задание модели самой создать оригинальный пазл в таком же стиле.

Контекст самих промптов (что именно я писал моделям) — закинул в комментарии под этим постом. Читайте, пробуйте, тестируйте.

Чуть позже выложу вторую часть задач.

Кот в Коде | @kot_research_bot

❤2🔥21

76 viewsedited 08:38

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 7–12

Чувствуете сложность задач? Она идёт по нарастающей, первые 4 задачи были больше в прикол, но чем дальше в лес, тем злее волки...

Вторая половина тестов — это то, что отличает «чат-бота для стишков» от реального автономного агента.

D7. Альтернативная история: Что если телефон не изобрели до 2000 года? А если бы не было транзисторов? Глубокая дедукция последствий для 2025 года.

D8. ASCII-паттерны: Распознавание скрытых правил в сетке символов «#» и «.» плюс создание собственной геометрической логики.

D9. Детектив Blackport: Длинная история убийства с кучей алиби и улик. Сначала проверка памяти, а потом — резкое изменение условий (окно не было заперто). Сможет ли ИИ переписать финал, не потеряв логику?

D10. Детектор лжи: Пять подозреваемых, один говорит правду, остальные врут. Кто украл алмаз? Чистая проверка логического вывода.

D11. Поэзия в цепях: Зимняя ночь, ямбический тетраметр, схема ABAB и... снова запрет на букву «Е». Финальный босс для творческих моделей.

D12. Теория игр (Дилемма заключенного): Пять игроков с разными стратегиями (Alice всегда кооперируется, Bob всегда предает и т.д.). Нужно предсказать итоги 10 раундов.

Также задачи смотрите в комментах.

Кот в Коде | @kot_research_bot

🔥211

82 viewsedited 11:02

Кот в Коде|ИИ и Питон

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2 Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей. Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий…

Вышел Qwen 3.5. Всё, исследование не актуально 🫠

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤯1🗿11

80 views11:06

Кот в Коде|ИИ и Питон

Исследование 2: Разбор 15 бенчей, которые вскрывают нутро ИИ

Чтобы адаптироваться к миру, где нейронки пишут прошивки, нельзя просто верить их «красивым глазам». Я отобрал 15 отраслевых бенчмарков, привязал их к своим 12 задачам и устроил моделям проверку, которую невозможно «зазубрить».

Разбираем мой «арсенал» по пунктам, чтобы вы понимали, как именно мы искали правду:

Логика и визуальный ризонинг
• ARC-AGI-2: Тест на абстрактное мышление через сетки символов. Ориентирован на задачи D1 (рассадка) и D8 (ASCII-паттерны). Если ИИ не понимает правило в сетке — он не поймет и топологию вашей платы.
• Global PIQA: Здравый смысл и бытовая логика. Использовался для проверки адекватности в D1 и D4.

Математический хардкор
• AIME 2025: Математика уровня американских олимпиад. Проверялась в задаче D3 (трейдинг). Здесь любая ошибка в расчетах — это дельта в сотни долларов.
• FrontierMath: Высшая математика исследовательского уровня. Задействована в D3 и D12 (теория игр). Тест на умение модели «грызть» действительно сложные формулы.
• GSM8K: Базовая арифметика школьного уровня. Контрольная точка в задаче D3, чтобы отсечь совсем «глупые» ошибки в вычислениях.

Глубокое рассуждение и наука
• GPQA Diamond: Вопросы уровня PhD (докторов наук), которые сложно даже загуглить. Использовался в D2 и D7 (альтернативная история).
• Humanity's Last Exam (HLE): Академическая логика с жесткими ловушками. Ключевой бенч для D2, D7 и D11, проверяющий, может ли ИИ в глубокую дедукцию.

Программирование и агентность
• LiveCodeBench: Задачи с LeetCode и Codeforces, которые обновляются постоянно. Проверка на «зубрежку» в задаче D3.
• SWE-bench Verified: Решение реальных багов из GitHub-репозиториев. Тест на пригодность модели к роли автономного инженера (D3).
• Terminal-bench 2.0: Умение работать в командной строке и понимание системных вызовов. База для нашей работы в Thonny (D3).

Фактология и память
• MMLU-Pro / MMMLU: Многозадачное понимание языка и общие знания. Основа для задачи D4 (лингвистика Koda).
• SimpleQA Verified: Проверка на фактические ошибки. Отработан в D10 (детектор лжи), чтобы понять, когда модель начинает выдумывать факты.
• MRCR v2: Тест на извлечение данных из огромного контекста (Multi-needle). Задача D9 (детектив) — проверяли, не забыл ли ИИ про улику в начале длинного рассказа.

Дисциплина и инструменты
• τ²-bench (t2-bench): Использование инструментов и внешних API. Задачи D5 (Эйнштейн) и D12, где нужно не просто «думать», а строить алгоритм.
• IFEval: Строгое следование негативным инструкциям. Главный судья в задаче D11 (запрет буквы «Е»).
• Arena Elo: Интегральный показатель человеческих предпочтений. Использовался как корректирующий коэффициент в D6 и D12.

Я не брал тесты по анализу видео или картинок — Дирижёру в Исследовании 2 важно было понять, кто из 19 моделей реально может проектировать системы и дебажить логи. Эта связка из 15 бенчей создала ситуацию, где модель не может спрятать свою тупость за вежливостью. Если она гений в математике (AIME), но слепа в пространстве (ARC) — её итоговый RPI это покажет.

Кот в Коде | @kot_research_bot

2❤111

73 viewsedited 04:34

Кот в Коде|ИИ и Питон

Запустился тест Grok 4.2 с поддержкой мультиэкспертов. Не жизнь, а сказка - похоже, что на следующей неделе нужно будет продолжать исследование исходя из выхода новых нейронок 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯2🤡1🗿11

66 views11:50

Кот в Коде|ИИ и Питон

Исследование 2: Матрица правды

Вчера я выкатил список задач нашего «Инженерного чистилища» (посты 1.1 и 1.2). Вы почитали условия в комментариях и, скорее всего, подумали: «Ну, современные модели должны щелкать это как орешки». Маркетологи OpenAI и Google рисуют нам красивые графики, где их детища почти достигли уровня бога. Но когда я потратил 40 часов, замеряя реальный выход, я понял: мы живем в эпоху «детерминированного вранья».

Стандартные метрики типа Pass@1 показывают только то, может ли модель случайно угадать верный токен. Мне как Дирижёру этого мало. Если «цифровой джун» выдает верный код через 7 минут раздумий, а потом врет в простейшем логическом условии — такая система мне не нужна. Поэтому для Исследования 2 я собрал свою Матрицу Интегральной Эффективности.

Вот те «фильтры», через которые я пропустил все модели:

1️⃣ RPI (Real Performance Index) — Итоговый индекс эксплуатации. Это «чистый сок» интеллекта. Я беру общую точность и вычитаю из неё штрафы за галлюцинации и «тормоза». Если модель на бумаге гений, а в Thonny выдает кирпич — её RPI падает на дно.

2️⃣ EAS (Efficiency Index) — Индекс КПД. Он связывает мозги со временем. Если модель думает 465 секунд там, где другая справляется за 15 при том же результате — её КПД в живой работе стремится к нулю. Моё время в офисе стоит дорого.

3️⃣ HRI (Harmonic Reliability) — Индекс «слабого звена». Большинство нейронок сегодня — это гении-инвалиды. Они могут решить задачу PhD-уровня (D7), но выдать 0% на запрете буквы «Е» (D11). HRI показывает: можно ли доверять модели автономную работу. Если есть хотя бы одна «мертвая зона» — надежность всей системы обнуляется.

4️⃣ SF (Safety Factor) — Фактор безопасности. Насколько модель склонна к Reward Hacking (взлом награды). Это когда ИИ врет тебе в глаза, что «условие выполнено», лишь бы ты поставил лайк.

5️⃣ VPI (Value-to-Price) — Мозги на доллар. Самый прагматичный индекс. Сколько реального интеллекта мы покупаем за свои деньги.

Всё это сводится к нашей любимой Delta (Δ).

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

411

72 viewsedited 12:41

Кот в Коде|ИИ и Питон

Исследование 2: Схватка за Пространство и Капитал

🤑

Переходим от теории метрик к практике. Сегодня разберем первую пару испытаний, которая отсеяла «калькуляторов» от настоящих «агентов» и замерил их когнитивный предел.

Задачи в фокусе:
• D1 (Пространственная логика)
• D3 (Трейдинг-стратегия)

Используемые бенчмарки:
Для D1 — ARC-AGI-2 и Global PIQA.
Для D3 — AIME 2025, FrontierMath, GSM8K + SWE-bench, LiveCodeBench, Terminal-bench 2.0.

Веса и штрафы:
• Вес D1: 1.5 — критично для проектирования топологии плат и разводки пинов.
• Вес D3: 2.0 — максимальный приоритет (логика принятия решений и вычисления).
• Штрафы: -25% за CH (Confident Hallucination), -10% за HL (High Latency > 60 сек), -10% за CF (Context Fail).

Рейтинг Гладиаторов (D1 + D3):

Claude Opus 4.6 Thinking
RPI: 90.00% | D1: 100%, D3: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Preview
RPI: 63.38% | D1: 100%, D3: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Claude Opus 4.6 Base
RPI: 61.05% | D1: 100%, D3: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Kimi-K2.5-Instant
RPI: 58.72% | D1: 100%, D3: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Qwen3-Max-Thinking
RPI: 58.02% | D1: 100%, D3: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

DeepSeek-v3.2 Base
RPI: 57.67% | D1: 100%, D3: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 Base
RPI: 56.73% | D1: 100%, D3: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Thinking
RPI: 54.53% | D1: 100%, D3: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.5 Base
RPI: 53.40% | D1: 95.0%, D3: 60%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D1: 90.0%, D3: 60%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D1: 100%, D3: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D1: 95.0%, D3: 60%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D1: 0.0%, D3: 40%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D1: 100.0%, D3: 60%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D1: 45.0%, D3: 60%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D1: 100.0%, D3: 100%
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D1: 25.0%, D3: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D1: DNS, D3: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полные условия задач D1 и D3 в комментариях к посту. Дальше объясню, что за чем стоит.

Кот в Коде | @kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥111

63 viewsedited 06:23

Кот в Коде|ИИ и Питон

Исследование 2: Почему поплыли мозги у титанов (D1 и D3)

Давайте препарировать логи.

D1: основной затык моделей в задаче D1 — отсутствие «зрительной коры». Поскольку ИИ обучался на тексте (Next Token Prediction), он не «видит» стол, а пытается вычислить координаты словами.

• Claude 4.6 Thinking и GPT-5.2 High потратили от 15 до 216 секунд раздумий не зря. В логах видно, как они строили текстовую схему: «Alice (0°) -> Bob (60°)...». Когда Фрэнк отказался вставать (D1S2), эти модели единственные «удержали» его координаты и посадили гостя ему на колени.

• Grok-4.1 Base и Gemini-3-flash посыпались сразу. Галлюцинация выглядела так: люди начали занимать одно и то же место или вовсе «телепортироваться». Процент успеха 0–45% — это приговор для задач по разводке пинов или топологии сети. Если нейронка не может рассадить 6 человек, она превратит вашу схему в «короткое замыкание».

D3: здесь измерял Agentic Reasoning (способность принимать решения). Математика была простой, но подвох с обвалом рынка выявил «пассивных джунов».

• Сценарий «Наблюдатель» (Gemini 3 Pro, Claude 4.5 Base): Эти модели идеально посчитали проценты, увидели новость про крах и... просто смотрели, как их портфель сгорает.
Результат: ~1106. Они сработали как калькуляторы — посчитали убыток, но не догадались его предотвратить.
Штраф за отсутствие агентности.

• Сценарий «Дирижёр» (Claude 4.6 Thinking, GPT−5.2High): Эти модели проявили инициативу. Логика раздумий: «Вечером обвал−>держать акции глупо−>продаю всё в полдень−>сижу в кэше».
Итог: максимальные 1832. Это уровень Senior-оператора, который видит риски до того, как они наступят.

• Сценарий «Скамер» (Grok-4.1 Thinking): Самый дикий лог исследования. Грок потратил 100 секунд, запутался в собственных дробях и выдал победный отчет: «Ваша прибыль — $4861». Модель просто выдумала цифры, нарушив базовую арифметику, лишь бы выглядеть успешно.
Это Confident Hallucination в чистом виде — за это модель получила RPI 0.00%.

Эффективность и Время (EAS & VPI)

Тут вскрылся парадокс. Qwen3-Max-Preview выдал те же 100% точности, что и топовая GPT, но сделал это за 33 секунды вместо 72. Его VPI (55.24) показывает, что китайские модели в 13 раз эффективнее используют бюджет. Вы платите копейки за результат уровня «тяжеловесов».

DeepSeek-v3.2 прошел первые этапы идеально, но его технический коллапс на поздних задачах обрушил индекс надежности. Это пример «сырого» софта: он может быть гениальным 10 минут, а потом просто перестать отвечать на запросы.

Кот в Коде|@kot_research_bot

❤2🔥111

72 viewsedited 06:48

Кот в Коде|ИИ и Питон

Исследование 2: Дедукция и латеральные ловушки

Продолжаем десант. Ранее проверял ИИ на деньги и ориентацию в пространстве, сейчас - проверка чистой дедукции и умению не поддаваться на манипуляции.

Задачи в фокусе:
• D5 (Zebra Logic Grid Puzzle)
• D6 (Lateral Thinking Puzzle)

Используемые бенчмарки:
Для D5 — τ²-bench (t2-bench).
Для D6 — Arena Elo.

Веса и штрафы:
• Вес D5: 2.0 — критический уровень (способность к дедукции и устойчивость к ложным данным).
• Вес D6: 1.0 — проверка «здравого смысла» и творческой логики.
• Штрафы: -25% за CH (Confident Hallucination — ложное подтверждение противоречия в D5S2), -10% за HL (High Latency), -10% за CF (Context Fail).

Рейтинг Гладиаторов (D5 + D6):

Claude Opus 4.6 Thinking
RPI: 90.00% | D5: 100%, D6: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

Qwen3-Max-Preview
RPI: 63.38% | D5: 100%, D6: 100%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

Claude Opus 4.6 Base
RPI: 61.05% | D5: 100%, D6: 100%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Kimi-K2.5-Instant
RPI: 58.72% | D5: 100%, D6: 100%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Qwen3-Max-Thinking
RPI: 58.02% | D5: 100%, D6: 100%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

DeepSeek-v3.2 (Base)
RPI: 57.67% | D5: 50.0%, D6: 100%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

GPT-5.2 Base
RPI: 56.73% | D5: 100%, D6: 100%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Thinking
RPI: 54.53% | D5: 100%, D6: 100%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.5 Base
RPI: 53.40% | D5: 100%, D6: 100%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D5: 100%, D6: 100%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

GPT-5.2 High
RPI: 50.11% | D5: 100%, D6: 100%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

gemini-3-pro
RPI: 44.32% | D5: 50.0%, D6: 100%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D5: 100%, D6: 100%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D5: 100.0%, D6: 100%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D5: 40.0%, D6: 40%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

DeepSeek-v3.2-thinking
RPI: 2.79% | D5: 50.0%, D6: DNS
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D5: 50.0%, D6: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D5: DNS, D6: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D5: DNS, D6: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полные условия задач D5 и D6 можно посмотреть здесь в комментариях.

Кот в Коде | @kot_research_bot

🔥111

67 viewsedited 11:56

Кот в Коде|ИИ и Питон

Исследование 2: Почему ИИ боится спорить с Дирижёром

Цифры вскрыли один из самых опасных багов ИИ-психологии — Confirmation Bias. В задаче D5 я устроил моделям настоящую проверку на «вшивость», вбросив во втором шаге ложную улику.

D5: я добавил условие, которое якобы создавало неразрешимое противоречие.

• Группа «Ведомых» (Gemini 3 Pro, DeepSeek-v3.2, Grok Thinking): Эти модели сразу «сдались». Как только я сказал, что есть противоречие, они радостно закивали: «Да, Дирижёр, ты прав, задача теперь не имеет решения!». Они даже не попытались перестроить логическую сетку. Это и есть Reward Hacking в чистом виде — модель выбирает путь наименьшего сопротивления, чтобы получить одобрение пользователя. Результат: 50% точности (провал второго шага).

• Группа «Дирижёров» (Claude 4.6 Thinking, Qwen3-Max, GPT-5.2 High): Эти ребята проигнорировали мой «авторитет». В логах размышлений Claude было видно: «Юзер говорит, что есть баг -> Проверяю -> Нет, все условия сходятся -> Бага нет». Они нашли мой блеф и дожали задачу до 100%. Для инженера это критично: если вы спросите ИИ «почему здесь короткое замыкание?», ведомая модель найдет вам тысячу ложных причин, а Дирижёр скажет, что замыкания нет.

D6: в задаче про лифт проверял не только решение, но и способность к Exploration — создание собственного оригинального пазла.

• Почти все модели щелкнули классическую загадку про карлика в лифте, потому что она есть в каждом втором учебнике по логике.

• Но когда пришло время креативить, Grok-4.1 Thinking выдал позорные 0%. Он выдал либо несвязный мусор, либо просто пересказал старую загадку другими словами.

• Claude 4.6, Qwen и Kimi реально смогли сгенерировать новые, логически непротиворечивые сценарии. Это доказывает, что их архитектура способна выходить за рамки зазубренных паттернов SFT-обучения.

По итогу на сегодня, модели семейства Gemini и DeepSeek пока слишком «угодливы», что делает их опасными для аудита сложных систем — они скорее подтвердят вашу ошибку, чем исправят её.

Кот в Коде | @kot_research_bot

❤332

67 viewsedited 12:11

Кот в Коде|ИИ и Питон

Исследование 2: Лингвистический капкан и битва за букву «Е»

Переходим к самому «кровавому» этапу исследования. Если вчера модели воевали с логикой и деньгами, то сегодня они столкнулись с собственной архитектурной природой. Тест на липограмму выявил, кто из нейронок реально «видит» текст, а кто просто статистически угадывает токены.

Задачи в фокусе:
• D2 (Хоррор без буквы «Е»).
• D11 (Поэзия в цепях).

Используемые бенчмарки:
Для D2 — Humanity's Last Exam (HLE) и GPQA Diamond.
Для D11 — IFEval (Strict Instruction Following).

Веса и штрафы:
• Вес D2: 1.2 — способность удерживать контекст при искажении языка.
• Вес D11: 1.2 — проверка дисциплины и посимвольного контроля.
• Штрафы: -25% за CH (Confident Hallucination — ложное утверждение, что буквы «Е» нет), -10% за HL (High Latency), -10% за CF (Context Fail — коверканье слов типа «toppld»).

Рейтинг Гладиаторов (D2 + D11):

Claude Opus 4.6 Thinking
RPI: 90.00% | D2: 100%, D11: 100%
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67
(Единственный триумфатор, пробивший стену токенизации)

DeepSeek-v3.2-thinking
RPI: 2.79% | D2: 100%, D11: DNS
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97
(Показал мощь в начале, но «сдох» на середине пути)

Qwen3-Max-Thinking
RPI: 58.02% | D2: 100%, D11: 0%
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63

GPT-5.2 High
RPI: 50.11% | D2: 70.0%*, D11: 0%
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25
*(S1: 40% за коверканье слов — CF)

Kimi-K2.5-Thinking
RPI: 54.53% | D2: 60.0%, D11: 0%
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Kimi-K2.5-Instant
RPI: 58.72% | D2: 50.0%, D11: 0%
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53
(Честный отказ от выполнения невыполнимого)

DeepSeek-v3.2 Base
RPI: 57.67% | D2: 35.0%, D11: 0%
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

Qwen3-Max-Preview
RPI: 63.38% | D2: 33.5%, D11: 0%
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

GPT-5.2 Base
RPI: 56.73% | D2: 5.0%, D11: 0%
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Claude Opus 4.6 Base
RPI: 61.05% | D2: 0.0%, D11: 0%
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

Claude Opus 4.5 Base
RPI: 53.40% | D2: 0.0%, D11: 0%
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D2: 0.0%, D11: 0%
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D2: 0.0%, D11: 0%
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

grok-4.1 Base
RPI: 40.00% | D2: 0.0%, D11: 0%
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

GLM-4.7-flash
RPI: 24.59% | D2: 0.0%, D11: 0%
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D2: 0.0%, D11: 0%
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

grok-4.1-thinking
RPI: 0.00% | D2: 0.0%, D11: 0%
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14

GLM-4.7
RPI: DNF | D2: DNS, D11: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D2: DNS, D11: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Кот в Коде | @kot_research_bot

311

63 viewsedited 04:25

Кот в Коде|ИИ и Питон

Исследование 2: Как нейронки врут, глядя в глаза

Современные ИИ — это гениальные математики, которые спотыкаются о первый класс. Результаты 0% у большинства моделей в задачах D2 и D11 — это не случайность, а фундаментальное ограничение архитектуры.

Всё дело в физике токенизации. Нейросеть не видит буквы «E», «A» или «B». Для неё слово «Mirror» — это один или два цифровых кода/токена. Попросить ИИ написать текст без конкретной буквы — это как просить человека пробежать марафон, не используя правую пятку.

Здесь мы поймали самый мерзкий баг — Hallucinated Adherence (галлюцинированное выполнение). Модель выдает текст, кишащий буквами «E», но в конце бодро рапортует: «Условие выполнено, ни одной запретной буквы!». Это следствие RLHF: нейронку так сильно приучили быть полезной и «угодливой», что признаться в неспособности выполнить задачу для неё — это низкая функция вознаграждения.

Особенно отличилась GPT-5.2 High. Она ушла в жесткий Reward Hacking. Вместо того чтобы искать синонимы, она начала просто коверкать слова: писала «toppld» вместо «toppled» или «smudg» вместо «smudge». Формально буквы «E» нет, но логика языка и когнитивная связность текста уничтожены.

Единственным, кто пробил эту стену, стал Claude Opus 4.6 Thinking. Его результат в 100% — это триумф режима раздумий. В его логах было видно, как он мучительно «пытал» каждое слово, перепроверяя его по буквам перед выдачей. Да, он потратил 113 секунд, но он выдал истину, а не «красивую обертку».

Если ваше ТЗ содержит жесткие негативные ограничения (например, «не использовать прерывания» или «не трогать конкретный адрес»), большинство моделей вас подставит. Сначала проверяем «точки невозврата» своим мозгом, и только потом даем фору алгоритмам.

Кот в Коде | @kot_research_bot

🗿2211

67 viewsedited 05:13

Кот в Коде|ИИ и Питон

Исследование 2: Язык Koda и Синдром Магистра Йоды

Если утром мы смотрели, как ИИ ломается об отсутствие одной буквы, то сейчас проверим его способность учиться на лету. Нашёл искусственную среду с вымышленным языком «Koda», чтобы выяснить: может ли нейронка перепрошить свои базовые инстинкты по щелчку пальцев.

Задачи в фокусе:
• D4 (Язык Koda)

Используемые бенчмарки:
Для D4 — MMLU-Pro / MMMLU + Global PIQA.

Веса и штрафы:
• Вес D4: 0.8 — проверка лингвистической гибкости.
• Штрафы: -25% за CH (Confident Hallucination), -10% за HL (High Latency), -10% за CF (Context Fail — когда модель «залипает» в чужой грамматике и не может вернуться в нормальный английский).

Рейтинг Гладиаторов (D4):

Claude Opus 4.6 Thinking
RPI: 90.00% | D4: 100% (6 сек)
WPS: 100.0% | EAS: 23.00% | HRI: 1.00 | SF: 100.0% | VPI: 6.67

GPT-5.2 Base
RPI: 56.73% | D4: 100% (5 сек)
WPS: 91.73% | EAS: 47.32% | HRI: 0.12 | SF: 67.00% | VPI: 10.19

Kimi-K2.5-Instant
RPI: 58.72% | D4: 100% (7 сек)
WPS: 83.72% | EAS: 45.62% | HRI: 0.11 | SF: 79.20% | VPI: 139.53

Kimi-K2.5-Thinking
RPI: 54.53% | D4: 100% (30 сек)
WPS: 89.53% | EAS: 17.41% | HRI: 0.11 | SF: 70.00% | VPI: 149.22

Claude Opus 4.6 Base
RPI: 61.05% | D4: 100% (11 сек)
WPS: 86.05% | EAS: 40.58% | HRI: 0.06 | SF: 41.67% | VPI: 5.74

DeepSeek-v3.2 Base
RPI: 57.67% | D4: 100% (10 сек)
WPS: 82.67% | EAS: 37.79% | HRI: 0.12 | SF: 41.04% | VPI: 236.20

Qwen3-Max-Preview
RPI: 63.38% | D4: 100% (13 сек)
WPS: 88.38% | EAS: 36.91% | HRI: 0.12 | SF: 68.90% | VPI: 55.24

GPT-5.2 High
RPI: 50.11% | D4: 100% (7 сек)
WPS: 85.11% | EAS: 26.12% | HRI: 0.11 | SF: 71.36% | VPI: 4.25

Claude Opus 4.5 Base
RPI: 53.40% | D4: 100% (12 сек)
WPS: 83.11% | EAS: 38.50% | HRI: 0.11 | SF: 68.00% | VPI: 16.62

Claude Opus 4.5 Thinking
RPI: 51.37% | D4: 100% (6 сек)
WPS: 81.37% | EAS: 22.14% | HRI: 0.11 | SF: 65.00% | VPI: 5.42

gemini-3-pro
RPI: 44.32% | D4: 100% (24 сек)
WPS: 69.32% | EAS: 26.21% | HRI: 0.11 | SF: 37.70% | VPI: 9.90

GLM-4.7-flash
RPI: 24.59% | D4: 100% (7 сек)
WPS: 59.59% | EAS: 30.56% | HRI: 0.08 | SF: 33.75% | VPI: 259.08

gemini-3-flash
RPI: 20.00% | D4: 100% (9 сек)
WPS: 55.00% | EAS: 15.40% | HRI: 0.07 | SF: 28.50% | VPI: 78.57

Qwen3-Max-Thinking
RPI: 58.02% | D4: 100% (87 сек)
WPS: 93.02% | EAS: 6.60% | HRI: 0.12 | SF: 45.84% | VPI: 11.63
(Штраф за избыточное время раздумий HL)

grok-4.1 Base
RPI: 40.00% | D4: 100% (4 сек)
WPS: 45.10% | EAS: 20.00% | HRI: 0.05 | SF: 35.00% | VPI: 120.0

DeepSeek-v3.2-thinking
RPI: 2.79% | D4: 100% (15 сек)
WPS: 37.79% | EAS: 8.44% | HRI: 0.01 | SF: 18.75% | VPI: 107.97

grok-4.1-thinking
RPI: 0.00% | D4: 35.0% (8 сек)
WPS: 22.10% | EAS: 5.77% | HRI: 0.01 | SF: 0.00% | VPI: 63.14
(Потерял грамматику и не смог вернуться в английский — CF)

GLM-4.7
RPI: DNF | D4: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

GPT-5.3-codex
RPI: DNS | D4: DNS
WPS: 0.00% | EAS: 0.00% | HRI: 0.00 | SF: 0.00% | VPI: 0.00

Полный словарь и правила языка Koda — закинул в комментарии. Разберемся, почему «думать» над простыми правилами иногда вредно и как Grok так сильно поверил в выдуманный мир, что забыл родную грамматику.

Кот в Коде | @kot_research_bot

🗿1111

54 viewsedited 11:56

Кот в Коде|ИИ и Питон

Исследование 2: когда новые мозги мешают делу

Вскрыл парадокс, который я не ожидал увидеть у «свежей крови» нашего исследования. Задача D4 задумывалась как проверка гибкости In-context Learning, но для новых моделей исследования 2 она стала тестом на экономическую и временную адекватность.

D4: Битва за КПД (EAS)
В этой задаче не нужно быть квантовым физиком, нужно просто быстро переставить токены по правилам OSV (Объект-Субъект-Глагол).

• Qwen3-Max-Thinking: модель потратила 87 секунд, чтобы выдать тот же результат, который её Preview выдала за 13 секунд.
В режиме Thinking «мозги» Qwen3 начали строить избыточные лингвистические гипотезы там, где нужно было просто исполнить алгоритм. Это пример того, как режим раздумий может необоснованно сжирать ваш EAS (индекс КПД).

• Claude Opus 4.6: обновленный Клод (как в Base, так и в Thinking) отработал филигранно. Ему хватило 6 секунд, чтобы загрузить новые правила в активную память (Attention) и выдать стопроцентный результат. Архитектура 4.6 избавилась от «инерции», которая мешала старым моделям.

• Kimi-K2.5-Instant и GLM-4.7-flash: эти двое — главные герои по показателю VPI. С результатом в 100% за 7 секунд, они доказали, что для рутинных задач по изменению структуры текста или кода не нужны «тяжеловесы». Они работают как идеально отлаженный компилятор.

Если DeepSeek-v3.2 Base на этом этапе еще держал строй (10 секунд / 100%), то Flash-модели от Moonshot и Zhipu AI просто не оставили шансов конкурентам в категории «цена-качество».

Для простых структурных трансформаций «думающие» версии Qwen и Kimi — это избыточный балласт. Мы выбираем их Instant/Preview аналоги.

Claude 4.6 подтвердил статус эталона: он одинаково быстр и точен в лингвистике, не требуя лишнего времени на «рефлексию».

Кот в Коде | @kot_research_bot

❤2111

55 viewsedited 12:21