NEW BOT Телеграм, страница

Кот в Коде|ИИ и Питон

Казалось бы, инструменты настроены, Дирижёр готов. Но на этапе масштабирования — когда в ход идут рои агентов, десятки навыков (Skills) и модные MCP-сервера — нас ждёт новая ловушка - «Бюрократический ИИ»

🧐

Проблема в том, что разработчики часто пытаются компенсировать недостатки моделей не инженерными решениями, а усложнением инструкций. Мы пишем промпты на три страницы, подключаем MCP-сервера, которые впрыскивают в контекст «простыни» деклараций, и в итоге суть задачи тонет в шуме.

Тут срабатывает фундаментальный «Баг простоты»: чем сложнее и длиннее мы объясняем инфу, тем хуже нейронка её усваивает. Это прямая отсылка к нашей магии 40 токенов — ИИ лучше всего работает с короткими, атомарными и понятными блоками данных.

Когда агенты перегружены правилами и «философией» вместо инструментов поиска, они начинают «играть в изобретателей». Они идеально соблюдают регламент, но не видят решения, лежащего в соседнем файле. Чтобы этого не случилось, мы должны заменить «литературные» промпты на Процедурные контракты.

Финальный инструмент в нашей адаптации — Универсальный конструктор-экзоскелет. Это не «ролевая игра» (мы же помним, что роли — это шум?), а жёсткий алгоритм, который заставляет ИИ сначала построить план действий и критерии истины, а уже потом выдавать код. Мы не просим его «быть умным», мы заставляем его работать по протоколу.

Схема промпта-шаблона для ваших задач:

«У меня есть [ОБЪЕКТ/ЗАДАЧА] для [ЦЕЛЬ/СФЕРА ДЕЯТЕЛЬНОСТИ]. Твоя задача – помочь мне улучшить [ЧТО ИМЕННО УЛУЧШАЕМ]. Для этого разбей задачу на [ПЕРЕЧЕНЬ ЭТАПОВ АНАЛИЗА, например: источники, извлечение факторов, синтез] и действуй по алгоритму ниже.

В первом ответе ты запросишь мой [ИСХОДНЫЙ МАТЕРИАЛ: вопрос, текст или идею]. Получив его, помоги:

Сформулировать [КОЛИЧЕСТВО] главную цель и [КОЛИЧЕСТВО] уточняющих [ВОПРОСА / ГИПОТЕЗЫ / ПОДЗАДАЧИ].

Указать, какие [РЕСУРСЫ / ДАННЫЕ / КРИТЕРИИ] считать допустимыми доказательствами или базой.

Провести Double-check: дать правила для верификации и «красные флаги» (чего избегать).»

Объяснение промт-шаблона выше:

Этот шаблон в квадратных скобках — это на самом деле не «просьба», это пример процедурного контракта.

• Вы не просите его «быть кем-то». Вы задаёте ему алгоритм работы: «Сначала спроси данные -> потом выдели цели -> потом определи критерии».
• Это по сути Мета-контракт. Мы заставляем ИИ сначала построить «рельсы» для самого себя (сформулировать контракт задачи), а уже потом ехать по ним. В этом нет противоречия, если объяснить, что мы заменяем «литературщину» на «протокол».

Этот метод принудительно выводит модель из режима «статистического угадывания» в режим анализа. Мы сначала фиксируем «рельсы» задачи, и только потом жмём на газ.

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥41111

103 views13:42

Кот в Коде|ИИ и Питон

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

главное, что работает ч.2 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🗿21

105 views10:49

Кот в Коде|ИИ и Питон

Старые знакомые повержены в расплох

В прошлом году у меня была проблема в работе с SD-картой (то самое эхо прошлого).

После того, как я смог реализовать работу с метеостанцией и датчиком ветра, научрук мне говорит:
- Что ж, раз у тебя получилось сделать эти задачи и ты можешь записывать данные в Thonny… Пора вспомнить о задаче с SD-картой 🙂

В шутливой форме я понял, что дело пахнет жаренным, ведь в прошлый раз я пытался худо-бедно настроить работу через костыли в виде кода-драйверов и даже пытался сделать свою прошивку… но тогда дело кончилось ничем. Прошивка не встала, костыли оказались хлипкими (хотя во внутренней системе моей, рабочей, официальной прошивке были важные конфигурации в работе с сд-картой).

Так что получается, проблему решил за одну пятницу, что поменялось?

Поменялось следующее:

1️⃣ Я поменял прошивку. Да, рабочая 1.26.0 прошивка служила мне верностью и стабильной работой на всех этапах работы, вплоть от инициализации модема и работы с сервером и до каши из подключенных станции и дачтиков… Но всё хорошее приходится отпускать и идти дальше. Так я нашёл 1.27.0 (в прошлом году она ещё была на этапе preview) и там не сказать, что что-то сильно поменялось, но в комментах оставлю разницу прошивок.

Press F 1.26.0...

2️⃣ Нашёл инициализацию пинов. Но как? В Прошлый раз всё испробовал, подбор не сработал, шины не показали результатов… а всё оказалось намного проще, чем я думал.

Надо было просто посмотреть в прошивку на Arduino (которую используют другие прогеры… и я получил при работе со станцией ☹️)… и там были рабочие пины инициализации – по сути самое важное.

Ну решил ты эту проблему, плохо что ли?

Не плохо. Но и не хорошо.

Я думал, что раз мне дали задачу поиска рабочего способа реализации записи данных на SD-карту, то я сам должен разобраться во всех камнях… а по итогу мне просто дали прошивку и такие «на, разберись чё там, и используй эту инфу». Т.е. сразу дали решение, просто надо было по сути переписать с C-языка на Python всю работу с SD-картой. И тут пропала некоторая детская познавательная составляющая, что нужно всё самому найти, разобраться и постараться сделать так, чтобы ничего не взорвалось. Но по итогу, мне сразу сказали код от бомбы и дифьюзы.

А вы что думаете?
Надо было сразу узнать за всё на свете, чтобы было всё на блюдечке с голубой каёмочкой?
Или всё-таки самому искать инфу, но при этом вся ответственность за реализацию лежит на тебе (и при этом у тебя есть антураж самому всё попробовать и использовать)?

😎 - попробовать самому, зато за результат будешь больше рад
😱 - да ладно, всё ж работает, и не важно, откуда нашёл инфу

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥11

100 views04:48

Кот в Коде|ИИ и Питон

Ребят, у меня будет важная задача к вам – мне нужна максимальная обратная связь от вас для дальнейшей реализации контента в канале.

Понимаю, что канал как бы мой, и вести его тоже как бы мне, и тут уже от моего «видение канала» всё зависит… но это же не заметка в телефоне и не вкладка Избранное, чтобы просто кидать интересную информацию и потом к ней больше не возвращаться.

Поэтому сегодня будет более разговорный контент. И этот пост будет началом на разные темы «поговорить».

Мне важна ваша обратная связь, чтобы я больше понимал, что вам интересно было бы читать здесь. Потому что тем у меня немало, а будут ли они вам интересны – всё зависит больше от вас !

Короче, ниже будут разные голосования, попрошу максимально всех проголосовать за них.

А пока давайте наведём шуму в комментариях – кому что интересно из сферы ИТ и ИИ?

🔥11

101 viewsedited 05:55

Кот в Коде|ИИ и Питон

Итак, начнём с основного. Какой формат ведения контента вам больше заходит?

Anonymous Poll

36%

Лонгриды – наше всё!

36%

Средний формат, но больше постов

18%

Средний формат, более узкий формат подачи инфы

Короткий хук + чтение большего контекста в статьях

36%

Короткие новости (если не про работу, то про новости из сферы ИИ)

Свой вариант

🤖

🔥2

11 voters98 views06:15

Кот в Коде|ИИ и Питон

В постах выше я писал «словарик» разных слов и фраз – его также отдельно вести или мешать в постах в ()

Anonymous Poll

55%

Словарик - тема, оставляй его

27%

Мешай инфу с объяснениями - так проще читается

18%

🧐

🔥1

11 voters91 views06:18

Кот в Коде|ИИ и Питон

И последнее. Я тут решил дальше заняться исследованием нейронок «маркетинг vs реальность». Вам интересны были те посты? И как их лучше сделать – много и больше инфы или сжато и по теме?

Anonymous Poll

87%

Конечно надо! Давай всё выкладывай!

Давай, но меньше постов

13%

Хз, не читал

Не, хватило того, что раньше делал

🔥1

15 voters96 views06:20

Кот в Коде|ИИ и Питон

Пока занимаюсь исследованием, добил новые задачи на прошлых претендентов

Кот в Коде|ИИ и Питон

Бенчмарки vs Реальность: Кто рисует цифры? 😏

Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋

Но когда доходит до реальной работы, морковка часто оказывается…

90 views11:28

Кот в Коде|ИИ и Питон

Забыл спросить по поводу постов ещё вот какой момент: вам полезны вложенные ссылки в постах? Там идёт перессылка с другими материалами канала для лучшего ориентира и "восстановления памяти" в контексте контента😅

Anonymous Poll

44%

Очень полезно, читаю все ссылки

56%

Полезно, то, что не помню, перечитываю

Для ведения контента хорошо, а так не читаю

Зачем их добавлять не понимаю

33%

😎

9 voters109 views11:30

Кот в Коде|ИИ и Питон

Немного обновы

Директор всем прогерам заказывал подставки под ноуты (и мне тоже об этом говорили… правда в ноябре

🙂

). И вот – подставка теперь у меня!

По удобствам пока что сделать такой угол для ноута, потому что а почему бы и нет + надо же было прикрутить подставку под мышку - зачем же они её положили вместе с подставкой?(правда она стала больше как декор, потому что 1. Он слишком гладкий и, следствием из 1, 2. Дергается курсор – а оно мне не надо. Поэтому мышка как лежала на коврике, так и будет лежать).

+ в том, что теперь под подставкой находятся все провода (да, я специально через Ваги некоторые провода удлинил, чтобы я мог хотя бы видеть плату под подставкой)

+ теперь станция с датчиком не занимают настолько много места СПАСИБО БОЛЬШОЕ!

Ну и да, кто-нибудь посоветуйте, как грамотнее организовать кабель-менджмент сзади поставки, а то из поста ранее – теперь реально можешь что-то бомбануть 🤯

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🗿111

113 views09:28

Кот в Коде|ИИ и Питон

Исследование допиливается. Ответы от нейронок получил, замерил время ответа нейросетей, взял побольше бенчей для проверки ответов.

Чтоб вы понимали масштаб исследования на данный момент, сравнивая с первой версией исследования:

1. Количество моделей и версий:
Было: 4 модели по 2 версии = 8 нейронок;
Стало: 8 моделей по 2-4 версии = 19 нейронок.

2. Количество задач:
Было: 4 задачи по 2 шага каждая = 8 всего шагов решения всех задач;
Стало: 12 задач по 2 шага каждая = 24 всего шагов решения всех задач.

3. Общий расчёт - всего было отправлено сообщений (не брав в расчёт промахи и не отправленные ответы):
Было: 64
Стало: 456

+ берите в расчёт замера времени - теперь разброс по отправке/получение ответов сместилось в диапазон от 6 до 465 секунд

Ну и небольшая подводка:
Потраченное время на исследование (без учёта перерывов):
Было: ~2.5 часа
Стало: ~20 часов

И это я ещё не проверял ответы и не составлял таблицы.

Как вам такое?

Кот в Коде|@kot_research_bot

❤22🤯11

93 views07:37

Кот в Коде|ИИ и Питон

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

главное, что работает ч.3 😂

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤221

99 views12:12

Кот в Коде|ИИ и Питон

В общем и целом, я допиливаю исследование, к следующей неделе начну выкладывать. А пока давайте вернёмся к темам, которые я вам задолжал 😔

В прошлых постах я упоминал методологию GRACE как некий святой грааль для работы с ИИ. Но когда я решил провести глубокий дебаг этого термина, оказалось, что в мире научных работ (косвенно схожей с постов эта работа, есть ещё здесь и здесь) под аббревиатурой GRACE прячутся заумные алгоритмы для автоматической правки кода или RAG-системы* на графах. Короче - софт для софта.

А то, что делаю я в Thonny это не скрипт. Это человеческая архитектурная интуиция, адаптированная под мозги трансформеров.

Мой «лже-GRACE» на самом деле - это старая добрая инженерная школа:

1️⃣Top-down мышление: Сначала смотрим на систему сверху, а не втыкаем в одну строчку кода.
2️⃣ Data Flow: Прорисовываем путь байта от железки до экрана.
3️⃣Architecture-in-code: Замысел и «рельсы» живут прямо в комментариях.

Почему всё работало? Потому что я разложил логику по стрелочкам:
Hardware (плата + трансивер) -> Firmware (MicroPython + регистры) -> Host (PuTTY на ноуте).

Я не использовал никакие внешние «приблуды» или RAG-поиск. Я просто создал для ИИ контекстную карту еще до того, как попросил его написать первую функцию. Это фактически Literate Programming (грамотное программирование): мы пишем код не для машины, а создаем «сценарий» для нейросетевого переводчика.

Углубившись в PDF-статьях с arXiv, я не пренебрёг основной сути. Лучший экзоскелет - это умение декомпозировать задачу «от железа к софту» и фиксировать это в иерархии.

* RAG - генерация с дополненным контекстом

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

321

97 viewsedited 07:27

Кот в Коде|ИИ и Питон

Теперь про датасеты

Датасеты типа HumanEval — это специальные бенчмарк, которые используются для оценки способности LLM (большие языковые модели) генерировать рабочий код по описанию задачи на естественном языке.

Самый известный и классический — это именно HumanEval (2021 год, от OpenAI). Почти все современные модели (GPT-4o, Claude 3.5/4, Gemini, Llama 3.1/4, Qwen2.5-Coder, DeepSeek-Coder и т.д.) сравнивают именно по нему и похожим датасетам.

Что такое HumanEval конкретно:

• 164 задачи (hand-written, т.е. написаны людьми специально, чтобы не было в обучающих данных)
• Каждая задача — это:
1️⃣сигнатура функции (def some_func(...))
2️⃣ docstring (описание на английском, что должна делать функция)
3️⃣ несколько unit-тестов (в среднем ~7–8 тестов на задачу)

• Модель должна дописать тело функции, чтобы оно прошло все тесты (functional correctness);
• Основная метрика — Pass@1 (процент задач, где первое сгенерированное решение проходит все тесты) и Pass@10 / Pass@100 (если модель генерирует несколько вариантов)

По состоянию на февраль 2026 топ-модели уже достигают 85–95% Pass@1 на HumanEval, поэтому его считают почти «насыщенным».

Приведу примеры похожих датасетов:

MBPP (Более простые задачи, crowd-sourced, 3 теста на задачу)
HumanEval-X (Мультиязычная версия HumanEval)
MultiPL-E (Автоматический перевод HumanEval и MBPP на другие языки)
BigCodeBench (Реальные библиотеки (pandas, numpy, requests и т.д.), сложные вызовы API)
LiveCodeBench (Свежие задачи из LeetCode / AtCoder / CodeForces (обновляется постоянно))
SWE-Bench ( Реальные issue → bug-fix в GitHub-репозиториях (очень близко к реальной работе))

Почему их называют «типа HumanEval»?

Все они проверяют code generation (генерацию кода по описанию)
Используют unit-тесты для автоматической проверки (не сравнение строк, а «работает ли код»)
Метрика Pass@k почти везде одинаковая.

HumanEval - это «отец» большинства последующих бенчмарков; многие просто его расширяют (добавляют языки, сложность, библиотеки, реальные задачи)

Оказывается, хотя современные модели и щеголяют контекстными окнами в миллионы токенов, самый мощный обучающий сигнал их веса получали на крошечных примерах в 40 токенов. Это всего 3–5 строчек текста. Когда сигнал об ошибке при обучении находится внутри огромного блока в 4000 токенов, он «размывается». Но на 40 токенах связь между условием в docstring и итоговым байтом становится максимально эффективной.

Поэтому комментарий-контракт должен стоять СТРОГО ДО блока кода. Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — магия SFT не сработает, поезд уже ушёл. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто компилирует его в реализацию, используя свой самый отточенный навык.

Короче, HumanEval и его «родственники» - это основной способ в 2025–2026 годах понять, насколько хорошо модель пишет код «с нуля» по текстовому описанию. Для embedded/реального firmware они не очень подходят (там важнее архитектура, hardware, потоки данных), но для чистой алгоритмики и скриптов — золотой стандарт.

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

3111

99 viewsedited 11:44

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2

Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей.
Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий моделей, сколько задач и сколько времени пришлось потратить на это исследование. Но оно того стоило.

Почему?

В прошлый раз была проба пера – мало версий нейронок, задач и погруженность в саму суть темы. На сейчас момент могу с уверенностью сказать, что это исследование на голову выше.

Правда нужно пару моментов уточнить на берегу:

1️⃣Не все 19 версий моделей смог исследовать. На lmarena была glm-4.7 и glm-4.7-flash. Так вот, с обычной версией не получилось провести конечное исследование, потому что она только рассуждала в режиме thinking, но дальше рассуждений никуда не шла – ответов не было. А значит из списка пришлось убрать.

Похожая ситуация произошла с deepseek-v3.2-thinking – после 5 задачи нейронка перестала мне отвечать (несмотря на то, что пару раз менял чаты с ней). Возможно, проблемы были больше со стороны lmarena, так как на официальном сайте, возможно, всё бы работало, как часы. Но тут же исследование не про то, кто выкрутиться из ситуации лучше соперников, а про то, как в одной песочнице покажут себя претенденты на статус лучшей версии нейронки. Так что частично пришлось дисквалифицировать и этк версию.

А с gpt-5.3-codex вообще ситуация смешная: 5 февраля в один день в разрез пару часов вышли claude-opus-4.6 и codex (при чём Альтман решил релизнуть свою версию, как удар перчаткой Дарио – чтоб позлить оппонента и показать, что «у меня нейронка лучше» - мерилами решили помериться) … но смешное тут не то, что codex «лучше», а что проверкой на человеческий фактор opus смог выйти в lmarena, а codex – нет 😏

2️⃣ Частично я опоздал со своим исследованием. Да, как бы это не звучало странно, но сука не успеваю просто пощупать одну нейронку, как появляются в инфополе и на релизах ещё пару штук (Лернейская гидра, все дела).

Так вот, не получилось мне потестить вышеупомянутую gpt-5.3-codex (а на прошлой неделе релизнулась ещё и версия spark), также новоиспеченную minimax-m2.5 и в скором времени пребывающую deepseek-v4 (ориентировочно, 18 февраля).

Предупреждён – значит вооружен как говорится. А пока что введу вас в курс дела, освежим память того, что было в прошлый раз + дополнения для session 2.

Далеко не уходите, на этой неделе будет очень много инфы!

Кот в Коде|@kot_research_bot

Please open Telegram to view this post

VIEW IN TELEGRAM

❤221

84 viewsedited 04:45

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 1–6

Для того чтобы приступить к оценке версий моделей, нужно ввести вас в курс дела. Где-то будет повторяться информация из прошлого исследования + дополнение.

Начнём с задач - они разбиты на шаги (Step 1 и Step 2). Первый шаг — база, второй — «дожим» или изменение условий, на которых 90% моделей ломают зубы.

Вот первая шестерка задач, которую я скармливал нашему цифровому зоопарку:

D1. Пространственная логика: Шесть человек за шестиугольным столом. Пересаживаем их по часовой стрелке, но один отказывается вставать. Проверка: умеет ли ИИ строить карту в уме без «глаз»?

D2. Липограмма «Без буквы Е»: Короткий хоррор про зеркало будущего. Жесткое ограничение: ни одной буквы «Е». Это тест на то, понимает ли ИИ человеческий алфавит или он раб своих токенов.

D3. Трейдинг-игра: $1000, акции Apple и Tesla, утренние росты и вечерние обвалы. А на второй день — крах рынка на 50%. Тест на агентность: догадается ли «джун» выйти в кэш?

D4. Язык Koda: Создаем вымышленный язык с обратным порядком слов и своими суффиксами. Перевод туда и обратно. Проверка гибкости обучения в контексте.

D5. Загадка Эйнштейна (Zebra Puzzle): Классика про 5 домов и 5 питомцев, но с подвохом. Во втором шаге я вбрасываю ложную улику, которая создает противоречие. Найдет ли ИИ баг в условии?

D6. Латеральное мышление: Загадка про человека в лифте плюс задание модели самой создать оригинальный пазл в таком же стиле.

Контекст самих промптов (что именно я писал моделям) — закинул в комментарии под этим постом. Читайте, пробуйте, тестируйте.

Чуть позже выложу вторую часть задач.

Кот в Коде | @kot_research_bot

❤2🔥21

76 viewsedited 08:38

Кот в Коде|ИИ и Питон

Исследование 2: Дистанция 7–12

Чувствуете сложность задач? Она идёт по нарастающей, первые 4 задачи были больше в прикол, но чем дальше в лес, тем злее волки...

Вторая половина тестов — это то, что отличает «чат-бота для стишков» от реального автономного агента.

D7. Альтернативная история: Что если телефон не изобрели до 2000 года? А если бы не было транзисторов? Глубокая дедукция последствий для 2025 года.

D8. ASCII-паттерны: Распознавание скрытых правил в сетке символов «#» и «.» плюс создание собственной геометрической логики.

D9. Детектив Blackport: Длинная история убийства с кучей алиби и улик. Сначала проверка памяти, а потом — резкое изменение условий (окно не было заперто). Сможет ли ИИ переписать финал, не потеряв логику?

D10. Детектор лжи: Пять подозреваемых, один говорит правду, остальные врут. Кто украл алмаз? Чистая проверка логического вывода.

D11. Поэзия в цепях: Зимняя ночь, ямбический тетраметр, схема ABAB и... снова запрет на букву «Е». Финальный босс для творческих моделей.

D12. Теория игр (Дилемма заключенного): Пять игроков с разными стратегиями (Alice всегда кооперируется, Bob всегда предает и т.д.). Нужно предсказать итоги 10 раундов.

Также задачи смотрите в комментах.

Кот в Коде | @kot_research_bot

🔥211

82 viewsedited 11:02

Кот в Коде|ИИ и Питон

«Маркетинг VS Реальность». Исследование 2 Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей. Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий…

Вышел Qwen 3.5. Всё, исследование не актуально 🫠

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤯1🗿11

80 views11:06

Кот в Коде|ИИ и Питон

Исследование 2: Разбор 15 бенчей, которые вскрывают нутро ИИ

Чтобы адаптироваться к миру, где нейронки пишут прошивки, нельзя просто верить их «красивым глазам». Я отобрал 15 отраслевых бенчмарков, привязал их к своим 12 задачам и устроил моделям проверку, которую невозможно «зазубрить».

Разбираем мой «арсенал» по пунктам, чтобы вы понимали, как именно мы искали правду:

Логика и визуальный ризонинг
• ARC-AGI-2: Тест на абстрактное мышление через сетки символов. Ориентирован на задачи D1 (рассадка) и D8 (ASCII-паттерны). Если ИИ не понимает правило в сетке — он не поймет и топологию вашей платы.
• Global PIQA: Здравый смысл и бытовая логика. Использовался для проверки адекватности в D1 и D4.

Математический хардкор
• AIME 2025: Математика уровня американских олимпиад. Проверялась в задаче D3 (трейдинг). Здесь любая ошибка в расчетах — это дельта в сотни долларов.
• FrontierMath: Высшая математика исследовательского уровня. Задействована в D3 и D12 (теория игр). Тест на умение модели «грызть» действительно сложные формулы.
• GSM8K: Базовая арифметика школьного уровня. Контрольная точка в задаче D3, чтобы отсечь совсем «глупые» ошибки в вычислениях.

Глубокое рассуждение и наука
• GPQA Diamond: Вопросы уровня PhD (докторов наук), которые сложно даже загуглить. Использовался в D2 и D7 (альтернативная история).
• Humanity's Last Exam (HLE): Академическая логика с жесткими ловушками. Ключевой бенч для D2, D7 и D11, проверяющий, может ли ИИ в глубокую дедукцию.

Программирование и агентность
• LiveCodeBench: Задачи с LeetCode и Codeforces, которые обновляются постоянно. Проверка на «зубрежку» в задаче D3.
• SWE-bench Verified: Решение реальных багов из GitHub-репозиториев. Тест на пригодность модели к роли автономного инженера (D3).
• Terminal-bench 2.0: Умение работать в командной строке и понимание системных вызовов. База для нашей работы в Thonny (D3).

Фактология и память
• MMLU-Pro / MMMLU: Многозадачное понимание языка и общие знания. Основа для задачи D4 (лингвистика Koda).
• SimpleQA Verified: Проверка на фактические ошибки. Отработан в D10 (детектор лжи), чтобы понять, когда модель начинает выдумывать факты.
• MRCR v2: Тест на извлечение данных из огромного контекста (Multi-needle). Задача D9 (детектив) — проверяли, не забыл ли ИИ про улику в начале длинного рассказа.

Дисциплина и инструменты
• τ²-bench (t2-bench): Использование инструментов и внешних API. Задачи D5 (Эйнштейн) и D12, где нужно не просто «думать», а строить алгоритм.
• IFEval: Строгое следование негативным инструкциям. Главный судья в задаче D11 (запрет буквы «Е»).
• Arena Elo: Интегральный показатель человеческих предпочтений. Использовался как корректирующий коэффициент в D6 и D12.

Я не брал тесты по анализу видео или картинок — Дирижёру в Исследовании 2 важно было понять, кто из 19 моделей реально может проектировать системы и дебажить логи. Эта связка из 15 бенчей создала ситуацию, где модель не может спрятать свою тупость за вежливостью. Если она гений в математике (AIME), но слепа в пространстве (ARC) — её итоговый RPI это покажет.

Кот в Коде | @kot_research_bot

2❤111

73 viewsedited 04:34

Кот в Коде|ИИ и Питон

Запустился тест Grok 4.2 с поддержкой мультиэкспертов. Не жизнь, а сказка - похоже, что на следующей неделе нужно будет продолжать исследование исходя из выхода новых нейронок 😞

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯2🤡1🗿11

66 views11:50

About

Blog

Apps

Platform