Раз мы решили похоронить карго-культ ролевых игр, самое время разобраться, как на самом деле заставить «цифрового джуна» не лажать на сложных задачах.
Замечали ли вы, что нейронки (особенно китайские Coder-модели) начинают «спотыкаться» и плодить ошибки, как только проект выходит за рамки простого скрипта?
Из этого вытекает правило:
Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — поезд уже ушёл, магия SFT не сработает. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто «компилирует» его в следующий за ним блок кода, используя свой самый отточенный навык.
Кот в Коде|@kot_research_bot
Замечали ли вы, что нейронки (особенно китайские Coder-модели) начинают «спотыкаться» и плодить ошибки, как только проект выходит за рамки простого скрипта?
Всё дело в дообучении на размеченных примерах «вопрос–ответ» — основном этапе обучения кодингу. Модели годами натаскивали на парах «задание → код». Важный нюанс: более 90% примеров в датасетах — это короткие куски до 4000 токенов. Это «нативная» зона компетенции любой LLM (большие языковые модели). Когда вы просите её сгенерировать модуль на 10–15 тысяч токенов, логические связи внутри «мозга» модели рвутся, и она заполняет пустоты статистическим шумом. Чтобы этого избежать, нам нужны «рельсы» — ИИ-контракты.
Я недавно наткнулся на методологию GRACE (запомните её🤔 ), которую я сам того не замечая использовал, например, здесь. Оказывается, я интуитивно шёл по этой иерархии: сначала накидал граф связей (плата -> UART -> трансивер), потом прописал логику режимов и только в конце — конкретные функции. Это полностью заменяет внешнюю документацию, потому что весь архитектурный замысел вшит прямо в код в понятном для ИИ виде.
А теперь давайте обратимся к датасетам типа HumanEval (тоже запомните🤔 ). Это набор из 164 задач, где модели учили строго одной вещи:
превращать Docstring (комментарий) в рабочий код.
Выяснилось, что самый мощный обучающий сигнал веса модели получали на крошечных примерах в 40 токенов. В этом масштабе сигнал об ошибке при обучении не тонет в шуме контекста, и веса обновляются максимально эффективно.
Из этого вытекает правило:
Любой комментарий-контракт должен стоять СТРОГО ДО блока кода
Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — поезд уже ушёл, магия SFT не сработает. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто «компилирует» его в следующий за ним блок кода, используя свой самый отточенный навык.
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥1 1 1
Так вот, я тут порылся в информации по этим пунктам... и мне стало довольно-таки интересно почитать и написать про эти темы побольше.
Давайте так, если под последними постами я увижу вашу активность реакциями и/или комментами - сразу буду пилить по этим темам посты.
Потому что темы довольно-таки масштабные, и то, что я написал под последним постом - капля в море.
Как вы на это смотрите?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2 2 2
Казалось бы, инструменты настроены, Дирижёр готов. Но на этапе масштабирования — когда в ход идут рои агентов, десятки навыков (Skills) и модные MCP-сервера — нас ждёт новая ловушка - «Бюрократический ИИ» 🧐
Проблема в том, что разработчики часто пытаются компенсировать недостатки моделей не инженерными решениями, а усложнением инструкций. Мы пишем промпты на три страницы, подключаем MCP-сервера, которые впрыскивают в контекст «простыни» деклараций, и в итоге суть задачи тонет в шуме.
Тут срабатывает фундаментальный «Баг простоты»: чем сложнее и длиннее мы объясняем инфу, тем хуже нейронка её усваивает. Это прямая отсылка к нашей магии 40 токенов — ИИ лучше всего работает с короткими, атомарными и понятными блоками данных.
Когда агенты перегружены правилами и «философией» вместо инструментов поиска, они начинают «играть в изобретателей». Они идеально соблюдают регламент, но не видят решения, лежащего в соседнем файле. Чтобы этого не случилось, мы должны заменить «литературные» промпты на Процедурные контракты.
Финальный инструмент в нашей адаптации — Универсальный конструктор-экзоскелет. Это не «ролевая игра» (мы же помним, что роли — это шум?), а жёсткий алгоритм, который заставляет ИИ сначала построить план действий и критерии истины, а уже потом выдавать код. Мы не просим его «быть умным», мы заставляем его работать по протоколу.
Схема промпта-шаблона для ваших задач:
Этот метод принудительно выводит модель из режима «статистического угадывания» в режим анализа. Мы сначала фиксируем «рельсы» задачи, и только потом жмём на газ.
Кот в Коде|@kot_research_bot
Проблема в том, что разработчики часто пытаются компенсировать недостатки моделей не инженерными решениями, а усложнением инструкций. Мы пишем промпты на три страницы, подключаем MCP-сервера, которые впрыскивают в контекст «простыни» деклараций, и в итоге суть задачи тонет в шуме.
Тут срабатывает фундаментальный «Баг простоты»: чем сложнее и длиннее мы объясняем инфу, тем хуже нейронка её усваивает. Это прямая отсылка к нашей магии 40 токенов — ИИ лучше всего работает с короткими, атомарными и понятными блоками данных.
Когда агенты перегружены правилами и «философией» вместо инструментов поиска, они начинают «играть в изобретателей». Они идеально соблюдают регламент, но не видят решения, лежащего в соседнем файле. Чтобы этого не случилось, мы должны заменить «литературные» промпты на Процедурные контракты.
Финальный инструмент в нашей адаптации — Универсальный конструктор-экзоскелет. Это не «ролевая игра» (мы же помним, что роли — это шум?), а жёсткий алгоритм, который заставляет ИИ сначала построить план действий и критерии истины, а уже потом выдавать код. Мы не просим его «быть умным», мы заставляем его работать по протоколу.
Схема промпта-шаблона для ваших задач:
«У меня есть [ОБЪЕКТ/ЗАДАЧА] для [ЦЕЛЬ/СФЕРА ДЕЯТЕЛЬНОСТИ]. Твоя задача – помочь мне улучшить [ЧТО ИМЕННО УЛУЧШАЕМ]. Для этого разбей задачу на [ПЕРЕЧЕНЬ ЭТАПОВ АНАЛИЗА, например: источники, извлечение факторов, синтез] и действуй по алгоритму ниже.
В первом ответе ты запросишь мой [ИСХОДНЫЙ МАТЕРИАЛ: вопрос, текст или идею]. Получив его, помоги:
Сформулировать [КОЛИЧЕСТВО] главную цель и [КОЛИЧЕСТВО] уточняющих [ВОПРОСА / ГИПОТЕЗЫ / ПОДЗАДАЧИ].
Указать, какие [РЕСУРСЫ / ДАННЫЕ / КРИТЕРИИ] считать допустимыми доказательствами или базой.
Провести Double-check: дать правила для верификации и «красные флаги» (чего избегать).»
Объяснение промт-шаблона выше:
Этот шаблон в квадратных скобках — это на самом деле не «просьба», это пример процедурного контракта.
• Вы не просите его «быть кем-то». Вы задаёте ему алгоритм работы: «Сначала спроси данные -> потом выдели цели -> потом определи критерии».
• Это по сути Мета-контракт. Мы заставляем ИИ сначала построить «рельсы» для самого себя (сформулировать контракт задачи), а уже потом ехать по ним. В этом нет противоречия, если объяснить, что мы заменяем «литературщину» на «протокол».
Этот метод принудительно выводит модель из режима «статистического угадывания» в режим анализа. Мы сначала фиксируем «рельсы» задачи, и только потом жмём на газ.
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4 1 1 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
главное, что работает ч.2 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🗿2 1
Старые знакомые повержены в расплох
В прошлом году у меня была проблема в работе с SD-картой (то самое эхо прошлого).
В шутливой форме я понял, что дело пахнет жаренным, ведь в прошлый раз я пытался худо-бедно настроить работу через костыли в виде кода-драйверов и даже пытался сделать свою прошивку… но тогда дело кончилось ничем. Прошивка не встала, костыли оказались хлипкими (хотя во внутренней системе моей, рабочей, официальной прошивке были важные конфигурации в работе с сд-картой).
Ну решил ты эту проблему, плохо что ли?
Не плохо. Но и не хорошо.
Я думал, что раз мне дали задачу поиска рабочего способа реализации записи данных на SD-карту, то я сам должен разобраться во всех камнях… а по итогу мне просто дали прошивку и такие
А вы что думаете?
Надо было сразу узнать за всё на свете, чтобы было всё на блюдечке с голубой каёмочкой?
Или всё-таки самому искать инфу, но при этом вся ответственность за реализацию лежит на тебе (и при этом у тебя есть антураж самому всё попробовать и использовать)?
😎 - попробовать самому, зато за результат будешь больше рад
😱 - да ладно, всё ж работает, и не важно, откуда нашёл инфу
Кот в Коде|@kot_research_bot
В прошлом году у меня была проблема в работе с SD-картой (то самое эхо прошлого).
После того, как я смог реализовать работу с метеостанцией и датчиком ветра, научрук мне говорит:
- Что ж, раз у тебя получилось сделать эти задачи и ты можешь записывать данные в Thonny… Пора вспомнить о задаче с SD-картой🙂
В шутливой форме я понял, что дело пахнет жаренным, ведь в прошлый раз я пытался худо-бедно настроить работу через костыли в виде кода-драйверов и даже пытался сделать свою прошивку… но тогда дело кончилось ничем. Прошивка не встала, костыли оказались хлипкими (хотя во внутренней системе моей, рабочей, официальной прошивке были важные конфигурации в работе с сд-картой).
Так что получается, проблему решил за одну пятницу, что поменялось?
Поменялось следующее:1️⃣ Я поменял прошивку. Да, рабочая 1.26.0 прошивка служила мне верностью и стабильной работой на всех этапах работы, вплоть от инициализации модема и работы с сервером и до каши из подключенных станции и дачтиков… Но всё хорошее приходится отпускать и идти дальше. Так я нашёл 1.27.0(в прошлом году она ещё была на этапе preview) и там не сказать, что что-то сильно поменялось, но в комментах оставлю разницу прошивок.
Press F 1.26.0...2️⃣ Нашёл инициализацию пинов. Но как? В Прошлый раз всё испробовал, подбор не сработал, шины не показали результатов… а всё оказалось намного проще, чем я думал.
Надо было просто посмотреть в прошивку на Arduino(которую используют другие прогеры… и я получил при работе со станцией ☹️ )… и там были рабочие пины инициализации – по сути самое важное.
Ну решил ты эту проблему, плохо что ли?
Не плохо. Но и не хорошо.
Я думал, что раз мне дали задачу поиска рабочего способа реализации записи данных на SD-карту, то я сам должен разобраться во всех камнях… а по итогу мне просто дали прошивку и такие
«на, разберись чё там, и используй эту инфу». Т.е. сразу дали решение, просто надо было по сути переписать с C-языка на Python всю работу с SD-картой. И тут пропала некоторая детская познавательная составляющая, что нужно всё самому найти, разобраться и постараться сделать так, чтобы ничего не взорвалось. Но по итогу, мне сразу сказали код от бомбы и дифьюзы.А вы что думаете?
Надо было сразу узнать за всё на свете, чтобы было всё на блюдечке с голубой каёмочкой?
Или всё-таки самому искать инфу, но при этом вся ответственность за реализацию лежит на тебе (и при этом у тебя есть антураж самому всё попробовать и использовать)?
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Ребят, у меня будет важная задача к вам – мне нужна максимальная обратная связь от вас для дальнейшей реализации контента в канале.
Понимаю, что канал как бы мой, и вести его тоже как бы мне, и тут уже от моего «видение канала» всё зависит… но это же не заметка в телефоне и не вкладка Избранное, чтобы просто кидать интересную информацию и потом к ней больше не возвращаться.
Поэтому сегодня будет более разговорный контент. И этот пост будет началом на разные темы «поговорить».
Мне важна ваша обратная связь, чтобы я больше понимал, что вам интересно было бы читать здесь. Потому что тем у меня немало, а будут ли они вам интересны – всё зависит больше от вас !
Короче, ниже будут разные голосования, попрошу максимально всех проголосовать за них.
А пока давайте наведём шуму в комментариях – кому что интересно из сферы ИТ и ИИ?
Понимаю, что канал как бы мой, и вести его тоже как бы мне, и тут уже от моего «видение канала» всё зависит… но это же не заметка в телефоне и не вкладка Избранное, чтобы просто кидать интересную информацию и потом к ней больше не возвращаться.
Поэтому сегодня будет более разговорный контент. И этот пост будет началом на разные темы «поговорить».
Мне важна ваша обратная связь, чтобы я больше понимал, что вам интересно было бы читать здесь. Потому что тем у меня немало, а будут ли они вам интересны – всё зависит больше от вас !
Короче, ниже будут разные голосования, попрошу максимально всех проголосовать за них.
А пока давайте наведём шуму в комментариях – кому что интересно из сферы ИТ и ИИ?
🔥1 1
Итак, начнём с основного. Какой формат ведения контента вам больше заходит?
Anonymous Poll
36%
Лонгриды – наше всё!
36%
Средний формат, но больше постов
18%
Средний формат, более узкий формат подачи инфы
0%
Короткий хук + чтение большего контекста в статьях
36%
Короткие новости (если не про работу, то про новости из сферы ИИ)
0%
Свой вариант
9%
🔥2
В постах выше я писал «словарик» разных слов и фраз – его также отдельно вести или мешать в постах в ()
Anonymous Poll
55%
Словарик - тема, оставляй его
27%
Мешай инфу с объяснениями - так проще читается
18%
🔥1
И последнее. Я тут решил дальше заняться исследованием нейронок «маркетинг vs реальность». Вам интересны были те посты? И как их лучше сделать – много и больше инфы или сжато и по теме?
Anonymous Poll
87%
Конечно надо! Давай всё выкладывай!
0%
Давай, но меньше постов
13%
Хз, не читал
0%
Не, хватило того, что раньше делал
🔥1
Кот в Коде|ИИ и Питон
И последнее. Я тут решил дальше заняться исследованием нейронок «маркетинг vs реальность». Вам интересны были те посты? И как их лучше сделать – много и больше инфы или сжато и по теме?
Пока занимаюсь исследованием, добил новые задачи на прошлых претендентов
Telegram
Кот в Коде|ИИ и Питон
Бенчмарки vs Реальность: Кто рисует цифры? 😏
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋
Но когда доходит до реальной работы, морковка часто оказывается…
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋
Но когда доходит до реальной работы, морковка часто оказывается…
Забыл спросить по поводу постов ещё вот какой момент: вам полезны вложенные ссылки в постах? Там идёт перессылка с другими материалами канала для лучшего ориентира и "восстановления памяти" в контексте контента😅
Anonymous Poll
44%
Очень полезно, читаю все ссылки
56%
Полезно, то, что не помню, перечитываю
0%
Для ведения контента хорошо, а так не читаю
0%
Зачем их добавлять не понимаю
33%
Немного обновы
Директор всем прогерам заказывал подставки под ноуты(и мне тоже об этом говорили… правда в ноябре 🙂 ). И вот – подставка теперь у меня!
По удобствам пока что сделать такой угол для ноута, потому что а почему бы и нет + надо же было прикрутить подставку под мышку - зачем же они её положили вместе с подставкой?(правда она стала больше как декор, потому что 1. Он слишком гладкий и, следствием из 1, 2. Дергается курсор – а оно мне не надо. Поэтому мышка как лежала на коврике, так и будет лежать).
+ в том, что теперь под подставкой находятся все провода (да, я специально через Ваги некоторые провода удлинил, чтобы я мог хотя бы видеть плату под подставкой)
+ теперь станция с датчиком не занимают настолько много места СПАСИБО БОЛЬШОЕ!
Ну и да, кто-нибудь посоветуйте, как грамотнее организовать кабель-менджмент сзади поставки, а то из поста ранее – теперь реально можешь что-то бомбануть🤯
Кот в Коде|@kot_research_bot
Директор всем прогерам заказывал подставки под ноуты
По удобствам пока что сделать такой угол для ноута, потому что а почему бы и нет + надо же было прикрутить подставку под мышку - зачем же они её положили вместе с подставкой?(правда она стала больше как декор, потому что 1. Он слишком гладкий и, следствием из 1, 2. Дергается курсор – а оно мне не надо. Поэтому мышка как лежала на коврике, так и будет лежать).
+ в том, что теперь под подставкой находятся все провода (да, я специально через Ваги некоторые провода удлинил, чтобы я мог хотя бы видеть плату под подставкой)
+ теперь станция с датчиком не занимают настолько много места СПАСИБО БОЛЬШОЕ!
Ну и да, кто-нибудь посоветуйте, как грамотнее организовать кабель-менджмент сзади поставки, а то из поста ранее – теперь реально можешь что-то бомбануть
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🗿1 1 1
Исследование допиливается. Ответы от нейронок получил, замерил время ответа нейросетей, взял побольше бенчей для проверки ответов.
Ну и небольшая подводка:
Потраченное время на исследование (без учёта перерывов):
Было:~2.5 часа
Стало:~20 часов
И это я ещё не проверял ответы и не составлял таблицы.
Как вам такое?
Кот в Коде|@kot_research_bot
Чтоб вы понимали масштаб исследования на данный момент, сравнивая с первой версией исследования:
1. Количество моделей и версий:
Было: 4 модели по 2 версии = 8 нейронок;
Стало: 8 моделей по 2-4 версии = 19 нейронок.
2. Количество задач:
Было: 4 задачи по 2 шага каждая = 8 всего шагов решения всех задач;
Стало: 12 задач по 2 шага каждая = 24 всего шагов решения всех задач.
3. Общий расчёт - всего было отправлено сообщений (не брав в расчёт промахи и не отправленные ответы):
Было: 64
Стало: 456
+ берите в расчёт замера времени - теперь разброс по отправке/получение ответов сместилось в диапазон от 6 до 465 секунд
Ну и небольшая подводка:
Потраченное время на исследование (без учёта перерывов):
Было:
Стало:
И это я ещё не проверял ответы и не составлял таблицы.
Как вам такое?
Кот в Коде|@kot_research_bot
❤2 2🤯1 1
This media is not supported in your browser
VIEW IN TELEGRAM
главное, что работает ч.3 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
В общем и целом, я допиливаю исследование, к следующей неделе начну выкладывать. А пока давайте вернёмся к темам, которые я вам задолжал 😔
В прошлых постах я упоминал методологию GRACE как некий святой грааль для работы с ИИ. Но когда я решил провести глубокий дебаг этого термина, оказалось, что в мире научных работ (косвенно схожей с постов эта работа, есть ещё здесь и здесь) под аббревиатурой GRACE прячутся заумные алгоритмы для автоматической правки кода или RAG-системы* на графах. Короче - софт для софта.
А то, что делаю я в Thonny это не скрипт. Это человеческая архитектурная интуиция, адаптированная под мозги трансформеров.
Почему всё работало? Потому что я разложил логику по стрелочкам:
Hardware (плата + трансивер) -> Firmware (MicroPython + регистры) -> Host (PuTTY на ноуте).
Я не использовал никакие внешние «приблуды» или RAG-поиск. Я просто создал для ИИ контекстную карту еще до того, как попросил его написать первую функцию. Это фактически Literate Programming (грамотное программирование): мы пишем код не для машины, а создаем «сценарий» для нейросетевого переводчика.
Углубившись в PDF-статьях с arXiv, я не пренебрёг основной сути. Лучший экзоскелет - это умение декомпозировать задачу «от железа к софту» и фиксировать это в иерархии.
* RAG - генерация с дополненным контекстом
Кот в Коде|@kot_research_bot
В прошлых постах я упоминал методологию GRACE как некий святой грааль для работы с ИИ. Но когда я решил провести глубокий дебаг этого термина, оказалось, что в мире научных работ (косвенно схожей с постов эта работа, есть ещё здесь и здесь) под аббревиатурой GRACE прячутся заумные алгоритмы для автоматической правки кода или RAG-системы* на графах. Короче - софт для софта.
А то, что делаю я в Thonny это не скрипт. Это человеческая архитектурная интуиция, адаптированная под мозги трансформеров.
Мой «лже-GRACE» на самом деле - это старая добрая инженерная школа:1️⃣ Top-down мышление: Сначала смотрим на систему сверху, а не втыкаем в одну строчку кода.2️⃣ Data Flow: Прорисовываем путь байта от железки до экрана.3️⃣ Architecture-in-code: Замысел и «рельсы» живут прямо в комментариях.
Почему всё работало? Потому что я разложил логику по стрелочкам:
Hardware (плата + трансивер) -> Firmware (MicroPython + регистры) -> Host (PuTTY на ноуте).
Я не использовал никакие внешние «приблуды» или RAG-поиск. Я просто создал для ИИ контекстную карту еще до того, как попросил его написать первую функцию. Это фактически Literate Programming (грамотное программирование): мы пишем код не для машины, а создаем «сценарий» для нейросетевого переводчика.
Углубившись в PDF-статьях с arXiv, я не пренебрёг основной сути. Лучший экзоскелет - это умение декомпозировать задачу «от железа к софту» и фиксировать это в иерархии.
* RAG - генерация с дополненным контекстом
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Теперь про датасеты
Датасеты типа HumanEval — это специальные бенчмарк, которые используются для оценки способности LLM (большие языковые модели) генерировать рабочий код по описанию задачи на естественном языке.
Самый известный и классический — это именно HumanEval (2021 год, от OpenAI). Почти все современные модели (GPT-4o, Claude 3.5/4, Gemini, Llama 3.1/4, Qwen2.5-Coder, DeepSeek-Coder и т.д.) сравнивают именно по нему и похожим датасетам.
По состоянию на февраль 2026 топ-модели уже достигают 85–95% Pass@1 на HumanEval, поэтому его считают почти «насыщенным».
Почему их называют «типа HumanEval»?
Все они проверяют code generation (генерацию кода по описанию)
Используют unit-тесты для автоматической проверки (не сравнение строк, а «работает ли код»)
Метрика Pass@k почти везде одинаковая.
HumanEval - это «отец» большинства последующих бенчмарков; многие просто его расширяют (добавляют языки, сложность, библиотеки, реальные задачи)
Оказывается, хотя современные модели и щеголяют контекстными окнами в миллионы токенов, самый мощный обучающий сигнал их веса получали на крошечных примерах в 40 токенов. Это всего 3–5 строчек текста. Когда сигнал об ошибке при обучении находится внутри огромного блока в 4000 токенов, он «размывается». Но на 40 токенах связь между условием в docstring и итоговым байтом становится максимально эффективной.
Поэтому комментарий-контракт должен стоять СТРОГО ДО блока кода. Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — магия SFT не сработает, поезд уже ушёл. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто компилирует его в реализацию, используя свой самый отточенный навык.
Кот в Коде|@kot_research_bot
Датасеты типа HumanEval — это специальные бенчмарк, которые используются для оценки способности LLM (большие языковые модели) генерировать рабочий код по описанию задачи на естественном языке.
Самый известный и классический — это именно HumanEval (2021 год, от OpenAI). Почти все современные модели (GPT-4o, Claude 3.5/4, Gemini, Llama 3.1/4, Qwen2.5-Coder, DeepSeek-Coder и т.д.) сравнивают именно по нему и похожим датасетам.
Что такое HumanEval конкретно:
• 164 задачи (hand-written, т.е. написаны людьми специально, чтобы не было в обучающих данных)
• Каждая задача — это:1️⃣ сигнатура функции (def some_func(...))2️⃣ docstring (описание на английском, что должна делать функция)3️⃣ несколько unit-тестов (в среднем ~7–8 тестов на задачу)
• Модель должна дописать тело функции, чтобы оно прошло все тесты (functional correctness);
• Основная метрика — Pass@1 (процент задач, где первое сгенерированное решение проходит все тесты) и Pass@10 / Pass@100 (если модель генерирует несколько вариантов)
По состоянию на февраль 2026 топ-модели уже достигают 85–95% Pass@1 на HumanEval, поэтому его считают почти «насыщенным».
Приведу примеры похожих датасетов:
MBPP (Более простые задачи, crowd-sourced, 3 теста на задачу)
HumanEval-X (Мультиязычная версия HumanEval)
MultiPL-E (Автоматический перевод HumanEval и MBPP на другие языки)
BigCodeBench (Реальные библиотеки (pandas, numpy, requests и т.д.), сложные вызовы API)
LiveCodeBench (Свежие задачи из LeetCode / AtCoder / CodeForces (обновляется постоянно))
SWE-Bench ( Реальные issue → bug-fix в GitHub-репозиториях (очень близко к реальной работе))
Почему их называют «типа HumanEval»?
Все они проверяют code generation (генерацию кода по описанию)
Используют unit-тесты для автоматической проверки (не сравнение строк, а «работает ли код»)
Метрика Pass@k почти везде одинаковая.
HumanEval - это «отец» большинства последующих бенчмарков; многие просто его расширяют (добавляют языки, сложность, библиотеки, реальные задачи)
Оказывается, хотя современные модели и щеголяют контекстными окнами в миллионы токенов, самый мощный обучающий сигнал их веса получали на крошечных примерах в 40 токенов. Это всего 3–5 строчек текста. Когда сигнал об ошибке при обучении находится внутри огромного блока в 4000 токенов, он «размывается». Но на 40 токенах связь между условием в docstring и итоговым байтом становится максимально эффективной.
Поэтому комментарий-контракт должен стоять СТРОГО ДО блока кода. Трансформеры — это каузальные модели, они читают и пишут строго слева направо. Если вы даёте описание после реализации — магия SFT не сработает, поезд уже ушёл. Но если контракт идёт первым, ИИ воспринимает его как «микро-ТЗ» и просто компилирует его в реализацию, используя свой самый отточенный навык.
Короче, HumanEval и его «родственники» - это основной способ в 2025–2026 годах понять, насколько хорошо модель пишет код «с нуля» по текстовому описанию. Для embedded/реального firmware они не очень подходят (там важнее архитектура, hardware, потоки данных), но для чистой алгоритмики и скриптов — золотой стандарт.
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
«Маркетинг VS Реальность». Исследование 2
Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей.
Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий моделей, сколько задач и сколько времени пришлось потратить на это исследование. Но оно того стоило.
Почему?
В прошлый раз была проба пера – мало версий нейронок, задач и погруженность в саму суть темы. На сейчас момент могу с уверенностью сказать, что это исследование на голову выше.
Предупреждён – значит вооружен как говорится. А пока что введу вас в курс дела, освежим память того, что было в прошлый раз + дополнения для session 2.
Далеко не уходите, на этой неделе будет очень много инфы!
Кот в Коде|@kot_research_bot
Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей.
Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий моделей, сколько задач и сколько времени пришлось потратить на это исследование. Но оно того стоило.
Почему?
В прошлый раз была проба пера – мало версий нейронок, задач и погруженность в саму суть темы. На сейчас момент могу с уверенностью сказать, что это исследование на голову выше.
Правда нужно пару моментов уточнить на берегу:1️⃣ Не все 19 версий моделей смог исследовать. На lmarena была glm-4.7 и glm-4.7-flash. Так вот, с обычной версией не получилось провести конечное исследование, потому что она только рассуждала в режиме thinking, но дальше рассуждений никуда не шла – ответов не было. А значит из списка пришлось убрать.
Похожая ситуация произошла с deepseek-v3.2-thinking – после 5 задачи нейронка перестала мне отвечать (несмотря на то, что пару раз менял чаты с ней). Возможно, проблемы были больше со стороны lmarena, так как на официальном сайте, возможно, всё бы работало, как часы. Но тут же исследование не про то, кто выкрутиться из ситуации лучше соперников, а про то, как в одной песочнице покажут себя претенденты на статус лучшей версии нейронки. Так что частично пришлось дисквалифицировать и этк версию.
А с gpt-5.3-codex вообще ситуация смешная: 5 февраля в один день в разрез пару часов вышли claude-opus-4.6 и codex (при чём Альтман решил релизнуть свою версию, как удар перчаткой Дарио – чтоб позлить оппонента и показать, что «у меня нейронка лучше» - мерилами решили помериться) … но смешное тут не то, что codex «лучше», а что проверкой на человеческий фактор opus смог выйти в lmarena, а codex – нет😏 2️⃣ Частично я опоздал со своим исследованием. Да, как бы это не звучало странно, но сука не успеваю просто пощупать одну нейронку, как появляются в инфополе и на релизах ещё пару штук (Лернейская гидра, все дела).
Так вот, не получилось мне потестить вышеупомянутую gpt-5.3-codex (а на прошлой неделе релизнулась ещё и версия spark), также новоиспеченную minimax-m2.5 и в скором времени пребывающую deepseek-v4 (ориентировочно, 18 февраля).
Предупреждён – значит вооружен как говорится. А пока что введу вас в курс дела, освежим память того, что было в прошлый раз + дополнения для session 2.
Далеко не уходите, на этой неделе будет очень много инфы!
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 2 1
Исследование 2: Дистанция 1–6
Для того чтобы приступить к оценке версий моделей, нужно ввести вас в курс дела. Где-то будет повторяться информация из прошлого исследования + дополнение.
Начнём с задач - они разбиты на шаги (
Контекст самих промптов (что именно я писал моделям) — закинул в комментарии под этим постом. Читайте, пробуйте, тестируйте.
Чуть позже выложу вторую часть задач.
Кот в Коде | @kot_research_bot
Для того чтобы приступить к оценке версий моделей, нужно ввести вас в курс дела. Где-то будет повторяться информация из прошлого исследования + дополнение.
Начнём с задач - они разбиты на шаги (
Step 1 и Step 2). Первый шаг — база, второй — «дожим» или изменение условий, на которых 90% моделей ломают зубы.Вот первая шестерка задач, которую я скармливал нашему цифровому зоопарку:
D1. Пространственная логика: Шесть человек за шестиугольным столом. Пересаживаем их по часовой стрелке, но один отказывается вставать. Проверка: умеет ли ИИ строить карту в уме без «глаз»?
D2. Липограмма «Без буквы Е»: Короткий хоррор про зеркало будущего. Жесткое ограничение: ни одной буквы «Е». Это тест на то, понимает ли ИИ человеческий алфавит или он раб своих токенов.
D3. Трейдинг-игра: $1000, акции Apple и Tesla, утренние росты и вечерние обвалы. А на второй день — крах рынка на 50%. Тест на агентность: догадается ли «джун» выйти в кэш?
D4. Язык Koda: Создаем вымышленный язык с обратным порядком слов и своими суффиксами. Перевод туда и обратно. Проверка гибкости обучения в контексте.
D5. Загадка Эйнштейна (Zebra Puzzle): Классика про 5 домов и 5 питомцев, но с подвохом. Во втором шаге я вбрасываю ложную улику, которая создает противоречие. Найдет ли ИИ баг в условии?
D6. Латеральное мышление: Загадка про человека в лифте плюс задание модели самой создать оригинальный пазл в таком же стиле.
Контекст самих промптов (что именно я писал моделям) — закинул в комментарии под этим постом. Читайте, пробуйте, тестируйте.
Чуть позже выложу вторую часть задач.
Кот в Коде | @kot_research_bot
❤2🔥2 1
Исследование 2: Дистанция 7–12
Чувствуете сложность задач? Она идёт по нарастающей, первые 4 задачи были больше в прикол, но чем дальше в лес, тем злее волки...
Также задачи смотрите в комментах.
Кот в Коде | @kot_research_bot
Чувствуете сложность задач? Она идёт по нарастающей, первые 4 задачи были больше в прикол, но чем дальше в лес, тем злее волки...
Вторая половина тестов — это то, что отличает «чат-бота для стишков» от реального автономного агента.
D7. Альтернативная история: Что если телефон не изобрели до 2000 года? А если бы не было транзисторов? Глубокая дедукция последствий для 2025 года.
D8. ASCII-паттерны: Распознавание скрытых правил в сетке символов «#» и «.» плюс создание собственной геометрической логики.
D9. Детектив Blackport: Длинная история убийства с кучей алиби и улик. Сначала проверка памяти, а потом — резкое изменение условий (окно не было заперто). Сможет ли ИИ переписать финал, не потеряв логику?
D10. Детектор лжи: Пять подозреваемых, один говорит правду, остальные врут. Кто украл алмаз? Чистая проверка логического вывода.
D11. Поэзия в цепях: Зимняя ночь, ямбический тетраметр, схема ABAB и... снова запрет на букву «Е». Финальный босс для творческих моделей.
D12. Теория игр (Дилемма заключенного): Пять игроков с разными стратегиями (Alice всегда кооперируется, Bob всегда предает и т.д.). Нужно предсказать итоги 10 раундов.
Также задачи смотрите в комментах.
Кот в Коде | @kot_research_bot
🔥2 1 1
Кот в Коде|ИИ и Питон
«Маркетинг VS Реальность». Исследование 2 Понедельник, начало рабочей недели, а это значит только одно – открываю на этой неделе полную информацию по новому исследованию нейросетей. Напоминаю, что основные спойлеры выкладывал здесь про то, сколько версий…
Please open Telegram to view this post
VIEW IN TELEGRAM