Кот в Коде|ИИ и Питон – Telegram
Кот в Коде|ИИ и Питон
466 subscribers
160 photos
34 videos
115 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code
Download Telegram
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)

Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)

Кот в Коде | @kot_research_bot
🔥3111
Здесь буду координировать процесс для нейронок:

GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы

P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🗿311
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
222
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!

Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)

С праздником, девочки!

Кот в Коде | @kot_research_bot
3🗿2🔥11
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:

1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;

2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка (а то, сколько видосы весят - вообще молчу);

3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронка и на чём она больше лажает;

* также убирал возможность выбрать наилучший ответ нейронок.


Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.

По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи... ладно, так скажу, получилось бы 2736 ответов.

И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.

И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).

Как вам такое?🫠

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯11
Исследование 2.2: Джем против Гопоты

С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть 😅

В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.

Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки 🥁

Почему я решил доработать?

Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.

Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?

GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.

AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.

HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.

LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.

SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.

ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.

MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.

τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.

SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.

MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.

Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.

Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.

FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.

GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.

IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.


Полный список новых задач (D1–D57) с описанием — закинул в комментариях 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной

Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».

Паспорт модели:

WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.

EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.

VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.


Но посмотрите на RPI (Реальный индекс): 28.89%.

Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.

В чём баг?

У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.

Кот в Коде | @kot_research_bot
3🤡1🗿11
Парадокс D10: Почему 94% интеллекта не спасают от тупости

Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.

Суть эксперимента:

Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.


Как это решал «интерн» gpt-5.3:

Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».

Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».

Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».


К чему это ведет в работе Дирижёра?

Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»

Вывод ИИ: «Код безопасен, можно заливать».

Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.

Кот в Коде | @kot_research_bot
2🗿11
Вердикт Дирижёра: Король MVP и Мастер «черной» работы

Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.

ЧТО МЫ ИМЕЕМ:

Плюсы 👍

VPI 93.89 — за 1 доллар вы получаете гору интеллекта. Это самая рентабельная модель на рынке для некритичных задач.

EAS 76.01% — она не «тупит». 10 секунд на сложнейший расчет.

Native Zone: Идеально работает в пределах 4000 токенов.

Минусы 👎

IFEval 0%: Она физически не видит буквы. Попытка заставить её писать без «Е» — это 100% гарантия вранья о результате.

Бизнес-интуиция: В задаче D3S2 она просто «слила» бюджет, не догадавшись выйти в кэш. Она раб скрипта.


Кого мы наняли в итоге?

Если бы я формировал отдел в, gpt-5.3 получила бы должность «Старшего лаборанта по парсингу».

Я отдаю ей:

🔍 Парсинг логов: Прогнать 50к строк из PuTTY и найти там нужные HEX-коды — она сделает это молниеносно и дешево.

🤖Базовый рефакторинг: Причесать код по PEP8 или написать простые README.
Drafting: Накидать «рыбу» для документации.

Я никогда не отдам ей:

🤥 Security Audit: Она «согласится» с любой вашей дырой в защите.
Критический код: Риск того, что она «докажет правильно, но напишет с ошибкой» (кейс D10) слишком велик.


ЧТО ПО ИТОГУ:

gpt-5.3 — это идеальный «Второй пилот», но абсолютно никудышный «Автопилот». Это инструмент для Дирижёра, который сам знает ответ и просто хочет сэкономить время на наборе текста. Используйте её для рутины, но держите руку на рубильнике.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2111