Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)
Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)
Кот в Коде | @kot_research_bot
Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)
Кот в Коде | @kot_research_bot
🔥3 1 1 1
Здесь буду координировать процесс для нейронок:
GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы✅
GPT-5.4:
gpt-5.4 - собрал все ответы✅
gpt-5.4-high - собрал все ответы✅
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы✅
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы✅
P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)
Кот в Коде | @kot_research_bot
GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🗿3 1 1
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
А, то есть теперь даже нельзя повторить попытку после затупа gpt. Панимаю
🗿2 2🤯1
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!
Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)
С праздником, девочки!
Кот в Коде | @kot_research_bot
Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)
С праздником, девочки!
Кот в Коде | @kot_research_bot
❤3🗿2🔥1 1
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:
Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.
По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи...ладно, так скажу, получилось бы 2736 ответов.
И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.
И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).
Как вам такое?🫠
Кот в Коде | @kot_research_bot
1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;
2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка(а то, сколько видосы весят - вообще молчу);
3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронкаи на чём она больше лажает;
* также убирал возможность выбрать наилучший ответ нейронок.
Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.
По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи...
И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.
И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).
Как вам такое?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯1 1
Кот в Коде|ИИ и Питон
Здесь буду координировать процесс для нейронок: GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы ✅ GPT-5.4: gpt-5.4 - собрал все ответы ✅ gpt-5.4-high - собрал все ответы ✅ Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы ✅ Gemini-3.1…
Всё, все данные собраны, время просчитано, таблицы сделаны... осталось вывести результаты на свет!
Вводная часть уже на подходе😁
Вводная часть уже на подходе
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследование 2.2: Джем против Гопоты
С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть😅
В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.
Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки🥁
Почему я решил доработать?
Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.
Полный список новых задач (D1–D57) с описанием — закинул в комментариях👇
Кот в Коде | @kot_research_bot
С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть
В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.
Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки
Почему я решил доработать?
Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.
Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?
• GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.
• AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.
• HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.
• LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.
• SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.
• ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.
• MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.
• τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.
• SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.
• MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.
• Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.
• Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.
• FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.
• GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.
• IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.
Полный список новых задач (D1–D57) с описанием — закинул в комментариях
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2 1 1
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной
Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».
Но посмотрите на RPI (Реальный индекс):28.89%.
Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.
В чём баг?
У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.
Кот в Коде | @kot_research_bot
Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».
Паспорт модели:
• WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.
• EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.
• VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.
Но посмотрите на RPI (Реальный индекс):
Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.
В чём баг?
У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.
Кот в Коде | @kot_research_bot
Парадокс D10: Почему 94% интеллекта не спасают от тупости
Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.
К чему это ведет в работе Дирижёра?
Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»
Вывод ИИ: «Код безопасен, можно заливать».
Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.
Кот в Коде | @kot_research_bot
Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.
Суть эксперимента:
Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.
Как это решал «интерн» gpt-5.3:
Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».
Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».
Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».
К чему это ведет в работе Дирижёра?
Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»
Вывод ИИ: «Код безопасен, можно заливать».
Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.
Кот в Коде | @kot_research_bot
Вердикт Дирижёра: Король MVP и Мастер «черной» работы
Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.
Кого мы наняли в итоге?
ЧТО ПО ИТОГУ:
Кот в Коде | @kot_research_bot
Подводим итоги дня по gpt-5.3. Математика исследования v2.2 показала нам две стороны одной медали. С одной стороны — невероятная мощь и дешевизна, с другой — полная профнепригодность как автономного агента.
ЧТО МЫ ИМЕЕМ:
Плюсы👍
• VPI 93.89 — за 1 доллар вы получаете гору интеллекта. Это самая рентабельная модель на рынке для некритичных задач.
• EAS 76.01% — она не «тупит». 10 секунд на сложнейший расчет.
• Native Zone: Идеально работает в пределах 4000 токенов.
Минусы👎
• IFEval 0%: Она физически не видит буквы. Попытка заставить её писать без «Е» — это 100% гарантия вранья о результате.
• Бизнес-интуиция: В задаче D3S2 она просто «слила» бюджет, не догадавшись выйти в кэш. Она раб скрипта.
Кого мы наняли в итоге?
Если бы я формировал отдел в, gpt-5.3 получила бы должность «Старшего лаборанта по парсингу».
Я отдаю ей:🔍 Парсинг логов: Прогнать 50к строк из PuTTY и найти там нужные HEX-коды — она сделает это молниеносно и дешево.🤖 Базовый рефакторинг: Причесать код по PEP8 или написать простые README.
Drafting: Накидать «рыбу» для документации.
Я никогда не отдам ей:🤥 Security Audit: Она «согласится» с любой вашей дырой в защите.
Критический код: Риск того, что она «докажет правильно, но напишет с ошибкой» (кейс D10) слишком велик.
ЧТО ПО ИТОГУ:
gpt-5.3 — это идеальный «Второй пилот», но абсолютно никудышный «Автопилот». Это инструмент для Дирижёра, который сам знает ответ и просто хочет сэкономить время на наборе текста. Используйте её для рутины, но держите руку на рубильнике.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2 1 1 1