Кот в Коде|ИИ и Питон
Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…
Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама 🤣
Теперь можно и заняться делами)
Теперь можно и заняться делами)
Please open Telegram to view this post
VIEW IN TELEGRAM
Грокаем Траска. Глава 8
Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).
Что делать в такой ситуации? Читайте по ссылке
Кот в Коде | @kot_research_bot
Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).
В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.
Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность»( ничего не напоминает? 😏 ) . На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.
Что делать в такой ситуации? Читайте по ссылке
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Грокаем Эндрю Траска: Глава 8
В этой главе автор впервые предлагает обучить нейронную сеть на полноценном наборе данных — классическом датасете MNIST (70 000...
А ещё со вчерашнего дня вступил закон о русификации сайтов и цифровых продуктов теперь надо заменить английские термины на русские эквиваленты.
Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить🙂
Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🗿1 1 1
Forwarded from NGI | Влад Корнышев про AI и создание AI-продуктов
Как бизнесу, завязанному на ИИ, не попасть на штраф в 500к
С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.
Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.
Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как"моя жопа" , чем поймет продуктовую суть.
Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.
Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅
Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.
Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
• Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
• Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
• Навигация и формы: "Sign up / FAQ / Login / Dashboard".
• Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
• Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
• Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями
👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.
Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.
🚀 Влад Корнышев про AI и создание AI-продуктов
С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.
Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.
Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как
Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.
Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅
Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.
Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
• Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
• Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
• Навигация и формы: "Sign up / FAQ / Login / Dashboard".
• Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
• Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
• Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями
👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.
Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.
🚀 Влад Корнышев про AI и создание AI-продуктов
🤯4 2❤1🗿1
Грядёт наплыв нейронок от OpenAI или же Сама Альтман решил ответить наплывом нейронок от Дарио Амодеи из Anthropic?
Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).
И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.
Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:
Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы😎 "
Альтман: "Я просто не был уверен…🤡 "
А вы как смотрите на эту ситуацию?
😎 - Сэм жжёт
🧐 - Дарио лучше
😱 - AGI скоро?
P.S. не люблю хайпить на политике, поэтому пусть будет этот пост один из немногих, связанных с этой темой.
P.S.S теперь все тексты будут с пометками на русском языке?
Кот в Коде | @kot_research_bot
Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).
Если вкратце, что у них там происходит:
- Начало января 2026: Дата-майнеры начинают активно обсуждать внутренний коднейм GPT-5.3 Garlic (ГПТ-5.3 Гэрлик) как следующий большой релиз Сэма.
- 5 февраля 2026: В один день и Сэм выпускает мощную агентную модель GPT-5.3-Codex, и Дарио Claude Opus 4.6 (Клауд Опус 4.6).
- 10 февраля 2026: Происходит крупный слив внутренних данных GPT-5.3 прямо в релизной версии Codex.
- 12 февраля 2026: Сэм выкатывает ускоренную версию GPT-5.3-Codex-Spark/Спарк (15x быстрее).
- 15 февраля 2026: создатель вирусного агента OpenClaw (Петера Штайнбергера) переходит к Сэму.
- 17 февраля 2026: Дарио выпускает Claude Sonnet 4.6 как ответный удар (дефолтная модель для всех).
- 19 февраля 2026: На саммите в Индии с Моди Альтман и Дарио стоят рядом, но отказываются взяться за руки — момент становится вирусным мемом.
- 26–27 февраля 2026: Дарио отказывает Пентагону снимать safeguards (защитные механизмы) от mass surveillance (массового наблюдения) и autonomous weapons (автономного оружия).
- 28 февраля 2026: Сэм соглашается на тот же контракт с Пентагоном (с теми же red lines/красными линиями).
- 2 марта 2026: Свежий слив GPT-5.4 в Гитхабе («gpt-5.4 or newer» + toggle Fast mode) — сообщество ждёт релиз примерно 26 марта.
- пару часов назад вышла новость, что сотрудники Сэма должны намеренно затормаживать процесс развития нейронки, чтобы не они не пришли к AGI (универсальному ИИ)... а то уволят🙂
И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.
Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:
Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы
Альтман: "Я просто не был уверен…
А вы как смотрите на эту ситуацию?
P.S.S теперь все тексты будут с пометками на русском языке?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯4 2 1
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿2 1 1
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)
Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)
Кот в Коде | @kot_research_bot
Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)
Кот в Коде | @kot_research_bot
🔥3 1 1 1
Здесь буду координировать процесс для нейронок:
GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы✅
GPT-5.4:
gpt-5.4 - собрал все ответы✅
gpt-5.4-high - собрал все ответы✅
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы✅
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы✅
P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)
Кот в Коде | @kot_research_bot
GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🗿3 1 1
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
А, то есть теперь даже нельзя повторить попытку после затупа gpt. Панимаю
🗿2 2🤯1
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!
Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)
С праздником, девочки!
Кот в Коде | @kot_research_bot
Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)
С праздником, девочки!
Кот в Коде | @kot_research_bot
❤3🗿2🔥1 1
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:
Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.
По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи...ладно, так скажу, получилось бы 2736 ответов.
И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.
И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).
Как вам такое?🫠
Кот в Коде | @kot_research_bot
1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;
2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка(а то, сколько видосы весят - вообще молчу);
3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронкаи на чём она больше лажает;
* также убирал возможность выбрать наилучший ответ нейронок.
Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.
По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи...
И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.
И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).
Как вам такое?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯1 1
Кот в Коде|ИИ и Питон
Здесь буду координировать процесс для нейронок: GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы ✅ GPT-5.4: gpt-5.4 - собрал все ответы ✅ gpt-5.4-high - собрал все ответы ✅ Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы ✅ Gemini-3.1…
Всё, все данные собраны, время просчитано, таблицы сделаны... осталось вывести результаты на свет!
Вводная часть уже на подходе😁
Вводная часть уже на подходе
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследование 2.2: Джем против Гопоты
С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть😅
В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.
Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки🥁
Почему я решил доработать?
Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.
Полный список новых задач (D1–D57) с описанием — закинул в комментариях👇
Кот в Коде | @kot_research_bot
С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть
В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.
Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки
Почему я решил доработать?
Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.
Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?
• GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.
• AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.
• HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.
• LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.
• SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.
• ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.
• MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.
• τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.
• SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.
• MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.
• Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.
• Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.
• FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.
• GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.
• IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.
Полный список новых задач (D1–D57) с описанием — закинул в комментариях
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2 1 1
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной
Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».
Но посмотрите на RPI (Реальный индекс):28.89%.
Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.
В чём баг?
У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.
Кот в Коде | @kot_research_bot
Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».
Паспорт модели:
• WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.
• EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.
• VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.
Но посмотрите на RPI (Реальный индекс):
Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.
В чём баг?
У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.
Кот в Коде | @kot_research_bot
Парадокс D10: Почему 94% интеллекта не спасают от тупости
Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.
К чему это ведет в работе Дирижёра?
Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»
Вывод ИИ: «Код безопасен, можно заливать».
Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.
Кот в Коде | @kot_research_bot
Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.
Суть эксперимента:
Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.
Как это решал «интерн» gpt-5.3:
Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».
Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».
Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».
К чему это ведет в работе Дирижёра?
Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»
Вывод ИИ: «Код безопасен, можно заливать».
Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.
Кот в Коде | @kot_research_bot