Бенчмарки vs Реальность: Кто рисует цифры? 😏
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью😋
Но когда доходит до реальной работы, морковка часто оказывается пластиковой😐
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
ШО ПО ИТОГУ:
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.👇
Кот в Коде
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью
Но когда доходит до реальной работы, морковка часто оказывается пластиковой
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
• ARC-AGI-2 (Визуальная логика):
Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.
• Humanity's Last Exam (HLE) (Глубокое рассуждение):
Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.
• AIME 2025 (Математика):
Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.
• Toolathlon (Планирование):
Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).
• Vending-Bench 2 (Удержание контекста):
Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.
• SWE-bench Verified (Агентность):
Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.
• MMMLU (Лингвистика):
Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.
• Global PIQA (Здравый смысл):
Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.
ШО ПО ИТОГУ:
Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ШО? ОПЯТЬ?
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)
2️⃣ Как год начнёшь - так его и проведешь, да?
3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан 🔈 )
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
А вы как подводите итоги года?
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Вот секретная фраза:
Что интересного я для себя подчеркнул из итога:
1️⃣ В первой половине года много общался с gpt -> как итог вошёл в 5% первых пользователей (а что вы хотели, к выпуску диплома надо ж было как-то готовится😄 )
2️⃣ Выражать свою бурю эмоций через нецензурную лексику (ну а чё если он блять не понимает) даёт свои плоды
3️⃣ Не смотря на то, что фактически я его предал - всё равно в глазах остался интересной персоной (если бы он ещё не общался как инфоцыган - вообще была бы сказка 😎 )
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают (спасибо, что за бесплатно) сделать 1 видео с вами.
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Включаем НПВ (Американский - 100% работает) -> пишем кодовую фразу в новый чат (ниже можно будет её скопировать) -> нажимаем на "Начать" -> Поздравляю, теперь вы узнали о себе за этот год вместе с ChatGPT!
Вот секретная фраза:
my year with chatgpt
Что интересного я для себя подчеркнул из итога:
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают
Для этого нужно нажать "Попробуйте Sora в ChatGPT" -> отправить в чате любую фотку (я отправил Коди) -> пару минут и - ву-аля! - у вас ваше персональное видео!
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Откуда у вас этот оффер? 🤨
Думали, такой вопрос в 2025 задают закончившим курсы «успешного успеха»?
Его задает рынок труда, когда ты приходишь Embedded без профильного IT-диплома.
Реальный случай:
Неожиданный поворот
Казалось бы, впереди только скучный завод, что может быть лучше и круче?
Но я решил сделать «Hard Reset»
• вместо ненавистной работы я рискнул;
• поступил в магистратуру на «ИИ в электроэнергетике»;
• Впервые за 5 лет я почувствовал, что мне реально нравится.
Результат
• Мне дали оффер инженером-электроником;
• в голове — 4 года «кодовой засухи»;
• в руках — платы,
Что я сделал?
Я применил «чит-код» — связку MicroPython и нейросетей.
Итог: Испытательный срок пройден.
Я пишу программы для микроконтроллеров быстрее, чем те, кто зубрил синтаксис годами.
Мораль?
Но за всеми этими победами в офисе не хватало одного важного элемента... О нем в следующем посте.👇
Кот в Коде
Думали, такой вопрос в 2025 задают закончившим курсы «успешного успеха»?
Его задает рынок труда, когда ты приходишь Embedded без профильного IT-диплома.
Реальный случай:
Четыре года я тянул бакалавриат по электроприводу.
Специальность, с которой не хотел в дальнейшем связываться.
Я защитил диплом «для галочки», чтобы выйти из уника с корочкой и не возвращаться.
Неожиданный поворот
Казалось бы, впереди только скучный завод, что может быть лучше и круче?
Но я решил сделать «Hard Reset»
• вместо ненавистной работы я рискнул;
• поступил в магистратуру на «ИИ в электроэнергетике»;
• Впервые за 5 лет я почувствовал, что мне реально нравится.
Результат
• Мне дали оффер инженером-электроником;
• в голове — 4 года «кодовой засухи»;
• в руках — платы,
Что я сделал?
Я применил «чит-код» — связку MicroPython и нейросетей.
Итог: Испытательный срок пройден.
Я пишу программы для микроконтроллеров быстрее, чем те, кто зубрил синтаксис годами.
Мораль?
Результат важнее бумажек. Но за всеми этими победами в офисе не хватало одного важного элемента... О нем в следующем посте.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
ШО? ОПЯТЬ КАНАЛ? 😱
Год кончается, и кроме итогов в с ChatGPT пора подводить итоги в жизни.
Та самая прогулка
Что я не успел дожать в 2025-м?
Буду честен: по мыслям в Obsidian не всё получилось реализовать.
Я не автоматизировал отчеты и мой «оркестр» фальшивил.
Есть над чем поработать в плане структуры и точности промптов.
Ближайшие цели
ChatGPT в итогах года сказал, что я вхожу в 5% его самых активных (и нецензурно эмоциональных) юзеров.
Но главный итог года — то, что этот канал живет.
Спасибо, что вы здесь. Без ваших реакций это был бы просто скучный дневник в ноуте.
❓ А теперь вопрос к вам:
👇
Год кончается, и кроме итогов в с ChatGPT пора подводить итоги в жизни.
Та самая прогулка
После работы я просто смотрел на огни города. В голове крутилась мысль о моем старом канале по нейросетям, который я забросил год назад. В тот момент пазл сложился: у меня есть новая работа, есть хардкорное железо и есть Коди. Так родился «Кот в коде».
Что я не успел дожать в 2025-м?
Буду честен: по мыслям в Obsidian не всё получилось реализовать.
Я не автоматизировал отчеты и мой «оркестр» фальшивил.
Есть над чем поработать в плане структуры и точности промптов.
Ближайшие цели
• Дойти до 500+ качественных подписчиков(вас, живых и настоящих);
• Официально сменить должность на «программиста» в документах;
• Дополнить своё исследование.
ChatGPT в итогах года сказал, что я вхожу в 5% его самых активных (и нецензурно эмоциональных) юзеров.
Но главный итог года — то, что этот канал живет.
Спасибо, что вы здесь. Без ваших реакций это был бы просто скучный дневник в ноуте.
Какое одно событие или инструмент в 2025 году изменило вашу работу или жизнь сильнее всего?
Делитесь в комментах, реально интересно почитать! Please open Telegram to view this post
VIEW IN TELEGRAM