NEW BOT Телеграм, страница

Кот в Коде|ИИ и Питон

Бенчмарки vs Реальность: Кто рисует цифры? 😏

Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋

Но когда доходит до реальной работы, морковка часто оказывается пластиковой 😐

Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.

Давайте переведем эти скучные названия на человеческий:

• ARC-AGI-2 (Визуальная логика):

Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.

• Humanity's Last Exam (HLE) (Глубокое рассуждение):

Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.

• AIME 2025 (Математика):

Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.

• Toolathlon (Планирование):

Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).

• Vending-Bench 2 (Удержание контекста):

Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.

• SWE-bench Verified (Агентность):

Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.

• MMMLU (Лингвистика):

Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.

• Global PIQA (Здравый смысл):

Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.

ШО ПО ИТОГУ:

Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.

Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.

Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах. 👇

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

311

75 views08:28

Кот в Коде|ИИ и Питон

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

ШО? ОПЯТЬ?

Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.

Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:

1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)

2️⃣ Как год начнёшь - так его и проведешь, да?

3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан

🔈

)

Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

221

49 views08:13

Кот в Коде|ИИ и Питон

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

А вы как подводите итоги года?

Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!

Делаем всё строго по инструкции:

Включаем НПВ (Американский - 100% работает) -> пишем кодовую фразу в новый чат (ниже можно будет её скопировать) -> нажимаем на "Начать" -> Поздравляю, теперь вы узнали о себе за этот год вместе с ChatGPT!

Вот секретная фраза:

my year with chatgpt

Что интересного я для себя подчеркнул из итога:

1️⃣ В первой половине года много общался с gpt -> как итог вошёл в 5% первых пользователей (а что вы хотели, к выпуску диплома надо ж было как-то готовится😄)

2️⃣ Выражать свою бурю эмоций через нецензурную лексику (ну а чё если он блять не понимает) даёт свои плоды

3️⃣ Не смотря на то, что фактически я его предал - всё равно в глазах остался интересной персоной (если бы он ещё не общался как инфоцыган - вообще была бы сказка

😎

)

А что за видео по середине и как его сделать?

После всех подведений итогов с gpt разрешают (спасибо, что за бесплатно) сделать 1 видео с вами.

Для этого нужно нажать "Попробуйте Sora в ChatGPT" -> отправить в чате любую фотку (я отправил Коди) -> пару минут и - ву-аля! - у вас ваше персональное видео!

Делитесь, какое у вас подведение итогов, будет интересно посмотреть)

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

211

44 views11:51

About

Blog

Apps

Platform