Бенчмарки vs Реальность: Кто рисует цифры? 😏
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью😋
Но когда доходит до реальной работы, морковка часто оказывается пластиковой😐
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
ШО ПО ИТОГУ:
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.👇
Кот в Коде
Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью
Но когда доходит до реальной работы, морковка часто оказывается пластиковой
Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.
Давайте переведем эти скучные названия на человеческий:
• ARC-AGI-2 (Визуальная логика):
Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.
• Humanity's Last Exam (HLE) (Глубокое рассуждение):
Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.
• AIME 2025 (Математика):
Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.
• Toolathlon (Планирование):
Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).
• Vending-Bench 2 (Удержание контекста):
Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.
• SWE-bench Verified (Агентность):
Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.
• MMMLU (Лингвистика):
Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.
• Global PIQA (Здравый смысл):
Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.
ШО ПО ИТОГУ:
Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.
Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.
Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ШО? ОПЯТЬ?
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)
2️⃣ Как год начнёшь - так его и проведешь, да?
3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан 🔈 )
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.
Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:
Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
А вы как подводите итоги года?
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Вот секретная фраза:
Что интересного я для себя подчеркнул из итога:
1️⃣ В первой половине года много общался с gpt -> как итог вошёл в 5% первых пользователей (а что вы хотели, к выпуску диплома надо ж было как-то готовится😄 )
2️⃣ Выражать свою бурю эмоций через нецензурную лексику (ну а чё если он блять не понимает) даёт свои плоды
3️⃣ Не смотря на то, что фактически я его предал - всё равно в глазах остался интересной персоной (если бы он ещё не общался как инфоцыган - вообще была бы сказка 😎 )
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают (спасибо, что за бесплатно) сделать 1 видео с вами.
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!
Делаем всё строго по инструкции:
Включаем НПВ (Американский - 100% работает) -> пишем кодовую фразу в новый чат (ниже можно будет её скопировать) -> нажимаем на "Начать" -> Поздравляю, теперь вы узнали о себе за этот год вместе с ChatGPT!
Вот секретная фраза:
my year with chatgpt
Что интересного я для себя подчеркнул из итога:
А что за видео по середине и как его сделать?
После всех подведений итогов с gpt разрешают
Для этого нужно нажать "Попробуйте Sora в ChatGPT" -> отправить в чате любую фотку (я отправил Коди) -> пару минут и - ву-аля! - у вас ваше персональное видео!
Делитесь, какое у вас подведение итогов, будет интересно посмотреть)
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM