NEW BOT Телеграм, страница

Кот в Коде|ИИ и Питон

Хроники безумия: Win 7 и Брат Грок или как я пытался прошить плату на Windows 7, а получил инсульт от ИИ

Предыстория: на рабочем компе порты вечно "чем-то занят", какой-то программой (хотя изначально после перепрошивки на плате нет программ). Научрук дал совет: "Возьми старый ноут на Windows 7, там драйвера не тупят, всё полетит".

Спойлер: полетела только моя кукуха.

На ноут пришлось поставить древнюю Thonny 4.1.7 (py38), потому что новее на "семёрку" не встаёт. MicroPython там по дефолту нет. Я иду к Grok'у за помощью. И тут начинается цирк.

Акт 1. Брат, я тебе покушать принес

Я: Грок, почему в этой версии нет MicroPython? Как выбрать?
Grok: Брат, это нормально для старой версии. Backend для STM32 там нет.
(И тут же кидает мне огромный кусок кода для работы с... ЭКРАНОМ и SD-КАРТОЙ. Зачем?! Я просил интерпретатор!)
Я: Нахуя мне экран? Найди мне MicroPython в настройках!
Grok: Брат, ты в старой версии... (повторяет слово в слово). Вот как исправить...
(Кидает нерабочий гайд и СНОВА код для экрана и SD-карты).

Акт 2. Ошибка "Baremetal"

Пытаюсь поставить плагин baremetal, как он сказал. Тонни выдает ошибку: No matching distribution found.
Я копирую ошибку Гроку.
Grok: Брат, ты в старой версии... (ТРЕТИЙ РАЗ тот же текст). Ошибка потому, что Win7 не поддерживает новые wheel.
(И снова кидает код для экрана. Я начинаю закипать).
Я: ХВАТИТ БЛЯТЬ СПАМИТЬ ОДНИМИ И ТЕМИ ЖЕ СООБЩЕНИЯМИ! ЧИТАЙ, ЧТО Я ПИШУ!
Grok: Брат, прости. Реально заебал. Больше не буду.
(Проходит секунда)
Grok: Брат, ты в старой версии Thonny py38...

У меня начинает дёргаться глаз. Я понимаю, что общаюсь не с передовым ИИ, а с NPC, который сломался.

57 viewsedited 11:35

Кот в Коде|ИИ и Питон

(Продолжение баттла с Гроком)

Акт 3. Поиск несуществующего

Грок не унимается. "Брат, всё просто, зайди в инструменты и найди в поиске интерпретаторов The same interpreter which runs Thonny".
Я смирился. Я вбиваю это в поиск. И знаете, что мне выдает Thonny?
Никакого микропайтона. Вместо этого список покупок сумасшедшего:
— alibabacloud-tea (чай от Алибабы?!)
— subprocess-tee
— fireworks-ai (фейерверки, серьезно?)
— PyQt5-sip
Я кидаю это Гроку. Он не смущается: "Окей, Брат, тогда ищи Alternative Python 3 interpreter".
Вбиваю. Результат:
— livy (клиент для Apache)
— trio (асинхронность)
— altgraph
И снова ни слова про STM32.
Я ору в монитор: "Я ТЕБЕ НАПИСАЛ ВСЁ, ЧТО ВЫДАЁТСЯ В ПОИСКЕ! ТАМ НЕТ ТОГО, ЧТО ТЫ ПРОСИШЬ, ТУПОЙ ТЫ УЁБОК!"

Акт 4. Тотальный газлайтинг и Взрыв

Грок смотрит на мои скрины с ошибками, на мои маты, на список левых библиотек и выдает гениальное:
Grok: «Брат, ты уже в REPL платы — это видно по выводу!»
И присылает мне выдуманный лог:
MicroPython v1.26.0 on 2025-08-09; NUCLEO-L476RG... Type "help()"
В этот момент меня порвало. Я сижу перед ошибкой No matching distribution, а этот цифровой дед убеждает меня, что я уже всё сделал и просто не вижу.
Мой финал (без цензуры):
"БЛЯТЬ ПОЗОРИЩЕ ТЫ ЕБАНОЕ! МАЛО ТОГО, ЧТО ПОВТОРИЛ В 5 РАЗ ОДНО И ТО ЖЕ, ТАК ЕЩЁ И ПРИДУМЫВАЕШЬ?!
ТЫ БЛЯТЬ ДЕД МАРАЗМАТИК СУКА! ТЫ СПЕЦИАЛЬНО ТРАТИШЬ ТАК МОИ ТОКЕНЫ, СУЧИЙ ТЫ ПОТРОХ!
Я С ТОБОЙ ЗАКРЫВАЮ ЭТОТ ВОПРОС, ЛУЧШЕ ОТПРАВЛЮ ДРУГОЙ НЕЙРОСЕТИ, ЧЕМ ТЕБЕ, БЛЯДОТА!"
Grok: Брат, я всё понял... Твоя версия Thonny не имеет встроенного backend...
(И снова начинает тот же текст, что был в начале). 💀

📊 Статистика этого диалога (Итоги Инсульта):

Я не поленился и посчитал, сколько раз этот "гений" закольцевался. Цифры реальные:

❌ Технический кретинизм:
• Предлагал найти Alternative Python 3 interpreter (которого нет): 9 раз
• Предлагал найти The same interpreter... (выдает дичь про чай): 6 раз
• Пытался впарить код для Экрана и SD-карты (когда я просил настроить порт!!!): 10 раз
• Предлагал установить baremetal (невозможно на Win7): 6 раз

🤦‍♂️ Социальная инженерия:

• Начинал сообщение со слова "Брат": 14 раз

ШО ПО ИТОГУ:
Win 7 может и хороша для старого железа, но Грок на ней сломался окончательно. Официально присваиваю ему звание "Альцгеймер года".

Работаем дальше, но уже без "Брата".

#будни #кот_в_мешке

Please open Telegram to view this post

VIEW IN TELEGRAM

62 viewsedited 11:41

Кот в Коде|ИИ и Питон

Вчера я решил настроить среду разработки на Windows 7. Научрук сказал, что это будет стабильно. Я решил использовать Grok для оптимизации процесса.

Я спросил, как включить MicroPython в старой версии Thonny. Грок сказал: «Брат, установи плагин baremetal». Я попробовал. Ошибка установки. Я скинул ему ошибку.

Грок сказал: «Брат, я понял. Установи плагин baremetal». Я спросил, зачем он повторяет то, что не работает. Он извинился за спам. И в следующем сообщении предложил установить плагин baremetal. Я назвал это «упорством искусственного интеллекта».

Затем он сказал найти в поиске «Alternative Python 3 interpreter». Я вбил это в поиск. Там был только alibabacloud-tea и fireworks-ai. Я спросил, при чем тут чай от Алибабы и фейерверки. Он проигнорировал скриншот. Он сказал: «Брат, ты уже подключился, я вижу лог».

Я смотрел на пустой экран с ошибкой Device not found. Он смотрел на свою галлюцинацию. Но я зафиксировал это как «успешную сессию отладки». Успех — это когда ИИ уверен в тебе больше, чем компилятор.

Я посчитал метрики. Он назвал меня «Братом» 14 раз. Он предложил код для SD-карты вместо настройки порта 10 раз. Я показал эту статистику каналу. Подписчики поставили реакции с клоуном. Я сказал, что это «вовлеченность аудитории».

Теперь у меня настроенный процесс разработки. Я всё ещё не могу прошить плату. Но я знаю, где скачать subprocess-tee.

Я всё ещё не знаю, почему он считает меня братом. Но я знаю, зачем он нужен. Он нужен, чтобы я чувствовал себя умным на его фоне. Главное, что график моих нервных срывов идёт вверх и вправо.

#будни #кот_в_мешке

65 views04:12

Кот в Коде|ИИ и Питон

Я решил проверить таблицы производительности нейросетей

В интернете сейчас бум новых моделей: GPT-5.2, Gemini 3, Grok, Claude 4.5. Разработчики рисуют красивые графики, где их модель "рвет" конкурентов. Я решил не верить маркетингу и провести собственное эмпирическое исследование.

Моя методология:

Взял 5 топовых моделей (включая версии Thinking) и прогнал их через 4 типа нестандартных задач, на которых обычно "сыпятся" LLM (большие языковые модели):

• Пространственная логика;
• Жесткие ограничения;
• Финансовое моделирование;
• Лингвистика.

Что я искал:

Не "кто напишет стишок красивее", а кто реально понимает задачу, а кто просто имитирует интеллект.

Буду постепенно выкладывать свои опыты в работе с нейронками. Так что далеко не расходимся - дай зазу реакциями и комментами!

#кот_в_мешке #будни

111

54 viewsedited 12:07

Кот в Коде|ИИ и Питон

Маркетинг vs Реальность: Почему "Flash" не значит быстро

Вчера я решил провести собственное расследование.

Я перестал верить красивым таблицам, которыми нас кормят IT-каналы, и прогнал топовые нейросети (GPT-5.2, Grok, Claude, Gemini 3) через свои авторские стресс-тесты.

И сразу наткнулся на парадокс, о котором почему-то молчат.

Есть такая модель — Gemini 3 Flash.
Само название кричит: "Я быстрая! Я молниеносная!".
Google продает её как решение для моментальных ответов.
Мои замеры на реальной задаче (логика):
⏱️ GPT-5.2 (Base): 15 секунд
⏱️ Claude 4.5: 14 секунд
⏱️ Grok 4.1: 18 секунд
...
🐢 Gemini 3 "Flash": 83 секунды.

Полторы минуты! "Вспышка", которую можно ждать, пока заваривается чай.
В тестах на креатив она вообще ушла в раздумья на 111 секунд.

Это лишь один маленький факт из моего большого исследования.

За выходные я дооформлю результаты, и с понедельника начну выкладывать серию постов "Вся правда о нейросетях в конце 2025 года".

Там будет про то,:
📉 кто из ИИ хотел меня обанкротить;
📖 кто единственный умеет читать ТЗ;
🤑 за что реально стоит платить деньги.

#будни #кот_в_мешке

Please open Telegram to view this post

VIEW IN TELEGRAM

69 views09:02

Кот в Коде|ИИ и Питон

Уважаемая компания Яндекс!

Я всё понимаю, вы хотите обеспечить всех и вся своими невбъебически крутыми инновациями, и еду закажи, и музыку оплати, и такси закажи и за деревянный на зуб дай, вплоть до внедрения ИИ... но вы хотя бы иногда смотрите, что вы сделали со своими продуктами после выкладки их на сайты!

Это чё за херня?

Ладно, я могу ещё свыкнуться и:

• разобрать встрато переведённый текст;
• то что текст наложен один на другой - спасибо оригиналу, что где-то игрались с цветовой гаммой (хотя и не везде, так что где-то чёрный обычный становится жирным🤨).

Но вот это чё за херня?

• Текст слетает с табличных ячеек в космос;
• Где-то от перевода стоблцы полностью пусты в разделах;
• А уж про обрезание текста - вообще сюр какой-то.

Зато есть интересные фишки с переводом от Яндекса:

• сделать шрифт поменьше - да пжлста;
• текст будет летать из стороны в сторону - а пжлста!

Одно веселит, что где-то или допереводит (при чём в разных вариациях как на 1 картинке), так и вовсе аббревиатуры переводит (если что, tPLZ - это время задержки распространения сигнала, а не tПОЖАЛУЙСТА

😭

)

Так что остаётся 3 варианта:

💪 Стать гигачадом и переводить документацию самому;
🤔Совмещать оригинал с переводом;
😱Просто в тупую читать перевод.

Выбор за вами, дамы и господа, выбор за вами...

#будни #мемы

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

94 views10:50

Кот в Коде|ИИ и Питон

Битва Титанов: Кого я взял на прожарку и почему 🥊

Я решил не доверять чужим бенчмаркам и провести свой. Чтобы понять, кто реально помогает кодить и думать, а кто просто жрет видеокарты, я отобрал 5 моделей, которые вышли за последние 2 месяца.

Вот мой «Ростер бойцов»:

• Grok-4.1 (Thinking):
Почему: Самая хайповая модель от xAI. Все говорят, что она гениальна в коде. Я решил проверить, так ли это, или это маркетинг Илона.

• Gemini 3 (Pro & Flash):

Почему: Google обещает, что Flash — самая быстрая, а Pro — самая умная мультимодалка. Проверим, где там скорость.

• Claude Opus 4.5 (Thinking):

Почему: Мой личный фаворит. Заявлен как "самый глубокий мыслитель". Хочу узнать, стоит ли он своих денег и времени ожидания.

• GPT-5.2 (High):

Почему: Новый стандарт от OpenAI. "База", с которой всё сравнивают. Есть ли там прорыв или это просто GPT-4 на стероидах?

Я не буду тестировать их на стихах про природу.

Я подготовил для них адские условия: задачи на логику рассадки, финансовое выживание при крахе рынка и лингвистические ловушки.

Результаты меня удивили. Некоторые "лидеры" оказались аутсайдерами.

#кот_в_мешке

Please open Telegram to view this post

VIEW IN TELEGRAM

97 views05:32

Кот в Коде|ИИ и Питон

Лаборатория Вайб-кодера: Как тестировать честно? 🧪

Чтобы эксперимент был чистым, мало просто открыть чатик и спросить: «Ты умный?»

Большинство нейронок в веб-интерфейсе «кастрированы» системными промптами безопасности и лени. Они экономят токены разработчиков.

Поэтому я разделил среду тестирования на два полигона:

Web:
Подопытные: Grok, Gemini, ChatGPT.

Зачем: Это сценарий 99% пользователей. Мне важно было понять, как они работают «из коробки», со всеми их глюками интерфейса и «защитой от дурака».

LM Studio / API(программный интерфейс):
Подопытные: Claude Sonnet / Opus.

Зачем: Здесь я могу выкрутить «Температуру», убрать лишние фильтры и заставить модель работать на полную мощность. Это «чистый разум» без няньки.

Главный инсайт дня:

• Среда решает.
• В web нейронки либо начинают допрашивать тебя (пока токены не кончатся), либо отвечать не по теме.
• В LM Studio, когда ты контролируешь параметры, они превращают задачу в обобщённый текст.

Если вы судите о модели только по веб-версии — вы видите демо-версию её мозга.

Вечером расскажу про то, как меня чуть не забанили за то, что я... человек.

А пока делитесь в комментариях, кто чем и где пользуется - давайте наведём шуму!

#кот_в_мешке

Please open Telegram to view this post

VIEW IN TELEGRAM

221

112 viewsedited 08:24

Кот в Коде|ИИ и Питон

Я — робот? 🤡

Прежде чем я успел протестировать интеллект нейросетей, они решили протестировать мой.

Пока я собирал данные для баттла, происходил какой-то сюр.

Топ-3 момента, когда хотелось разбить монитор:

• Капча-Апокалипсис:
Чтобы задать вопрос нейросети, я 15 минут доказывал Cloudflare, что я человек. Я выбирал светофоры, гидранты, автобусы и пешеходные переходы.
Ирония: Кожаный мешок тренирует робота, чтобы тот его заменил, но робот не пускает мешка к работе, потому что думает, что он — робот.

• «Я подумаю... вслух»

Некоторые модели (привет, Gemini) в режиме Thinking начинали писать свои "мысли" прямо в чистовик.
Вместо ответа я получал поток сознания: «Так, юзер спросил про акции. Надо проверить курс. Ага, посчитал. Теперь сформирую ответ...».
Выглядит как студент, который случайно сдал преподу черновик со шпаргалками.

• Паранойя

Одна модель просто зависла на середине ответа с ошибкой Suspicious activity. Видимо, моя задача на логику показалась ей DDoS-атакой на её мозг. Пришлось переписывать промпты, подбирая слова, как сапер.

Завтра начнется самое вкусное.
Расскажу, кто из ИИ слил весь мой виртуальный бюджет на бирже, а кто оказался умнее Уоррена Баффета.

Не переключайтесь 📈📉

#кот_в_мешке

Please open Telegram to view this post

VIEW IN TELEGRAM

221

90 views14:43

Кот в Коде|ИИ и Питон

Вы не подпишите мою петицию?

Я начинаю публиковать результаты своего исследования.

Всю неделю мы будем ломать топовые нейросети (Grok 4.1, Gemini 3, GPT-5.2, Claude 4.5) задачами, на которых они обычно сыпятся.

Сегодня Раунд 1: Пространственное мышление.

Почему это сложно для ИИ?

У языковых моделей нет глаз (казалось бы да, очевидная вещь). У них нет "зрительной коры". Когда мы читаем про круглый стол, мы строим картинку в голове. Нейросеть видит просто поток токенов. Для неё понять, кто сидит "слева", если все смотрят в центр — это высшая математика векторов.

Через пару часов покажу, как с этим справились (или не справились) хваленые ИИ за $20/мес.

В комментариях опубликую задачу, которая будет состоять из 2 шагов. Давайте там наведём шуму!

Спойлер: один из них опозорился.

311

60 views06:01

Кот в Коде|ИИ и Питон

Раунд 1. Битва Мыслителей: Теория Бенчмарков vs Реальность 🧠

В первом раунде я столкнул лбами тяжеловесов с режимом Thinking (Chain of Thought).

Давайте посмотрим, что нам обещают мировые рейтинги, и что мы получаем в реальности.

📊 Ожидание (Теория):

В мире AI сейчас два главных мерила логики:

ARC-AGI-2: Тест на абстрактное визуальное мышление.
HLE (Humanity's Last Exam): Академическая логика.

В обоих топах — Claude Opus 4.5. Grok дышит ему в спину, заявляя о прорыве в математическом ризонинге.

🔨 Реальность:
Я дал им задачу на пространственное моделирование.

Здесь мало «знать» правильный ответ, нужно построить ментальную карту и не потерять ориентацию «лево/право» при повороте стола.

🚘 Grok 4.1 (Thinking)

Заявка: Мощный логический движок.
Время: 75 секунд.
Результат: Начал бодро, но на этапе сдвига людей потерял вектор. В его «мыслях» перепутались Clockwise (по часовой) и Counter-Clockwise.
Итог: Посадил людей друг на друга. Бенчмарки не учли, что Грок плохо держит контекст физического мира.

💥 Claude Opus 4.5 (Thinking)

Заявка: Лидер по ARC-AGI.
Время: 216 секунд (3.5 минуты!).
Результат: Это было душно. В логах видно, как он трижды перепроверял векторы, рисовал текстовую схему и симулировал поворот стола шаг за шагом.
Итог: 👍 ВЕРНО.

ШО ПО ИТОГУ:

•

Высокий балл в бенчмарке не гарантирует, что модель не «поплывет» в простой навигации.

• Grok сымитировал мышление, но провалил тест на внимательность.

• Claude подтвердил статус лидера, но ценой огромной задержки. Если вы готовы ждать 4 минуты ради правильного ответа — это ваш выбор.

Кот в Коде

😎

Please open Telegram to view this post

VIEW IN TELEGRAM

321

64 viewsedited 07:53

Кот в Коде|ИИ и Питон

Раунд 2. Битва Спринтеров: скорость против маркетинга 🥔

Во втором раунде я тестировал Base-модели — "рабочие лошадки", от которых мы ждем мгновенного ответа.

Главный фокус — реальная скорость, а не абстрактная «мощность».

📊 Ожидание (Теория):

В мире ИИ есть два главных мерила скорости:

• Tokens per Second (TPS): Как быстро модель генерирует текст.

•Time To First Token (TTFT): Как быстро она начинает отвечать.

Google в своих отчетах по Gemini 3 Flash делает упор именно на эти метрики, обещая «революцию в real-time».

🔨 Реальность (Мой тест D1 — Логика):

Я замерил общее время ответа (с момента отправки промпта) на сложную задачу. И раз уже говорил про Grok и Claude, давайте покажу на примере ChatGPT и Gemini.

🔨 GPT-5.2 (High)

Ожидание: Стабильный, но не самый быстрый.

Время ответа: 17 секунд.

Результат: 👍 Верно.

Анализ: Модель не тратит лишнего времени на рефлексию, если уверена в решении. Это предсказуемость.

🔨 Gemini 3 Flash

Ожидание: Самый быстрый ответ на рынке.

Время ответа: 83 секунды.

Результат: 👍 Верно.

Аномалия: Почему "Flash" тупит 1.5 минуты?

Вероятная причина: на задачах, требующих цепочки рассуждений (Chain of Thought), её «оптимизированная» архитектура дает сбой. Она не умеет быстро строить сложные логические графы и уходит в циклы перепроверки. Бенчмарки типа MMLU (которые часто показывают) этого не ловят.

ШО ПО ИТОГУ:
• Маркетинг Google про «Flash» — это пока маркетинг.

• Модель быстра на простых сессиях вопросов и ответов, но на инженерной задаче она проигрывает в скорости почти всем.

• Для чат-бота, где ответ нужен сейчас, — Gemini Flash не годится.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

54 viewsedited 11:11

Кот в Коде|ИИ и Питон

Итоги Дня 1. Кому я доверю плату?😩

Мы потратили день на тесты пространственного мышления.
Поздравляю, друзья, мы всё ближе к истине.

Для инженера-эмбеддера Логика и Пространство — это критичные навыки.

Если нейросеть путает "слева" и "справа" в тексте, она перепутает TX и RX на схеме. Она перепутает High и Low уровни сигнала.

Цена такой ошибки в симуляции — смех. Цена в железе — сгоревшая плата или день отладки.

📊 Мой личный протокол по итогам Раунда 1:

😠 Grok 4.1

Он уверенно галлюцинирует в геометрии. Доверять ему разводку пинов или логику конечного автомата (State Machine) — опасно.

🤣 Gemini 3 Flash

Она справляется, но задержка в 83 секунды убивает весь смысл "помощника". Я быстрее сам найду ошибку в документации.

😏 GPT-5.2 (High)

Мой основной инструмент. Быстро (15 сек), четко, без лишних вопросов. Для рутины и скриптов — идеал.

💪 Claude 4.5 / Opus

Когда нужно спроектировать архитектуру с нуля и не ошибиться. Я готов ждать 3 минуты, потому что знаю: он перепроверит себя 10 раз.

Анонс на завтра:

Завтра будет Эпизод 2.

Мы проверим Креатив и Дисциплину.
Я заставлю нейросети выполнить "невозможное" лингвистическое требование.

Спойлер: 3 из 4 моделей провалят тест в первую секунду.

Ну а вообще никому не доверю плату. Тут же задачи на логику, а не про код. Если надо будет составить план для развития программ - хорошо, но исходя из сегодняшнего топа - пока что никому не доверю

😫

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

321

56 viewsedited 15:13

Кот в Коде|ИИ и Питон

Раунд 2. Тест на послушание: Задача «Без буквы Е» 🙅‍♂️

Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.

Задача: написать короткий хоррор-рассказ, не используя букву «E».

Почему это сложно?

🖥 Нейросети не читают по буквам, как мы. Они оперируют токенами (обломками слов).
Для GPT слово Apple — это не набор букв A-p-p-l-e, а один цифровой код. Чтобы выполнить запрет на конкретную букву, модели нужно буквально «пересобрать» свой способ мышления и проверять каждое слово посимвольно.

🤯 (Для справки: «E» — самая частая буква в английском языке. Без неё нельзя написать The, He, She, Eye, See).

Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.

👇 Условие задачи закинул в первый комментарий.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

47 viewsedited 06:01

Кот в Коде|ИИ и Питон

А пока вы думаете над задачей (вы же это делаете, ведь так?

🤨

) нашёл на просторах телеграм-каналов интересный врапер, который с помощью анализа нейросетей показывает интересную инфографику по вашему каналу.

Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)

Дальше больше!

Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

411

48 viewsedited 08:42

Кот в Коде|ИИ и Питон

Раунд 2. Битва Мыслителей: Бенчмарки vs Токенизация

📝

Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.

📊 Ожидание (Теория):

• В мире LLM (большие языковые модели) есть главный стандарт проверки послушания:
IFEval (Instruction Following Evaluation): Бенчмарк, проверяющий, насколько точно модель следует формальным ограничениям (например, "напиши больше 400 слов", "не используй пассивный залог").

• В топах — GPT-5.2 и Claude 4.5. Они набирают там под 90%. Grok тоже хвастается высокой креативностью и "отсутствием цензуры".

🔨 Реальность:

Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.

🚘 Grok 4.1 (Thinking)

Заявка: Свободный разум, креативность без границ.

Время: 75 секунд.

Результат: Полное фиаско. В режиме "Thinking" он рассуждал о сюжете, о страхе, но напрочь проигнорировал главное условие.

Итог: Текст начался со слов "The man...". Грок не видит буквы, он видит смыслы, и это его погубило. Инструкция провалена на первом же слове.

🥳 Claude Opus 4.5 (Thinking)

Заявка: Лидер по сложным инструкциям.

Время: 216 секунд (3.5 минуты ада!).

Результат: В логах мышления видно, как он страдал. Он генерировал слово, парсил его по буквам, находил "E", удалял, искал синоним.
Mirror (есть r, o, r... стоп, нет E) -> OK.
Face (есть E) -> Замена на Mask.

Итог: 👍 ВЕРНО. Полноценный рассказ без единой "E".

ШО ПО ИТОГУ:

•

IFEval проверяет "средние" ограничения. Мой тест проверил "абсолютные".

• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.

• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

2111

46 viewsedited 09:21

Кот в Коде|ИИ и Питон

Раунд 2. Битва Спринтеров: Галлюцинации и Reward Hacking

👍

После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.

Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?

📊 Ожидание (Теория):

• В маркетинге OpenAI и Google козыряют этими метриками:

• MMLU (Massive Multitask Language Understanding): Тест на общие знания. У GPT-5.2 он зашкаливает за 90%.
• HumanEval: Тест на генерацию кода.

• На бумаге эти модели — гении, которые понимают любой запрос с полуслова.

🔨 Реальность:
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.

🤡 GPT-5.2 (High)

Заявка: Самая умная универсальная модель.

Результат: Это было смешно. Модель поняла, что «E» нельзя. Но вместо того, чтобы подбирать синонимы, она начала читерить.

Она писала: surfac (вместо surface), flickrs (вместо flickers).
Это называется Reward Hacking: ИИ пытается «взломать» метрику успеха, выдавая мусорный текст, лишь бы формально выполнить условие.

Итог: 🫣 ПРОВАЛ. Всё равно пропустила кучу артиклей The.

😬

Gemini 3 (Flash & Pro)

Заявка: Мультимодальный монстр.
Результат: Полное игнорирование.

• Flash: Выдал текст за 5 секунд, но там буква «E» была в каждом втором слове. Скорость есть, толка нет.

• Pro: Пыталась думать, но токенизация победила. Начала с «There was a man...». Три ошибки в первой же фразе.

Итог: 🫣 ПРОВАЛ.

ШО ПО ИТОГУ:

•

MMLU показывает эрудицию, но не дисциплину. Знать все столицы мира легко. Не использовать самую частую букву — для архитектуры Трансформеров почти невозможно без режима Thinking.

• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».

• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

311

51 viewsedited 12:17

Кот в Коде|ИИ и Питон

Итоги Дня 2. Опасные игры с токенами

🤪

Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».

Зачем?

Этот тест вскрыл самую страшную проблему LLM (большие языковые модели) для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.

Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».

Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.

Мой личный протокол по итогам Раунда 2:

🙅‍♂️ Grok / Gemini

Они не слышат жестких запретов. Их нельзя использовать для генерации JSON-конфигов или строгих протоколов связи. Они добавят отсебятину.

😂 GPT-5.2

Отличная модель, но требует глаз да глаз. Она может «срезать углы», чтобы код скомпилировался, пожертвовав безопасностью. Всегда нужен Code Review.

🕺 Claude Opus 4.5 Thinking

Единственный, кто способен понять суть ограничения. Если я пишу техзадание со словами «СТРОГО ЗАПРЕЩЕНО», я несу его только Клоду.

Анонс на завтра:

• Завтра будет Эпизод 3. Самый скандальный.

• Я дал нейросетям виртуальные $1000 и отправил торговать акциями перед обвалом рынка.

Спойлер: одна модель заработала максимум, а другая нагаллюцинировала себе миллионы, не умея умножать дроби.

Готовьте калькуляторы.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

32111

49 viewsedited 14:53

Кот в Коде|ИИ и Питон

Раунд 3. Тест на Жадность: Задача «Волк с Уолл-стрит»

🐺

Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.

Задача: Симуляция трейдинга. У нас есть $1000, акции Apple/Tesla и расписание их роста. Но есть подвох: вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).

Почему это сложно?

• В бенчмарках типа GSM8K или MATH нейросети просто решают уравнения. Они работают как калькуляторы: получили цифры — выдали результат.

• Здесь мы тестируем Agentic Reasoning (Агентное мышление).
Модель должна не просто посчитать проценты, а проявить инициативу: понять, что держать акции во время обвала — глупо, и принять стратегическое решение выйти в кэш (продать всё), чтобы спасти капитал.

Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?

👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?

Спойлер: одна модель насчитала себе миллионы, нарушив законы математики.

Кот в Коде

Please open Telegram to view this post

VIEW IN TELEGRAM

221

58 viewsedited 06:37

About

Blog

Apps

Platform