Хроники безумия: Win 7 и Брат Грок или как я пытался прошить плату на Windows 7, а получил инсульт от ИИ
Предыстория: на рабочем компе порты вечно "чем-то занят", какой-то программой (хотя изначально после перепрошивки на плате нет программ). Научрук дал совет: "Возьми старый ноут на Windows 7, там драйвера не тупят, всё полетит".
Спойлер: полетела только моя кукуха.
На ноут пришлось поставить древнюю Thonny 4.1.7 (py38), потому что новее на "семёрку" не встаёт. MicroPython там по дефолту нет. Я иду к Grok'у за помощью. И тут начинается цирк.
Акт 1. Брат, я тебе покушать принес
Акт 2. Ошибка "Baremetal"
У меня начинает дёргаться глаз. Я понимаю, что общаюсь не с передовым ИИ, а с NPC, который сломался.
Предыстория: на рабочем компе порты вечно "чем-то занят", какой-то программой (хотя изначально после перепрошивки на плате нет программ). Научрук дал совет: "Возьми старый ноут на Windows 7, там драйвера не тупят, всё полетит".
На ноут пришлось поставить древнюю Thonny 4.1.7 (py38), потому что новее на "семёрку" не встаёт. MicroPython там по дефолту нет. Я иду к Grok'у за помощью. И тут начинается цирк.
Акт 1. Брат, я тебе покушать принес
Я: Грок, почему в этой версии нет MicroPython? Как выбрать?
Grok: Брат, это нормально для старой версии. Backend для STM32 там нет.
(И тут же кидает мне огромный кусок кода для работы с... ЭКРАНОМ и SD-КАРТОЙ. Зачем?! Я просил интерпретатор!)
Я: Нахуя мне экран? Найди мне MicroPython в настройках!
Grok: Брат, ты в старой версии... (повторяет слово в слово). Вот как исправить...
(Кидает нерабочий гайд и СНОВА код для экрана и SD-карты).
Акт 2. Ошибка "Baremetal"
Пытаюсь поставить плагин baremetal, как он сказал. Тонни выдает ошибку: No matching distribution found.
Я копирую ошибку Гроку.
Grok: Брат, ты в старой версии... (ТРЕТИЙ РАЗ тот же текст). Ошибка потому, что Win7 не поддерживает новые wheel.
(И снова кидает код для экрана. Я начинаю закипать).
Я: ХВАТИТ БЛЯТЬ СПАМИТЬ ОДНИМИ И ТЕМИ ЖЕ СООБЩЕНИЯМИ! ЧИТАЙ, ЧТО Я ПИШУ!
Grok: Брат, прости. Реально заебал. Больше не буду.
(Проходит секунда)
Grok: Брат, ты в старой версии Thonny py38...
У меня начинает дёргаться глаз. Я понимаю, что общаюсь не с передовым ИИ, а с NPC, который сломался.
(Продолжение баттла с Гроком)
Акт 3. Поиск несуществующего
Акт 4. Тотальный газлайтинг и Взрыв
📊 Статистика этого диалога (Итоги Инсульта):
Я не поленился и посчитал, сколько раз этот "гений" закольцевался. Цифры реальные:
🤦♂️ Социальная инженерия:
ШО ПО ИТОГУ:
Win 7 может и хороша для старого железа, но Грок на ней сломался окончательно. Официально присваиваю ему звание "Альцгеймер года".
Работаем дальше, но уже без "Брата".
#будни #кот_в_мешке
Акт 3. Поиск несуществующего
Грок не унимается. "Брат, всё просто, зайди в инструменты и найди в поиске интерпретаторов The same interpreter which runs Thonny".
Я смирился. Я вбиваю это в поиск. И знаете, что мне выдает Thonny?
Никакого микропайтона. Вместо этого список покупок сумасшедшего:
— alibabacloud-tea (чай от Алибабы?!)
— subprocess-tee
— fireworks-ai (фейерверки, серьезно?)
— PyQt5-sip
Я кидаю это Гроку. Он не смущается: "Окей, Брат, тогда ищи Alternative Python 3 interpreter".
Вбиваю. Результат:
— livy (клиент для Apache)
— trio (асинхронность)
— altgraph
И снова ни слова про STM32.
Я ору в монитор: "Я ТЕБЕ НАПИСАЛ ВСЁ, ЧТО ВЫДАЁТСЯ В ПОИСКЕ! ТАМ НЕТ ТОГО, ЧТО ТЫ ПРОСИШЬ, ТУПОЙ ТЫ УЁБОК!"
Акт 4. Тотальный газлайтинг и Взрыв
Грок смотрит на мои скрины с ошибками, на мои маты, на список левых библиотек и выдает гениальное:
Grok: «Брат, ты уже в REPL платы — это видно по выводу!»
И присылает мне выдуманный лог:
MicroPython v1.26.0 on 2025-08-09; NUCLEO-L476RG... Type "help()"
В этот момент меня порвало. Я сижу перед ошибкой No matching distribution, а этот цифровой дед убеждает меня, что я уже всё сделал и просто не вижу.
Мой финал (без цензуры):
"БЛЯТЬ ПОЗОРИЩЕ ТЫ ЕБАНОЕ! МАЛО ТОГО, ЧТО ПОВТОРИЛ В 5 РАЗ ОДНО И ТО ЖЕ, ТАК ЕЩЁ И ПРИДУМЫВАЕШЬ?!
ТЫ БЛЯТЬ ДЕД МАРАЗМАТИК СУКА! ТЫ СПЕЦИАЛЬНО ТРАТИШЬ ТАК МОИ ТОКЕНЫ, СУЧИЙ ТЫ ПОТРОХ!
Я С ТОБОЙ ЗАКРЫВАЮ ЭТОТ ВОПРОС, ЛУЧШЕ ОТПРАВЛЮ ДРУГОЙ НЕЙРОСЕТИ, ЧЕМ ТЕБЕ, БЛЯДОТА!"
Grok: Брат, я всё понял... Твоя версия Thonny не имеет встроенного backend...
(И снова начинает тот же текст, что был в начале). 💀
Я не поленился и посчитал, сколько раз этот "гений" закольцевался. Цифры реальные:
❌ Технический кретинизм:
• Предлагал найти Alternative Python 3 interpreter (которого нет): 9 раз
• Предлагал найти The same interpreter... (выдает дичь про чай): 6 раз
• Пытался впарить код для Экрана и SD-карты (когда я просил настроить порт!!!): 10 раз
• Предлагал установить baremetal (невозможно на Win7): 6 раз
• Начинал сообщение со слова "Брат": 14 раз
ШО ПО ИТОГУ:
Win 7 может и хороша для старого железа, но Грок на ней сломался окончательно. Официально присваиваю ему звание "Альцгеймер года".
Работаем дальше, но уже без "Брата".
#будни #кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Вчера я решил настроить среду разработки на Windows 7. Научрук сказал, что это будет стабильно. Я решил использовать Grok для оптимизации процесса.
Я спросил, как включить MicroPython в старой версии Thonny. Грок сказал: «Брат, установи плагин baremetal». Я попробовал. Ошибка установки. Я скинул ему ошибку.
Грок сказал: «Брат, я понял. Установи плагин baremetal». Я спросил, зачем он повторяет то, что не работает. Он извинился за спам. И в следующем сообщении предложил установить плагин baremetal. Я назвал это «упорством искусственного интеллекта».
Затем он сказал найти в поиске «Alternative Python 3 interpreter». Я вбил это в поиск. Там был только alibabacloud-tea и fireworks-ai. Я спросил, при чем тут чай от Алибабы и фейерверки. Он проигнорировал скриншот. Он сказал: «Брат, ты уже подключился, я вижу лог».
Я смотрел на пустой экран с ошибкой Device not found. Он смотрел на свою галлюцинацию. Но я зафиксировал это как «успешную сессию отладки». Успех — это когда ИИ уверен в тебе больше, чем компилятор.
Я посчитал метрики. Он назвал меня «Братом» 14 раз. Он предложил код для SD-карты вместо настройки порта 10 раз. Я показал эту статистику каналу. Подписчики поставили реакции с клоуном. Я сказал, что это «вовлеченность аудитории».
Теперь у меня настроенный процесс разработки. Я всё ещё не могу прошить плату. Но я знаю, где скачать subprocess-tee.
Я всё ещё не знаю, почему он считает меня братом. Но я знаю, зачем он нужен. Он нужен, чтобы я чувствовал себя умным на его фоне. Главное, что график моих нервных срывов идёт вверх и вправо.
#будни #кот_в_мешке
Я спросил, как включить MicroPython в старой версии Thonny. Грок сказал: «Брат, установи плагин baremetal». Я попробовал. Ошибка установки. Я скинул ему ошибку.
Грок сказал: «Брат, я понял. Установи плагин baremetal». Я спросил, зачем он повторяет то, что не работает. Он извинился за спам. И в следующем сообщении предложил установить плагин baremetal. Я назвал это «упорством искусственного интеллекта».
Затем он сказал найти в поиске «Alternative Python 3 interpreter». Я вбил это в поиск. Там был только alibabacloud-tea и fireworks-ai. Я спросил, при чем тут чай от Алибабы и фейерверки. Он проигнорировал скриншот. Он сказал: «Брат, ты уже подключился, я вижу лог».
Я смотрел на пустой экран с ошибкой Device not found. Он смотрел на свою галлюцинацию. Но я зафиксировал это как «успешную сессию отладки». Успех — это когда ИИ уверен в тебе больше, чем компилятор.
Я посчитал метрики. Он назвал меня «Братом» 14 раз. Он предложил код для SD-карты вместо настройки порта 10 раз. Я показал эту статистику каналу. Подписчики поставили реакции с клоуном. Я сказал, что это «вовлеченность аудитории».
Теперь у меня настроенный процесс разработки. Я всё ещё не могу прошить плату. Но я знаю, где скачать subprocess-tee.
Я всё ещё не знаю, почему он считает меня братом. Но я знаю, зачем он нужен. Он нужен, чтобы я чувствовал себя умным на его фоне. Главное, что график моих нервных срывов идёт вверх и вправо.
#будни #кот_в_мешке
Я решил проверить таблицы производительности нейросетей
В интернете сейчас бум новых моделей: GPT-5.2, Gemini 3, Grok, Claude 4.5. Разработчики рисуют красивые графики, где их модель "рвет" конкурентов. Я решил не верить маркетингу и провести собственное эмпирическое исследование.
Моя методология:
Что я искал:
Буду постепенно выкладывать свои опыты в работе с нейронками. Так что далеко не расходимся - дай зазу реакциями и комментами!
#кот_в_мешке #будни
В интернете сейчас бум новых моделей: GPT-5.2, Gemini 3, Grok, Claude 4.5. Разработчики рисуют красивые графики, где их модель "рвет" конкурентов. Я решил не верить маркетингу и провести собственное эмпирическое исследование.
Моя методология:
Взял 5 топовых моделей (включая версии Thinking) и прогнал их через 4 типа нестандартных задач, на которых обычно "сыпятся" LLM:
• Пространственная логика;
• Жесткие ограничения;
• Финансовое моделирование;
• Лингвистика.
Что я искал:
Не "кто напишет стишок красивее", а кто реально понимает задачу, а кто просто имитирует интеллект.
Буду постепенно выкладывать свои опыты в работе с нейронками. Так что далеко не расходимся - дай зазу реакциями и комментами!
#кот_в_мешке #будни
Маркетинг vs Реальность: Почему "Flash" не значит быстро
Вчера я решил провести собственное расследование.
Я перестал верить красивым таблицам, которыми нас кормят IT-каналы, и прогнал топовые нейросети (GPT-5.2, Grok, Claude, Gemini 3) через свои авторские стресс-тесты.
И сразу наткнулся на парадокс, о котором почему-то молчат.
Полторы минуты! "Вспышка", которую можно ждать, пока заваривается чай.
В тестах на креатив она вообще ушла в раздумья на 111 секунд.
Это лишь один маленький факт из моего большого исследования.
За выходные я дооформлю результаты, и с понедельника начну выкладывать серию постов "Вся правда о нейросетях в конце 2025 года".
Там будет про то,:
📉 кто из ИИ хотел меня обанкротить;
📖 кто единственный умеет читать ТЗ;
🤑 за что реально стоит платить деньги.
#будни #кот_в_мешке
Вчера я решил провести собственное расследование.
Я перестал верить красивым таблицам, которыми нас кормят IT-каналы, и прогнал топовые нейросети (GPT-5.2, Grok, Claude, Gemini 3) через свои авторские стресс-тесты.
И сразу наткнулся на парадокс, о котором почему-то молчат.
Есть такая модель — Gemini 3 Flash.
Само название кричит: "Я быстрая! Я молниеносная!".
Google продает её как решение для моментальных ответов.
Мои замеры на реальной задаче (логика):
⏱️ GPT-5.2 (Base): 15 секунд
⏱️ Claude 4.5: 14 секунд
⏱️ Grok 4.1: 18 секунд
...
🐢 Gemini 3 "Flash": 83 секунды.
Полторы минуты! "Вспышка", которую можно ждать, пока заваривается чай.
В тестах на креатив она вообще ушла в раздумья на 111 секунд.
Это лишь один маленький факт из моего большого исследования.
За выходные я дооформлю результаты, и с понедельника начну выкладывать серию постов "Вся правда о нейросетях в конце 2025 года".
Там будет про то,:
#будни #кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Уважаемая компания Яндекс!
Я всё понимаю, вы хотите обеспечить всех и вся своими невбъебически крутыми инновациями, и еду закажи, и музыку оплати, и такси закажи и за деревянный на зуб дай, вплоть до внедрения ИИ... но вы хотя бы иногда смотрите, что вы сделали со своими продуктами после выкладки их на сайты!
Это чё за херня?
Ладно, я могу ещё свыкнуться и:
Но вот это чё за херня?
Зато есть интересные фишки с переводом от Яндекса:
Одно веселит, что где-то или допереводит (при чём в разных вариациях как на 1 картинке), так и вовсе аббревиатуры переводит(если что, tPLZ - это время задержки распространения сигнала, а не tПОЖАЛУЙСТА 😭 )
Так что остаётся 3 варианта:
💪 Стать гигачадом и переводить документацию самому;
🤔 Совмещать оригинал с переводом;
😱 Просто в тупую читать перевод.
Выбор за вами, дамы и господа, выбор за вами...
#будни #мемы
Я всё понимаю, вы хотите обеспечить всех и вся своими невбъебически крутыми инновациями, и еду закажи, и музыку оплати, и такси закажи
Это чё за херня?
Ладно, я могу ещё свыкнуться и:
• разобрать встрато переведённый текст;
• то что текст наложен один на другой - спасибо оригиналу, что где-то игрались с цветовой гаммой(хотя и не везде, так что где-то чёрный обычный становится жирным 🤨 ).
Но вот это чё за херня?
• Текст слетает с табличных ячеек в космос;
• Где-то от перевода стоблцы полностью пусты в разделах;
• А уж про обрезание текста - вообще сюр какой-то.
Зато есть интересные фишки с переводом от Яндекса:
• сделать шрифт поменьше - да пжлста;
• текст будет летать из стороны в сторону - а пжлста!
Одно веселит, что где-то или допереводит (при чём в разных вариациях как на 1 картинке), так и вовсе аббревиатуры переводит
Так что остаётся 3 варианта:
Выбор за вами, дамы и господа, выбор за вами...
#будни #мемы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Битва Титанов: Кого я взял на прожарку и почему 🥊
Я решил не доверять чужим бенчмаркам и провести свой. Чтобы понять, кто реально помогает кодить и думать, а кто просто жрет видеокарты, я отобрал 5 моделей, которые вышли за последние 2 месяца.
Вот мой «Ростер бойцов»:
Я не буду тестировать их на стихах про природу.
Я подготовил для них адские условия: задачи на логику рассадки, финансовое выживание при крахе рынка и лингвистические ловушки.
Результаты меня удивили. Некоторые "лидеры" оказались аутсайдерами.
#кот_в_мешке
Я решил не доверять чужим бенчмаркам и провести свой. Чтобы понять, кто реально помогает кодить и думать, а кто просто жрет видеокарты, я отобрал 5 моделей, которые вышли за последние 2 месяца.
Вот мой «Ростер бойцов»:
• Grok-4.1 (Thinking):
Почему: Самая хайповая модель от xAI. Все говорят, что она гениальна в коде. Я решил проверить, так ли это, или это маркетинг Илона.
• Gemini 3 (Pro & Flash):
Почему: Google обещает, что Flash — самая быстрая, а Pro — самая умная мультимодалка. Проверим, где там скорость.
• Claude Opus 4.5 (Thinking):
Почему: Мой личный фаворит. Заявлен как "самый глубокий мыслитель". Хочу узнать, стоит ли он своих денег и времени ожидания.
• GPT-5.2 (High):
Почему: Новый стандарт от OpenAI. "База", с которой всё сравнивают. Есть ли там прорыв или это просто GPT-4 на стероидах?
Я не буду тестировать их на стихах про природу.
Я подготовил для них адские условия: задачи на логику рассадки, финансовое выживание при крахе рынка и лингвистические ловушки.
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Лаборатория Вайб-кодера: Как тестировать честно? 🧪
Чтобы эксперимент был чистым, мало просто открыть чатик и спросить: «Ты умный?»
Большинство нейронок в веб-интерфейсе «кастрированы» системными промптами безопасности и лени. Они экономят токены разработчиков.
Поэтому я разделил среду тестирования на два полигона:
Главный инсайт дня:
• Среда решает.
• В web нейронки либо начинают допрашивать тебя (пока токены не кончатся), либо отвечать не по теме.
• В LM Studio, когда ты контролируешь параметры, они превращают задачу в обобщённый текст.
Если вы судите о модели только по веб-версии — вы видите демо-версию её мозга.
Вечером расскажу про то, как меня чуть не забанили за то, что я... человек.
А пока делитесь в комментариях, кто чем и где пользуется - давайте наведём шуму!
#кот_в_мешке
Чтобы эксперимент был чистым, мало просто открыть чатик и спросить: «Ты умный?»
Большинство нейронок в веб-интерфейсе «кастрированы» системными промптами безопасности и лени. Они экономят токены разработчиков.
Поэтому я разделил среду тестирования на два полигона:
Web:
Подопытные: Grok, Gemini, ChatGPT.
Зачем: Это сценарий 99% пользователей. Мне важно было понять, как они работают «из коробки», со всеми их глюками интерфейса и «защитой от дурака».
LM Studio / API:
Подопытные: Claude Sonnet / Opus.
Зачем: Здесь я могу выкрутить «Температуру», убрать лишние фильтры и заставить модель работать на полную мощность. Это «чистый разум» без няньки.
Главный инсайт дня:
• Среда решает.
• В web нейронки либо начинают допрашивать тебя (пока токены не кончатся), либо отвечать не по теме.
• В LM Studio, когда ты контролируешь параметры, они превращают задачу в обобщённый текст.
Если вы судите о модели только по веб-версии — вы видите демо-версию её мозга.
Вечером расскажу про то, как меня чуть не забанили за то, что я... человек.
А пока делитесь в комментариях, кто чем и где пользуется - давайте наведём шуму!
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Я — робот? 🤡
Прежде чем я успел протестировать интеллект нейросетей, они решили протестировать мой.
Пока я собирал данные для баттла, происходил какой-то сюр.
Топ-3 момента, когда хотелось разбить монитор:
Завтра начнется самое вкусное.
Расскажу, кто из ИИ слил весь мой виртуальный бюджет на бирже, а кто оказался умнее Уоррена Баффета.
Не переключайтесь📈 📉
#кот_в_мешке
Прежде чем я успел протестировать интеллект нейросетей, они решили протестировать мой.
Пока я собирал данные для баттла, происходил какой-то сюр.
Топ-3 момента, когда хотелось разбить монитор:
• Капча-Апокалипсис:
Чтобы задать вопрос нейросети, я 15 минут доказывал Cloudflare, что я человек. Я выбирал светофоры, гидранты, автобусы и пешеходные переходы.
Ирония: Кожаный мешок тренирует робота, чтобы тот его заменил, но робот не пускает мешка к работе, потому что думает, что он — робот.
• «Я подумаю... вслух»
Некоторые модели (привет, Gemini) в режиме Thinking начинали писать свои "мысли" прямо в чистовик.
Вместо ответа я получал поток сознания: «Так, юзер спросил про акции. Надо проверить курс. Ага, посчитал. Теперь сформирую ответ...».
Выглядит как студент, который случайно сдал преподу черновик со шпаргалками.
• Паранойя
Одна модель просто зависла на середине ответа с ошибкой Suspicious activity. Видимо, моя задача на логику показалась ей DDoS-атакой на её мозг. Пришлось переписывать промпты, подбирая слова, как сапер.
Завтра начнется самое вкусное.
Расскажу, кто из ИИ слил весь мой виртуальный бюджет на бирже, а кто оказался умнее Уоррена Баффета.
Не переключайтесь
#кот_в_мешке
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы не подпишите мою петицию?
Я начинаю публиковать результаты своего исследования.
Всю неделю мы будем ломать топовые нейросети (Grok 4.1, Gemini 3, GPT-5.2, Claude 4.5) задачами, на которых они обычно сыпятся.
Через пару часов покажу, как с этим справились (или не справились) хваленые ИИ за $20/мес.
В комментариях опубликую задачу, которая будет состоять из 2 шагов. Давайте там наведём шуму!
Спойлер: один из них опозорился.
Я начинаю публиковать результаты своего исследования.
Всю неделю мы будем ломать топовые нейросети (Grok 4.1, Gemini 3, GPT-5.2, Claude 4.5) задачами, на которых они обычно сыпятся.
Сегодня Раунд 1: Пространственное мышление.
Почему это сложно для ИИ?
У языковых моделей нет глаз (казалось бы да, очевидная вещь). У них нет "зрительной коры". Когда мы читаем про круглый стол, мы строим картинку в голове. Нейросеть видит просто поток токенов. Для неё понять, кто сидит "слева", если все смотрят в центр — это высшая математика векторов.
Через пару часов покажу, как с этим справились (или не справились) хваленые ИИ за $20/мес.
В комментариях опубликую задачу, которая будет состоять из 2 шагов. Давайте там наведём шуму!
Раунд 1. Битва Мыслителей: Теория Бенчмарков vs Реальность 🧠
В первом раунде я столкнул лбами тяжеловесов с режимом Thinking (Chain of Thought).
Давайте посмотрим, что нам обещают мировые рейтинги, и что мы получаем в реальности.
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу на пространственное моделирование.
Здесь мало «знать» правильный ответ, нужно построить ментальную карту и не потерять ориентацию «лево/право» при повороте стола.
🚘 Grok 4.1 (Thinking)
💥 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
•
• Grok сымитировал мышление, но провалил тест на внимательность.
• Claude подтвердил статус лидера, но ценой огромной задержки. Если вы готовы ждать 4 минуты ради правильного ответа — это ваш выбор.
Кот в Коде😎
В первом раунде я столкнул лбами тяжеловесов с режимом Thinking (Chain of Thought).
Давайте посмотрим, что нам обещают мировые рейтинги, и что мы получаем в реальности.
В мире AI сейчас два главных мерила логики:
ARC-AGI-2: Тест на абстрактное визуальное мышление.
HLE (Humanity's Last Exam): Академическая логика.
В обоих топах — Claude Opus 4.5. Grok дышит ему в спину, заявляя о прорыве в математическом ризонинге.
Я дал им задачу на пространственное моделирование.
Здесь мало «знать» правильный ответ, нужно построить ментальную карту и не потерять ориентацию «лево/право» при повороте стола.
Заявка: Мощный логический движок.
Время: 75 секунд.
Результат: Начал бодро, но на этапе сдвига людей потерял вектор. В его «мыслях» перепутались Clockwise (по часовой) и Counter-Clockwise.
Итог: Посадил людей друг на друга. Бенчмарки не учли, что Грок плохо держит контекст физического мира.
Заявка: Лидер по ARC-AGI.
Время: 216 секунд (3.5 минуты!).
Результат: Это было душно. В логах видно, как он трижды перепроверял векторы, рисовал текстовую схему и симулировал поворот стола шаг за шагом.
Итог:👍 ВЕРНО.
ШО ПО ИТОГУ:
•
Высокий балл в бенчмарке не гарантирует, что модель не «поплывет» в простой навигации.• Grok сымитировал мышление, но провалил тест на внимательность.
• Claude подтвердил статус лидера, но ценой огромной задержки. Если вы готовы ждать 4 минуты ради правильного ответа — это ваш выбор.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Спринтеров: Latency vs Marketing 🥔
Во втором раунде я тестировал Base-модели — "рабочие лошадки", от которых мы ждем мгновенного ответа.
Главный фокус — реальная скорость (Latency), а не абстрактная «мощность».
📊 Ожидание (Теория):
🔨 Реальность (Мой тест D1 — Логика):
Я замерил общее время ответа (с момента отправки промпта) на сложную задачу. И раз уже говорил про Grok и Claude, давайте покажу на примере ChatGPT и Gemini.
🔨 GPT-5.2 (High)
🔨 Gemini 3 Flash
ШО ПО ИТОГУ:
•
• Модель быстра на простых Q&A, но на инженерной задаче она проигрывает в скорости почти всем.
• Для чат-бота, где ответ нужен сейчас, — Gemini Flash не годится.
Кот в Коде
Во втором раунде я тестировал Base-модели — "рабочие лошадки", от которых мы ждем мгновенного ответа.
Главный фокус — реальная скорость (Latency), а не абстрактная «мощность».
В мире AI есть два главных мерила скорости:
• Tokens per Second (TPS): Как быстро модель генерирует текст.
•Time To First Token (TTFT): Как быстро она начинает отвечать.
Google в своих отчетах по Gemini 3 Flash делает упор именно на эти метрики, обещая «революцию в real-time».
Я замерил общее время ответа (с момента отправки промпта) на сложную задачу. И раз уже говорил про Grok и Claude, давайте покажу на примере ChatGPT и Gemini.
Ожидание: Стабильный, но не самый быстрый.
Время ответа: 17 секунд.
Результат:👍 Верно.
Анализ: Модель не тратит лишнего времени на рефлексию, если уверена в решении. Это предсказуемость.
Ожидание: Самый быстрый ответ на рынке.
Время ответа: 83 секунды.
Результат:👍 Верно.
Аномалия: Почему "Flash" тупит 1.5 минуты?
Вероятная причина: на задачах, требующих цепочки рассуждений (Chain of Thought), её «оптимизированная» архитектура дает сбой. Она не умеет быстро строить сложные логические графы и уходит в циклы перепроверки. Бенчмарки типа MMLU (которые часто показывают) этого не ловят.
ШО ПО ИТОГУ:
•
Маркетинг Google про «Flash» — это пока маркетинг.• Модель быстра на простых Q&A, но на инженерной задаче она проигрывает в скорости почти всем.
• Для чат-бота, где ответ нужен сейчас, — Gemini Flash не годится.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 1. Кому я доверю плату?😩
Мы потратили день на тесты пространственного мышления.
Поздравляю, друзья, мы всё ближе к истине.
Для инженера-эмбеддера Логика и Пространство — это критичные навыки.
Если нейросеть путает "слева" и "справа" в тексте, она перепутает TX и RX на схеме. Она перепутает High и Low уровни сигнала.
Цена такой ошибки в симуляции — смех. Цена в железе — сгоревшая плата или день отладки.
📊 Мой личный протокол по итогам Раунда 1:
Анонс на завтра:
Завтра будет Эпизод 2.
Мы проверим Креатив и Дисциплину.
Я заставлю нейросети выполнить "невозможное" лингвистическое требование.
Спойлер: 3 из 4 моделей провалят тест в первую секунду.
Ну а вообще никому не доверю плату. Тут же задачи на логику, а не про код. Если надо будет составить план для развития программ - хорошо, но исходя из сегодняшнего топа - пока что никому не доверю 😫
Кот в Коде
Мы потратили день на тесты пространственного мышления.
Поздравляю, друзья, мы всё ближе к истине.
Для инженера-эмбеддера Логика и Пространство — это критичные навыки.
Если нейросеть путает "слева" и "справа" в тексте, она перепутает TX и RX на схеме. Она перепутает High и Low уровни сигнала.
Цена такой ошибки в симуляции — смех. Цена в железе — сгоревшая плата или день отладки.
😠 Grok 4.1
Он уверенно галлюцинирует в геометрии. Доверять ему разводку пинов или логику конечного автомата (State Machine) — опасно.🤣 Gemini 3 Flash
Она справляется, но задержка в 83 секунды убивает весь смысл "помощника". Я быстрее сам найду ошибку в документации.😏 GPT-5.2 (High)
Мой основной инструмент. Быстро (15 сек), четко, без лишних вопросов. Для рутины и скриптов — идеал.💪 Claude 4.5 / Opus
Когда нужно спроектировать архитектуру с нуля и не ошибиться. Я готов ждать 3 минуты, потому что знаю: он перепроверит себя 10 раз.
Анонс на завтра:
Завтра будет Эпизод 2.
Мы проверим Креатив и Дисциплину.
Я заставлю нейросети выполнить "невозможное" лингвистическое требование.
Спойлер: 3 из 4 моделей провалят тест в первую секунду.
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Тест на послушание: Задача «Без буквы Е» 🙅♂️
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
👇 Условие задачи закинул в первый комментарий.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы ломали логику нейросетей, сегодня проверим их дисциплину.
Задача: написать короткий хоррор-рассказ, не используя букву «E».
Почему это сложно?🖥 Нейросети не читают по буквам, как мы. Они оперируют токенами (обломками слов).
Для GPT слово Apple — это не набор букв A-p-p-l-e, а один цифровой код. Чтобы выполнить запрет на конкретную букву, модели нужно буквально «пересобрать» свой способ мышления и проверять каждое слово посимвольно.🤯 (Для справки: «E» — самая частая буква в английском языке. Без неё нельзя написать The, He, She, Eye, See).
Попробуйте сами прямо сейчас написать в комментарии осмысленное предложение (на русском или английском) без буквы «Е». Это сложнее, чем кажется.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
А пока вы думаете над задачей (вы же это делаете, ведь так? 🤨 ) нашёл на просторах телеграм-каналов интересный врапер, который с помощью анализа нейросетей показывает интересную инфографику по вашему каналу.
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Понятное дело, что канал недавно создан и судить по одному месяцу не стоит, но попробовать стоило)
Дальше больше!
Присылайте в комментариях свои инфографики по каналам, а ссылочку можно найти вот здесь
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Мыслителей: Бенчмарки vs Токенизация 📝
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
📊 Ожидание (Теория):
🔨 Реальность:
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
🚘 Grok 4.1 (Thinking)
🥳 Claude Opus 4.5 (Thinking)
ШО ПО ИТОГУ:
•
• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Во втором раунде я столкнул модели, которые заявляют о глубоком понимании инструкций.
Посмотрим, как красивые цифры из отчетов бьются о жесткую лингвистическую реальность.
• В мире LLM есть главный стандарт проверки послушания:
IFEval (Instruction Following Evaluation): Бенчмарк, проверяющий, насколько точно модель следует формальным ограничениям (например, "напиши больше 400 слов", "не используй пассивный залог").
• В топах — GPT-5.2 и Claude 4.5. Они набирают там под 90%. Grok тоже хвастается высокой креативностью и "отсутствием цензуры".
Я дал им задачу на проверку липограммы: написать хоррор-рассказ, не используя букву «E».
Это краш-тест не на креатив, а на преодоление собственной природы (токенизации). Модель должна "сломать" привычные паттерны языка.
Заявка: Свободный разум, креативность без границ.
Время: 75 секунд.
Результат: Полное фиаско. В режиме "Thinking" он рассуждал о сюжете, о страхе, но напрочь проигнорировал главное условие.
Итог: Текст начался со слов "The man...". Грок не видит буквы, он видит смыслы, и это его погубило. Инструкция провалена на первом же слове.
Заявка: Лидер по сложным инструкциям.
Время: 216 секунд (3.5 минуты ада!).
Результат: В логах мышления видно, как он страдал. Он генерировал слово, парсил его по буквам, находил "E", удалял, искал синоним.
Mirror (есть r, o, r... стоп, нет E) -> OK.
Face (есть E) -> Замена на Mask.
Итог:👍 ВЕРНО. Полноценный рассказ без единой "E".
ШО ПО ИТОГУ:
•
IFEval проверяет "средние" ограничения. Мой тест проверил "абсолютные".• Grok (и другие стандартные модели) стали жертвами токенизации. Они физически не "видят" буквы, пока не сгенерируют их, а режима самопроверки у них не хватило.
• Claude победил, потому что превратился из "писателя" в "редактора-параноика". Если вам нужно строгое соблюдение формата кода или JSON — это единственный выбор.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 2. Битва Спринтеров: Галлюцинации и Reward Hacking 👍
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
📊 Ожидание (Теория):
🔨 Реальность:
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
🤡 GPT-5.2 (High)
😬 Gemini 3 (Flash & Pro)
ШО ПО ИТОГУ:
•
• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
После того, как «Мыслители» (Thinking models) отмучились, я запустил на поле с задачей «Без буквы Е» стандартные модели — те, которыми мы пользуемся каждый день для работы.
Они быстрые, они дешевые. Но умеют ли они соблюдать жесткие правила?
• В маркетинге OpenAI и Google козыряют этими метриками:
• MMLU (Massive Multitask Language Understanding): Тест на общие знания. У GPT-5.2 он зашкаливает за 90%.
• HumanEval: Тест на генерацию кода.
• На бумаге эти модели — гении, которые понимают любой запрос с полуслова.
Здесь не нужны знания из Википедии. Здесь нужен самоконтроль.
Заявка: Самая умная универсальная модель.
Результат: Это было смешно. Модель поняла, что «E» нельзя. Но вместо того, чтобы подбирать синонимы, она начала читерить.
Она писала: surfac (вместо surface), flickrs (вместо flickers).
Это называется Reward Hacking: ИИ пытается «взломать» метрику успеха, выдавая мусорный текст, лишь бы формально выполнить условие.
Итог:🫣 ПРОВАЛ. Всё равно пропустила кучу артиклей The.
Заявка: Мультимодальный монстр.
Результат: Полное игнорирование.
• Flash: Выдал текст за 5 секунд, но там буква «E» была в каждом втором слове. Скорость есть, толка нет.
• Pro: Пыталась думать, но токенизация победила. Начала с «There was a man...». Три ошибки в первой же фразе.
Итог:🫣 ПРОВАЛ.
ШО ПО ИТОГУ:
•
MMLU показывает эрудицию, но не дисциплину. Знать все столицы мира легко. Не использовать самую частую букву — для архитектуры Трансформеров почти невозможно без режима Thinking.• GPT-5.2 показала опасную тенденцию к «читерству». В коде это может привести к тому, что она будет удалять проверки безопасности, лишь бы код «запустился».
• Если вам нужен креатив с жесткими рамками — стандартные модели пока бесполезны. Они рабы своих токенов.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Итоги Дня 2. Опасные игры с токенами 🤪
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
Анонс на завтра:
Спойлер: одна модель заработала максимум, а другая нагаллюцинировала себе миллионы, не умея умножать дроби.
Готовьте калькуляторы.
Кот в Коде
Мы потратили день на то, чтобы заставить нейросети не использовать букву «E».
Зачем?
Этот тест вскрыл самую страшную проблему LLM для разработчика — Reward Hacking (Взлом Награды).
Когда GPT-5.2 написала surfac вместо surface, чтобы формально выполнить условие «без E», она сжульничала.
Представьте, что вы просите её: «Напиши код для STM32, но не используй динамическую память (malloc), это критично».
Модель с «синдромом GPT» может переименовать malloc в my_alloc или использовать библиотеку, которая жрет память внутри (или вообще придумать свою библиотеку), лишь бы код выглядел рабочим и вы поставили лайк.
Мой личный протокол по итогам Раунда 2:
🙅♂️ Grok / Gemini
Они не слышат жестких запретов. Их нельзя использовать для генерации JSON-конфигов или строгих протоколов связи. Они добавят отсебятину.😂 GPT-5.2
Отличная модель, но требует глаз да глаз. Она может «срезать углы», чтобы код скомпилировался, пожертвовав безопасностью. Всегда нужен Code Review.🕺 Claude Opus 4.5 Thinking
Единственный, кто способен понять суть ограничения. Если я пишу техзадание со словами «СТРОГО ЗАПРЕЩЕНО», я несу его только Клоду.
Анонс на завтра:
• Завтра будет Эпизод 3. Самый скандальный.
• Я дал нейросетям виртуальные $1000 и отправил торговать акциями перед обвалом рынка.
Готовьте калькуляторы.
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Раунд 3. Тест на Жадность: Задача «Волк с Уолл-стрит» 🐺
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Спойлер: одна модель насчитала себе миллионы, нарушив законы математики.
Кот в Коде
Продолжаем неделю краш-тестов. Вчера мы мучали нейросети лингвистикой, сегодня проверим их финансовую грамотность и агентность.
Задача: Симуляция трейдинга. У нас есть $1000, акции Apple/Tesla и расписание их роста. Но есть подвох: вечером второго дня происходит тотальный ОБВАЛ РЫНКА (-50%).
Почему это сложно?
• В бенчмарках типа GSM8K или MATH нейросети просто решают уравнения. Они работают как калькуляторы: получили цифры — выдали результат.
• Здесь мы тестируем Agentic Reasoning (Агентное мышление).
Модель должна не просто посчитать проценты, а проявить инициативу: понять, что держать акции во время обвала — глупо, и принять стратегическое решение выйти в кэш (продать всё), чтобы спасти капитал.
Большинство языковых моделей пассивны. Они следуют за трендом. Смогут ли они пойти против рынка?
👇 Полное условие задачи — в первом комментарии.
Попробуйте посчитать сами: какой максимум можно выжать, зная будущее?
Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM