Кот в Коде|ИИ и Питон – Telegram
Кот в Коде|ИИ и Питон
99 subscribers
88 photos
18 videos
45 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code
Download Telegram
Битва Спринтеров: Когда «Думать» вредно 🚬

Пока Грок косплеил магистра Йоду, а Клод тратил минуты на рефлексию, я запустил на лингвистический полигон стандартные модели — GPT-5.2 и Gemini 3.

Задача та же: выучить на лету язык Koda (порядок слов Объект-Субъект-Глагол) и переводить без ошибок.

📊 Ожидание:

• Это задача на Pattern Matching (распознавание шаблонов).

• Трансформеры изначально создавались именно для перевода. Здесь они должны быть в своей стихии.


🔨 Реальность:

📖 GPT-5.2 (High)

Время: 5 секунд.

Результат: Молниеносно. Никаких раздумий.
Eng -> Koda: «Squeakzo xZoomi...» (Верно).
Koda -> Eng: «The boy kicks...» (Верно).

Итог: 👍 ИДЕАЛЬНО. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.


📝 Gemini 3 (Flash & Pro)

Время: 8-9 секунд (Flash) / 24 секунды (Pro).

Результат: Тоже справились без ошибок.

Наблюдение: В этот раз Flash сработала реально быстро (не 80 секунд, как в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.

Итог: 👍 ВЕРНО.


ШО ПО ИТОГУ:

• Парадокс Интеллекта: В задачах на перевод и грамматику режим «Thinking» (как у Грока) может только мешать. Модель начинает «передумывать» и путаться в контексте.

• Базовые модели (GPT-5.2, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.

• Если ваша задача — перевод, рерайт или смена стиля текста, не тратьте деньги на дорогие Thinking-модели. Обычная GPT сделает это быстрее и дешевле.

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
111
Итоги Дня 4. Битва Лингвистов: OSV

📊 Мой личный протокол по итогам Раунда 4:

💪 GPT-5.2 (High)

Время: 5 секунд.

Результат: Молниеносно. Никаких раздумий.
• Eng -> Koda: Верно.
• Koda -> Eng: Верно.

Статус: Полиглот. Для неё это уровень 2-го класса. Она просто переставила токены местами, не пытаясь искать глубинный смысл там, где его нет.


🎹 Gemini 3 (Flash & Pro)

Время: 9 сек (Flash) / 24 сек (Pro).
Результат: Тоже справились без ошибок.

Статус: Исправившиеся.

Наблюдение: В этот раз Flash сработала реально быстро (9 секунд против 83 секунд в задаче на логику). Видимо, лингвистика — это единственное, что у Google оптимизировано хорошо.


🤔 Claude Opus 4.5 (Thinking)

Время: 6 секунд.

Результат: Четко по инструкции. Разобрал предложение на части речи, переставил, перевел.
В режиме Thinking даже не стал долго рефлексировать, просто выполнил алгоритм.

Статус: Профи. Полный контроль над синтаксисом.


😂 Grok 4.1 (Thinking)

Время: 8 секунд.

Результат: Грок так глубоко погрузился в роль инопланетянина, что забыл грамматику родного языка.
При обратном переводе он выдал: «The red balls the boy kicks» (Красные мячи мальчик пинает).

Статус: Залипший. Он сохранил чужую грамматику (OSV) в английском языке.


Инженерный вывод:

• Если у модели проблемы с Context Inertia (как Grok), она может начать писать вам документацию, используя синтаксис из прошлого куска кода. Или отвечать на русском, используя грамматику немецкого.

• Базовые модели (GPT, Gemini) щелкают такие задачи как орешки. Им не нужно рефлексировать, чтобы переставить слова местами.

• Для мультизадачности Grok Thinking пока сырой. Остальные модели доказали гибкость.

А завтра не забываем - у нас ГРАНД-ФИНАЛ. Кто же по итогу первым в таблице лидеров, а кто окажется ниже плинтуса?

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
1111
Я был с вами не до конца честен... 😞

Прошла неделя краш-тестов. Цифры в таблицах выглядят солидно, но пришло время заглянуть «под капот».

Моё исследованиеэто не лабораторная работа в MIT, это Эмпирическое исследование на коленке.

Чтобы вы доверяли результатам так же, как я, я должен признать два важных момента:

1️⃣ Текстовый фокус.

Все задачи были в формате текста. Именно поэтому мы затронули только те бенчмарки, которые отвечают за «мозги», а не за «глаза» или «уши» нейронок:

ARC-AGI-2 — пространственное мышление и визуальная логика (тест D1: рассадка за столом).

Humanity's Last Exam (HLE) — глубокое рассуждение и работа с жесткими ограничениями (тест D2: липограмма).

AIME 2025 — математика и сложные финансовые вычисления (тест D3).

Toolathlon — многоступенчатое планирование и агентность (тест D3: принятие решений).

Vending-Bench 2 — удержание контекста и долгосрочная когерентность (тест D3: сценарий с обвалом).

SWE-bench Verified — способность модели действовать как автономный агент (тест D3: выбор стратегии).

MMMLU — мультиязычность и понимание структуры языка (тест D4: лингвистика Koda).

Global PIQA — здравый смысл и бытовая логика в разных контекстах (тесты D1 и D4).


Бенчи по анализу видео, аудио и сложных PDF (вроде OmniDocBench) остались за бортом. Это осознанное ограничение: я тестировал умение моделей думать и кодить, а не распознавать форматы файлов.

2️⃣ Единый полигон (LMArena).

Я не прыгал по вкладкам официальных сайтов и не замерял Claude в LM Studio. Все тесты проводились на LMArena.

Почему это важно?

• Это «ход конём», который уравнял всех в правах. Если бы я тестил их в разных средах, Claude могла бы думать в три раза дольше просто из-за нагрузки на серверы Anthropic в этот момент.

• Арена дала нам чистую скорость реакции «здесь и сейчас» на одном и том же «железе».

• Да, та же Gemini Flash в web обгоняет GPT-5.2 по субъективному ощущению скорости, но это условия конкретного ринга.


Зачем я это всё нагородил?

Чтобы проверить «маркетинговую морковку» на вшивость. Я ограничен ресурсами одного рабочего ноутбука, но этого достаточно, чтобы понять: кто из них реально тянет лямку, а кто просто красиво рисует графики в пресс-релизах.

Посмотрите итоговую таблицу еще раз — теперь вы знаете, как она ковалась.

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
311
Вайб-кодер или Дирижёр оркестра? 🔈

Так зачем же мне вообще эти тесты, если нейронки и так всё умеют?

Слушайте, я провозгласил себя Вайб-кодером. Это не значит, что я не умею писать код сам. Умею. Но мне... впадлу. Я инженер, и я ищу способы хакнуть жизнь: получить максимум профита при минимуме усилий.

Нейронки — мои «цифровые джуны». Они невероятно умные, но склонны к галлюцинациям. Если дать им полную свободу без надзора, они построят дом из спагетти.

Я в этой цепочке — Дирижёр.
Краш-тесты этой недели помогли мне распределить роли в моем оркестре:

GPT-5.2 — моя «первая скрипка». Ей я делегирую математику, планирование стратегий и архитектуру. Она стабильна и предсказуема.

Claude 4.5 — «фортепиано» для сложной логики. Когда нужно решить задачу с безумными ограничениями (привет, липограмма!), только она берет нужную ноту.

Gemini и Grok — ударные и треугольник. Иногда они сбиваются с ритма, но незаменимы для скорости или специфических творческих вбросов.


Зачем мне всё это?

Чтобы в нужный момент дернуть за упряжку и сказать: «Стоп, ты пишешь дичь. Откат. Делаем по-другому». Только я знаю, как должна звучать симфония (работающий проект), а они просто играют ноты.

Не бойтесь ошибок нейросетей. Ошибка — это просто этап отладки. Главное — знать, когда взять в руки экскаватор, а когда — микроскоп. Теперь мы знаем возможности этих инструментов «на вшивость».


А какой инструмент в вашем оркестре лажает чаще всего? Пишите в комментах. 👇

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
311
Бенчмарки vs Реальность: Кто рисует цифры? 😏

Меня достали красивые графики в пресс-релизах. Маркетологи рисуют нейронкам невероятные показатели, чтобы мы, как ослики, бежали за новой морковью 😋

Но когда доходит до реальной работы, морковка часто оказывается пластиковой 😐

Посмотрите на мою итоговую таблицу (колонка Delta). Это разрыв между «обещаниями» официальных тестов и моими «краш-тестами» на коленке.

Давайте переведем эти скучные названия на человеческий:

ARC-AGI-2 (Визуальная логика):

Маркетологи говорят, что модели здесь «почти как люди». Мой тест с рассадкой за столом (D1) показал: GPT-5.2 реально монстр в пространственном мышлении (+82% к официальной стате), а вот Gemini и Claude просто держатся на плаву.

• Humanity's Last Exam (HLE) (Глубокое рассуждение):

Это «босс» среди тестов на логику. И на нем случился самый громкий провал. Когда я попросил написать историю без буквы «Е» (D2), большинство моделей совершило цифровое самоубийство. Дельта ушла в глубокий минус (до -37%). В жизни ИИ всё ещё пасует перед жесткими рамками.

• AIME 2025 (Математика):

Тут цифры ближе к правде. В торговой игре (D3) GPT подтвердила статус отличника, выдав 100% точность в расчетах. А вот Grok улетел в галлюцинации, нарисовав прибыль в $4861 там, где её быть не могло.

• Toolathlon (Планирование):

Способность выстраивать цепочку решений. В моей финансовой задаче (D3) модели должны были решить, когда покупать, а когда переждать. Результаты показали: планировать «на бумаге» ИИ умеет, но найти реально прибыльный маршрут в динамике смогли не все (дельта до +70%).

• Vending-Bench 2 (Удержание контекста):

Тест на «память». Нужно было удержать условие обвала рынка на 2-й день (D3). Некоторые модели теряли нить к финалу расчетов — это наглядный пример того, как когерентность рассыпается при долгой работе.

• SWE-bench Verified (Агентность):

Способность действовать как автономный профи. В выборе стратегии (D3) модели работали не просто как калькуляторы, а как агенты. GPT-5.2 High подтвердила лидерство (+20%), а Grok и Gemini часто путались в собственных выводах.

• MMMLU (Лингвистика):

Понимание структуры языка. Тест с переводом на выдуманный язык Koda (D4) прошли почти все. Это самая сильная сторона нейронок — они отлично схватывают новые грамматические правила на лету.

• Global PIQA (Здравый смысл):

Бытовая логика. Я проверял её через рассадку (D1) и правила языка (D4). Большинство моделей не лажают в «базе», но показывают огромный разрыв (до -43% у Grok), когда здравый смысл нужно совместить со сложной инструкцией.


ШО ПО ИТОГУ:

Официальный бенчмарк — это как паспортный расход топлива у машины: в идеальных условиях, под горку и с попутным ветром. Мой тест — это реальная езда по пробкам с включенным кондеем.


Верьте не цифрам в таблицах, а своим рукам и реальности (для меня это логам в Thonny). Разрыв между теорией и практикой огромен, и теперь у нас есть карта этого минного поля.

Какая модель по результатам таблицы удивила вас больше всего? Обсудим в комментах. 👇

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
311
ШО? ОПЯТЬ?

Год кончается, его сменяет новый. А это значит, что уже надо начинать подводить итоги года.

Посмотрел итоги в Яндекс музыке и вот какие тезисы выявил:

1️⃣ Тройка лидеров остаётся прежней, только последние места меняются из года в год. Любимые исполнители третий год подряд всё равно остаются на месте (Отдельный респект Quok - херачит каждый год, за его отдельно люблю)

2️⃣ Как год начнёшь - так его и проведешь, да?

3️⃣ Неожиданно, но у меня есть отдельные жанры, которые я чаще всего слушаю (а я всё думал, что я меломан🔈)

Делитесь в комментариях, у кого что вышло в части музыки - интересно посмотреть)

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
221
А вы как подводите итоги года?

Не только в Яндекс музыке можно подвести в итоге. В этом году Сэм Альтман из OpenAI решил раздать всем Новогодний праздник - и каждый может в нём поучаствовать!

Делаем всё строго по инструкции:

Включаем НПВ (Американский - 100% работает) -> пишем кодовую фразу в новый чат (ниже можно будет её скопировать) -> нажимаем на "Начать" -> Поздравляю, теперь вы узнали о себе за этот год вместе с ChatGPT!


Вот секретная фраза:

my year with chatgpt


Что интересного я для себя подчеркнул из итога:

1️⃣ В первой половине года много общался с gpt -> как итог вошёл в 5% первых пользователей (а что вы хотели, к выпуску диплома надо ж было как-то готовится😄)

2️⃣ Выражать свою бурю эмоций через нецензурную лексику (ну а чё если он блять не понимает) даёт свои плоды

3️⃣ Не смотря на то, что фактически я его предал - всё равно в глазах остался интересной персоной (если бы он ещё не общался как инфоцыган - вообще была бы сказка😎)

А что за видео по середине и как его сделать?

После всех подведений итогов с gpt разрешают (спасибо, что за бесплатно) сделать 1 видео с вами.

Для этого нужно нажать "Попробуйте Sora в ChatGPT" -> отправить в чате любую фотку (я отправил Коди) -> пару минут и - ву-аля! - у вас ваше персональное видео!


Делитесь, какое у вас подведение итогов, будет интересно посмотреть)

Кот в Коде
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
211