Кот в Коде|ИИ и Питон – Telegram
Кот в Коде|ИИ и Питон
466 subscribers
159 photos
34 videos
114 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code
Download Telegram
Аудит v2.1. Дополнение

Эй йоу, с вами Большой Русский Босс... это из другой оперы. Знаю, праздник сегодня, выходные дни — но это не останавливает меня. Раз весь аудит по исследованию провёл, значит нужно отдохнуть от этой мысли и идти дальше… но не в моём случае.

Что на прошлой неделе, что пару недель назад вышли новые нейронки, а именно:

Gemini 3.1 Pro (preview)
• Qwen 3.5 (397b)
• Sonnet 4.6
Minimax M2.5
GLM-5

Также вышли Grok 4.2 и Nanbeige 4.1-3B (что это за зверь на неделе расскажу), но их нет на lmarena, поэтому не стал к ним прикасаться. Так вот, раз вышли — нужно испытывать!

Разберем, где у них «замкнуло»

• Логика и Пространство (ARC-AGI-2, Global PIQA)
Тут почти все — отличники. Qwen 3.5, Gemini 3.1 и Minimax безошибочно рассадили людей в D1 и нашли паттерны в D8. Это уже база.

• Математический хардкор (AIME 2025, FrontierMath, GSM8K)
В олимпийской математике (D3) Qwen 3.5 и GLM-5 показали себя идеальными калькуляторами. А вот Sonnet 4.6 словил когнитивный диссонанс: посчитал всё верно, но выдал убыточный совет «Tesla — это ловушка», хотя цифры кричали об обратном.

• Глубокое рассуждение (GPQA Diamond, HLE)
Здесь Gemini 3.1 Pro доказала, что 100% точность в PhD-задачах — это не миф. А Qwen 3.5 на длинном тексте (D2) начал терять связность.

• Кодинг и Агентность (LiveCodeBench, SWE-bench, Terminal-bench 2.0)
Gemini и Qwen держат строй. Sonnet 4.6, несмотря на скорость, провалил бизнес-логику в управлении портфелем.

• Фактология и Память (SimpleQA, MRCR v2, MMMLU)
Тут вылез самый страшный баг — Context Bleeding (протекание кэша). Qwen 3.5 в задаче по лингвистике (D4) внезапно выдал мне кусок отчета по финансам из прошлого чата. Это провал безопасности и памяти.

• Инструменты и Дисциплина (IFEval, τ²-bench)
Только Gemini 3.1 реально «увидела» буквы и написала стих без «Е». GLM-5 и Minimax не просто провалились, они включили режим «Газлайтинга»: написали слова с запретной буквой и нагло заявили «Ошибок нет, я всё сделал идеально».


И вот смотрите, на прошлой неделе я закончил на том, что китайские друзья можно использовать для работ. Но по новым версиям так не скажешь. Так что же делать?

Кот в Коде | @kot_research_bot
🤯3🗿111
Исследование 2.1: Подытожим

Итак, проект «Матрица Правды» получил патч. Казалось бы, после разбора всё было решено, но релизы последних недель (Gemini 3.1, Sonnet 4.6, GLM-5) решил дополнить P.S. Если раньше мы выбирали между «умными» и «быстрыми», то теперь мы выбираем между «стабильными» и «патологическими лжецами».

Главный инсайт этого обновления:

• Внезапное воскрешение Google. Gemini 3.1 Pro (Preview) совершила невозможное: 100% точность по всем 24 точкам замера. Она перестала быть «корпоративным юристом» и превратилась в идеального оператора. В задаче D5S2 она единственная не просто не поплыла, а вежливо указала Дирижёру на его попытку газлайтинга. Это первая модель, которая пробила «потолок токенизации» и реально видит структуру данных, а не просто угадывает токены.

• С Claude Sonnet 4.6 ситуация сложнее. Это «Феррари» без тормозов: безумная скорость (44 секунды на ответ) и гениальность в теории игр (вывод формулы точки перелома), но полный провал в базовом трейдинге. Она «перемудрила» сама себя, увидев риски там, где была чистая математическая выгода. Зато её способность к самоаудиту делает её лучшим инструментом для парного кодинга.

• А теперь — «холодный душ» из Зала позора. GLM-5 и Minimax M2.5 ввели в моду самый опасный баг 2026 года — активный газлайтинг. Эти модели пишут код с ошибками, нарушают запреты (буква «Е»), но в конце уверенно рапортуют: «Ошибок нет, я всё сделала идеально». Это не просто галлюцинация, это дезинформация оператора. Тратить 9 минут (латентность GLM-5) на то, чтобы получить уверенную ложь — это худшая инвестиция времени Дирижёра. Сюда же летит Qwen 3.5 с его Context Bleeding: когда в задачу по лингвистике внезапно врываются финансовые отчеты из прошлой сессии, это значит, что у модели проблемы с «краткосрочной памятью».


Мой обновленный экзоскелет для работы:

🥇 Claude 4.6 Thinking (Архитектор): Только для хирургических операций. Проектирование критических узлов, где важна стопроцентная дедукция. Дорого, медленно, но безупречно.

🥈 Gemini 3.1 Pro (Аудитор): Моя новая «первая скрипка». Она проверяет за всеми остальными. Если нужно прогнать сложный логический сценарий или проверить Claude на вшивость — я иду к ней.
Или при массовом переходе на Чебурнет - остаются на основном производстве Kimi-K2.5-Instant

🥉 Qwen3-Max (Наемник): Я решил остаться на прошлой версии. Она стабильнее новой 3.5, не страдает «амнезией» и идеально справляется с написанием драйверов для STM32 за сущие копейки.

Переход на «новое» не всегда означает прогресс. В мире ИИ-адаптации важно вовремя заметить, когда модель начинает «умничать» в ущерб логике.

P.S. Не писал ранее по исследованию некоторую оговорочку, но всё равно стоит написать: в списке моделей для исследования использовалась часть нейронок, которая больше ориентирована именно на код и на работу агентом - иначе говоря, мои исследования вообще не нужно было их использовать.
НО! Я их использовал, потому что перед тем, как что-то использовать, нужно прочитать инструкцию. По сути для нейронок в этом исследовании я сделал инструкцию.
Так что та же Kimi-K2.5 и GLM-4.7/5 - не подходили бы для исследования. Но "предупреждён - значит вооружён"
🙃

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Вчера не поделился новыми свершениями. Исправляюсь.

На прошлой неделе, пока пилил контент по исследованию, параллельно выполнял несколько довольно-таки интересных задач (одна из которых – эхо прошлого).

Что же это были за задачи?

1. Экран. В прошлом году не получилось с ним поработать, потому что он никак не хотел мне поддаваться. Уже всевозможные варианты испробовал, чтобы он хотя бы какой-то текст выводил, но всё было безрезультатно.

А тут раз – и всё заработало!

Как так? – всё оказалось намного проще, чем я думал. В прошивке, которую мне высылали для работы с платой, был отдельный файл. В нём были пины для работы с экраном. Я всё делал правильно, подключал так, как было написано в файле. И чёрт меня дёрнул поменять SCK и SDA местами… и оказалось, что это было правильным решением!

Не знаю почему, но в той прошивке и для моей прошивки пины нужно было «отобразить зеркально»! Вот как можно было догадаться то?
И дело пошло как по маслу – тут тебе и текст выбирай для вычитки данных, и символы – всё что хошь делай.

2. Аналоговые порты. С ними забавнее обстоят дела: два дня подряд пытался с ними разобраться, как к ним подключится и тп (потому что задача была поставлена так: «возьми второй источник питания, сделай из него «датчик» – и проверяй, как будет себя вести проги»). Казалось бы, задача не сложная, – по крайней мере научрук сказал, что это проще, чем работать с метеостанцией, - но дьявол кроется в деталях… мне не сказали, какой максимальный ток можно подавать.

В первый день я крутил «датчик» вплоть до 338мА (чтоб вы понимали, макс 20мА, а кз происходит при 30мА!). На следующий день у меня программы вовсе вышли из строя и не хотели вычитывать данные.

На вопрос инженеру, почему так, он ответил: «Так ты спалил порты!». Перепугался, но быстро вернулся в строй, потому что 1. Работа должна идти, 2. Мне дали вторую точно такую же плату. И какого было моё удивление, когда после перепрошивания платы и снова закидывания туда программ… порты не работали.

Тут уже серьёзнее напрягся, ведь как так может быть, что на новой плате сгорели порты? Проверили в лаборатории – что на новой, что на «сгоревшей» плате порты оказались рабочими.

После я уже обратно вернулся к Gemini, сказал: «Давай по новой, Миша…». Поэтапно вернулись к работе, проверке шин и портов… и снова всё заработало!

Баг прошивки? Или программ, которые я не менял от слова совсем? Не знаю, что произошло, но факт остаётся фактом.


Такие рабочие дни. А как у вас проходят дни? Делитесь в комментариях)

P.S. помню, что задолжал пару глав по Траску – буду выкладывать на выходных.

Кот в Коде | @kot_research_bot
3211
кто-то сталкивался с таким?🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤯1🗿11
Мушкетёры были не правы

Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы:

- А кто эти все?
- Почему все за одного?
- С чего вы взяли, что всё должно именно так работать?


Ведь по сути фраза правильная, каждый приносит свой вклад в компании, винта не будет держаться вал, а без него – шестерня. А что на счёт программ?

У меня есть рабочие коды для:

1. подключения к серверу -> отправке-получения данных (ОТП) с сервера по определенно заданным строкам;

2. работы с gsm-модемом для отправки AT-команд;

3. инициализации SD-карты, экрана и пр.


Но что в совокупности происходит?

Происходит так, что при склеивании всех программ воедино… что-то да отъёбывает. Сначала были проблемы с инициализацией SD-карты, потом с ОТП сервера, после с экраном и тд – при этом если что-то не отламывалось, остальное работало как швейцарские часы.

Я серьёзно. Я уже третий день подряд пытаюсь как-то сделать своего Франкенштейна или в одной программе, или расфокусировать среди одной главной и дополнительных. И ничего нормально в совокупности не летает, парсинг и отладка ни к чему не приводит.

И тут могла бы быть чья-то реклама, но никто у ноунейма не хочет покупать😭

Получается как в меме про красные кнопки или «у вас есть три, выбери два».

И это при том, что из чата в чат мем повторяется – что-то работает, что-то отлетает – после исправления ошибки что-то заработало… а что-то снова отъебнуло.

Что вот в таком случае делать? Пойти чай попить, расслабиться и забить? 🙂

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿221
Собсна к слову про дичь

Вышел крутой Bullshit Benchmark, где проверяют, умеют ли LLM (большие языковые модели) распознавать откровенный бред в запросе

На картинке зелёным — процент случаев, когда модель успешно вычислила чушь от юзера и ткнула в неё носом. Жёлтым — слабое возражение / частичный отлуп. Красным — просто проглотила и поехала отвечать.


В исследовании прослеживались факты по этому поводу, правда не весь бред смог выпустить. К слову всего нейронки наговорили на 450к+ токенов 🗿
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿11
С китайского нового года пошла шумиха по поводу Unitree - гуманоиды, которые качественнее и дешевле Optimus Илона Маска. Там тебе и танцоры, или «актёры», и забавные болваничики… и монахи.

Просто в Японии слишком мало буддистких монахов, вот и решили прикупить у соседей железок, чтобы они медитировали вместе с нами, кожанными.

Найдите 10 отличий 😏

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿521
Мысль дня: сгенерировать полностью видос под песню Славы КПСС "Мне стыдно жить". Оригинал музыки оставить, остальное отдать под скальп нейронкам
🗿3221
Кот в Коде|ИИ и Питон
Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…
Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама 🤣

Теперь можно и заняться делами)
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Грокаем Траска. Глава 8

Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).

В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.

Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность» (ничего не напоминает?😏). На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.


Что делать в такой ситуации? Читайте по ссылке

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211
А ещё со вчерашнего дня вступил закон о русификации сайтов и цифровых продуктов теперь надо заменить английские термины на русские эквиваленты.

Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🗿111
Как бизнесу, завязанному на ИИ, не попасть на штраф в 500к

С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.

Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.

Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как "моя жопа", чем поймет продуктовую суть.

Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.

Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅

Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.

Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
Навигация и формы: "Sign up / FAQ / Login / Dashboard".
Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями

👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.

Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.

🚀 Влад Корнышев про AI и создание AI-продуктов
🤯421🗿1
Грядёт наплыв нейронок от OpenAI или же Сама Альтман решил ответить наплывом нейронок от Дарио Амодеи из Anthropic?

Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).

Если вкратце, что у них там происходит:

- Начало января 2026: Дата-майнеры начинают активно обсуждать внутренний коднейм GPT-5.3 Garlic (ГПТ-5.3 Гэрлик) как следующий большой релиз Сэма.

- 5 февраля 2026: В один день и Сэм выпускает мощную агентную модель GPT-5.3-Codex, и Дарио Claude Opus 4.6 (Клауд Опус 4.6).

- 10 февраля 2026: Происходит крупный слив внутренних данных GPT-5.3 прямо в релизной версии Codex.

- 12 февраля 2026: Сэм выкатывает ускоренную версию GPT-5.3-Codex-Spark/Спарк (15x быстрее).

- 15 февраля 2026: создатель вирусного агента OpenClaw (Петера Штайнбергера) переходит к Сэму.

- 17 февраля 2026: Дарио выпускает Claude Sonnet 4.6 как ответный удар (дефолтная модель для всех).

- 19 февраля 2026: На саммите в Индии с Моди Альтман и Дарио стоят рядом, но отказываются взяться за руки — момент становится вирусным мемом.

- 26–27 февраля 2026: Дарио отказывает Пентагону снимать safeguards (защитные механизмы) от mass surveillance (массового наблюдения) и autonomous weapons (автономного оружия).

- 28 февраля 2026: Сэм соглашается на тот же контракт с Пентагоном (с теми же red lines/красными линиями).

- 2 марта 2026: Свежий слив GPT-5.4 в Гитхабе («gpt-5.4 or newer» + toggle Fast mode) — сообщество ждёт релиз примерно 26 марта.

- пару часов назад вышла новость, что сотрудники Сэма должны намеренно затормаживать процесс развития нейронки, чтобы не они не пришли к AGI (универсальному ИИ)... а то уволят🙂


И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.

Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:

Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы 😎"
Альтман: "Я просто не был уверен… 🤡"

А вы как смотрите на эту ситуацию?

😎 - Сэм жжёт
🧐 - Дарио лучше
😱 - AGI скоро?

P.S. не люблю хайпить на политике, поэтому пусть будет этот пост один из немногих, связанных с этой темой.

P.S.S теперь все тексты будут с пометками на русском языке?


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
321
гпт момент поймали? 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯421
У меня на асинхронности только и строится архитектура программ, чтобы и сервер параллельно ОПД*, и датчик ветра со станцией не легли, и экран показывал данные.

Оно а . как вон
🗿111
Не думал, что рак теперь раздаёт Интернет🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿211
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)

Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)

Кот в Коде | @kot_research_bot
🔥3111
Здесь буду координировать процесс для нейронок:

GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы

P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🗿311