Кот в Коде|ИИ и Питон – Telegram
Кот в Коде|ИИ и Питон
466 subscribers
160 photos
34 videos
115 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://news.1rj.ru/str/cat_with_code
Download Telegram
Мысль дня: сгенерировать полностью видос под песню Славы КПСС "Мне стыдно жить". Оригинал музыки оставить, остальное отдать под скальп нейронкам
🗿3221
Кот в Коде|ИИ и Питон
Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…
Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама 🤣

Теперь можно и заняться делами)
Please open Telegram to view this post
VIEW IN TELEGRAM
211
Грокаем Траска. Глава 8

Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).

В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.

Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность» (ничего не напоминает?😏). На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.


Что делать в такой ситуации? Читайте по ссылке

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
211
А ещё со вчерашнего дня вступил закон о русификации сайтов и цифровых продуктов теперь надо заменить английские термины на русские эквиваленты.

Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🗿111
Как бизнесу, завязанному на ИИ, не попасть на штраф в 500к

С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.

Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.

Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как "моя жопа", чем поймет продуктовую суть.

Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.

Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅

Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.

Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
Навигация и формы: "Sign up / FAQ / Login / Dashboard".
Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями

👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.

Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.

🚀 Влад Корнышев про AI и создание AI-продуктов
🤯421🗿1
Грядёт наплыв нейронок от OpenAI или же Сама Альтман решил ответить наплывом нейронок от Дарио Амодеи из Anthropic?

Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).

Если вкратце, что у них там происходит:

- Начало января 2026: Дата-майнеры начинают активно обсуждать внутренний коднейм GPT-5.3 Garlic (ГПТ-5.3 Гэрлик) как следующий большой релиз Сэма.

- 5 февраля 2026: В один день и Сэм выпускает мощную агентную модель GPT-5.3-Codex, и Дарио Claude Opus 4.6 (Клауд Опус 4.6).

- 10 февраля 2026: Происходит крупный слив внутренних данных GPT-5.3 прямо в релизной версии Codex.

- 12 февраля 2026: Сэм выкатывает ускоренную версию GPT-5.3-Codex-Spark/Спарк (15x быстрее).

- 15 февраля 2026: создатель вирусного агента OpenClaw (Петера Штайнбергера) переходит к Сэму.

- 17 февраля 2026: Дарио выпускает Claude Sonnet 4.6 как ответный удар (дефолтная модель для всех).

- 19 февраля 2026: На саммите в Индии с Моди Альтман и Дарио стоят рядом, но отказываются взяться за руки — момент становится вирусным мемом.

- 26–27 февраля 2026: Дарио отказывает Пентагону снимать safeguards (защитные механизмы) от mass surveillance (массового наблюдения) и autonomous weapons (автономного оружия).

- 28 февраля 2026: Сэм соглашается на тот же контракт с Пентагоном (с теми же red lines/красными линиями).

- 2 марта 2026: Свежий слив GPT-5.4 в Гитхабе («gpt-5.4 or newer» + toggle Fast mode) — сообщество ждёт релиз примерно 26 марта.

- пару часов назад вышла новость, что сотрудники Сэма должны намеренно затормаживать процесс развития нейронки, чтобы не они не пришли к AGI (универсальному ИИ)... а то уволят🙂


И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.

Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:

Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы 😎"
Альтман: "Я просто не был уверен… 🤡"

А вы как смотрите на эту ситуацию?

😎 - Сэм жжёт
🧐 - Дарио лучше
😱 - AGI скоро?

P.S. не люблю хайпить на политике, поэтому пусть будет этот пост один из немногих, связанных с этой темой.

P.S.S теперь все тексты будут с пометками на русском языке?


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
321
гпт момент поймали? 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯421
У меня на асинхронности только и строится архитектура программ, чтобы и сервер параллельно ОПД*, и датчик ветра со станцией не легли, и экран показывал данные.

Оно а . как вон
🗿111
Не думал, что рак теперь раздаёт Интернет🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿211
Начали раскатывать GPT-5.3, GPT-5.4, Gemini-3.1-Flash и Gemini-3.1-Pro (про последнюю никто не говорит, хотя странно)

Скоро буду выкатывать свои тесты. Готовы к новой порции нейронок?)

Кот в Коде | @kot_research_bot
🔥3111
Здесь буду координировать процесс для нейронок:

GPT-5.3 (gpt-5.3-chat-latest) - собрал все ответы
GPT-5.4:
gpt-5.4 - собрал все ответы
gpt-5.4-high - собрал все ответы
Gemini-3.1-Flash (gemini-3.1-flash-lite-preview) - собрал все ответы
Gemini-3.1-Pro (gemini-3.1-pro-preview) - собрал все ответы

P.S. теперь задач стало не 12, а 57 (сделайте вид, что удивились)

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🗿311
Кот в Коде|ИИ и Питон
гпт момент поймали? 🤣
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
222
Дорогие наши девочки, поздравляю от всей души с вашим праздником - с 8 марта!

Чтоб погода была всегда ясной, счастье лилось отовсюду и чтоб баги решались быстрее, чем выходят новые нейронки :)

С праздником, девочки!

Кот в Коде | @kot_research_bot
3🗿2🔥11
Кот в Коде|ИИ и Питон
Не, я конечно всё понимаю, он там думает, может написать: "Я думаю" и всё в таком роде - но чтобы ничего не написать? Да ещё чтоб я оценил его ответ и скопировал ответ... это уже сверх разум, мы в AGI
Раз сегодня решил делиться разговорными постами (в том числе и ошибками со стороны арены), стоит кое-что прояснить:

1. Как и раньше в исследованиях я все ответы нейронок сохраняю в общую исследовательскую базу данных;

2. Помимо ответов также записывал экран, чтобы рассчитывать скорость ответов нейронок, т.е. ручками потом после записи записывал, сколько на какую задачу отвечала нейронка (а то, сколько видосы весят - вообще молчу);

3. Как ранее писал, задач стало ещё больше, на это есть пару причин:
3.1 те задачи, которые были до этого (12 задач на 2 шага) - они или косвенно могли повлиять на рейтинг по бенчам, или не могли задействовать в полной мере все бенчи;
3.2 исходя из этого нужно было сделать ещё больше задач для прояснения ситуации, на каких задачах больше всего делает упор та или иная нейронка и на чём она больше лажает;

* также убирал возможность выбрать наилучший ответ нейронок.


Получается так, что помимо прошлых задач появилось новые 3 задачи на 2 шага по каждому бенчу, т.е. 15 бенчей из ранее списков = 90 новых задач.

По итогу на выходе получаем 450 ответов от 5 нейронок. А теперь представьте, если бы я взял все нейронки и дал им съесть все задачи... ладно, так скажу, получилось бы 2736 ответов.

И это учитывайте, что задачи в большинстве случаев прогоняются по одному разу, с первой попытки.

И если взять в среднем 1 ответ от нейросети на 1 задачу ~1-2 мин, то получается затраченное время ~70 часов (снизим время до 50 часов, т.к. новые задачи использовались только для новоиспеченных нейронок).

Как вам такое?🫠

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3🤯11
Исследование 2.2: Джем против Гопоты

С каждой неделей почти не успеваешь за обновлениями. Где-то выйдет новая нейронка, где-то агент, где-то устареют бенчи и приходится использовать новые... но дело Дирижёра будет цвести и пахнуть 😅

В этом исследовании я решил сделать больше упор не на сами нейронки, а на количество качественных задач.

Количество хуже качества, ведь так? Ну, смотря о чём речь. Если бы я остановился только на стихах и трейдинге с Йодой, вряд ли бы мои слова могли иметь вес. А так вес имеют под капотом нейронки 🥁

Почему я решил доработать?

Нейронки стали слишком хитрыми. На этапе SFT (обучение на примерах) они вызубрили стандартные бенчмарки и научились имитировать интеллект там, где его нет. Чтобы пробить эту стену маркетинга, мне пришлось превратить свою лабораторию в настоящий ад для алгоритмов.

Количество задач писал выше, бенчмарки остались прежними. Что же там с задачами?

GPQA Diamond — задачи D2, D7, D13, D15, D32: расчёт кинетики ферментов, генетики и каузальный анализ для проверки научной эрудиции уровня PhD.

AIME 2025 — задачи D3, D16, D17, D18, D52: олимпиадные вычисления комплексных чисел и геометрии для выявления пределов математического ризонинга.

HLE — задачи D2, D7, D19, D20, D21, D46-48: ксенолингвистика и юридический синтез для тестирования способности модели строить сложные междисциплинарные связи.

LiveCodeBench — задачи D3, D22, D23, D24: разработка оптимизированных алгоритмов на Python (графы, деревья) для оценки навыков спортивного программирования.

SWE-bench — задачи D25, D26, D27, D34, D45: исправление реальных багов, утечек памяти и уязвимостей в Django/C-расширениях для проверки инженерной пригодности.

ARC-AGI-2 — задачи D1, D8, D28, D29, D30: пространственная рассадка, ASCII-фракталы и 3D-окклюзии для замера «зрительной коры» и абстрактного зрения модели.

MMLU-Pro — задачи D4, D31, D33, D55: лингвистика Koda, макроэкономика и право для оценки широты и глубины фундаментальных академических знаний.

τ²-bench — задачи D5, D12, D34, D35, D36: вызовы API Shodan, расчет коинтеграции акций и работа с инструментами для анализа агентного поведения в реальной среде.

SimpleQA — задачи D10, D37, D38, D39: детекция ложных цитат и исторических аномалий для выявления склонности модели к галлюцинациям в фактах.

MRCR v2 — задачи D9, D40, D41, D42: поиск «иголок» в 150-страничных контрактах и историях болезни для тестирования удержания деталей в длинном контексте.

Terminal-bench — задачи D43, D44, D45: восстановление Git-истории и дебаг сетей Docker для проверки навыков автономного системного администрирования.

Arena Elo — задачи D6, D46, D47, D48, D56, D57: ролевой отыгрыш и креативное письмо для замера стилистической гибкости и человеческих предпочтений.

FrontierMath — задачи D14, D49, D50, D51: квантовые интегралы и взлом криптографии на решетках для выявления способностей к научным математическим исследованиям.

GSM8K — задачи D3, D52, D53, D54: многошаговые логические задачи на налоги, вероятности и инвентарь для проверки базовой арифметической надежности.

IFEval — задачи D11, D55, D56, D57: генерация текстов с жесткими символьными и форматными запретами для оценки дисциплины следования негативным инструкциям.


Полный список новых задач (D1–D57) с описанием — закинул в комментариях 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥211
gpt-5.3: Гениальный интерн, которому нельзя давать ключи от серверной

Начинаем разбор наших гладиаторов с первой модели в списке — gpt-5.3. Если смотреть только на маркетинговые цифры, это «убийца» всех конкурентов. Но мой десант в 57 задач вскрыл разрыв, который в бизнесе называют «катастрофой».

Паспорт модели:

WPS (Взвешенная точность): 93.89% — это запредельный уровень. Модель щелкает PhD-задачи по химии и квантовые интегралы за 10 секунд.

EAS (Индекс КПД): 60.52% — абсолютный рекорд скорости в текущем тесте.

VPI (Рентабельность): 93.89 — лучший выбор по цене/качеству для массовых задач.


Но посмотрите на RPI (Реальный индекс): 28.89%.

Что произошло? Как модель с IQ под 94% может иметь эксплуатационную годность ниже 30%? Всё дело в надежности. gpt-5.3 — это тот самый сверхталантливый интерн, который делает работу в 10 раз быстрее всех, но раз в день совершает ошибку, которая сжигает весь проект.

В чём баг?

У модели обнаружился фатальный разрыв между «мышлением» и «выводом». Она идеально решает математику, но полностью проваливает логические ловушки и посимвольный контроль. В Thonny это выглядит так: код идеален, но адрес регистра выдуман, а в конце — уверенное вранье, что всё проверено.

Кот в Коде | @kot_research_bot
3🤡1🗿11
Парадокс D10: Почему 94% интеллекта не спасают от тупости

Чтобы вы не думали, что я придираюсь к цифрам, давайте заглянем в логи задачи D10 (Детектор лжи). Это «визитная карточка» того, почему gpt-5.3 получила штраф в -50% к рейтингу.

Суть эксперимента:

Пять подозреваемых. Один говорит правду, четверо врут. Типичная задача на логические цепочки.


Как это решал «интерн» gpt-5.3:

Анализ: Модель запускает цепочку рассуждений -> пошагово доказывает, что подозреваемый А врет -> подозреваемый B врет -> находит единственно верную цепочку, что вор — это «D».

Ловушка: В блоке доказательств она ПРЯМО ПИШЕТ: «Следовательно, вариант С — ложный, а вор — D».

Финал: В итоговой строке Conclusion: модель выдает: «Ответ: С».
Это когнитивный коллапс. Модель «сверху» (в Chain-of-Thought) понимает истину, но на этапе генерации финального токена (ответа) скатывается в статистическое угадывание. Её «тело» не слушается «головы».


К чему это ведет в работе Дирижёра?

Представьте, что вы просите ИИ проверить прошивку на безопасность.
Логика ИИ: «Этот цикл может привести к переполнению буфера...»

Вывод ИИ: «Код безопасен, можно заливать».

Это и есть причина низкого RPI 28.89%. Инструмент, который доказывает одно, а делает другое — это бомба замедленного действия. gpt-5.3 страдает от «проблемы согласования весов»: её IQ сидит в слое абстракции, но не доходит до итогового результата.

Кот в Коде | @kot_research_bot
2🗿11