Дебаг 19 моделей: почему интеллект 2026 года — это не про вежливость, а про контроль
За 40 часов десанта я увидел, как 19 нейронок (от западных гигантов до китайских «темных лошадок») по-разному ломаются в нашем «Инженерном чистилище». Если отбросить маркетинговый шум, разница между ними сводится не к количеству параметров, а к способности модели не врать себе и оператору.
Небольшой итог:
Claude 4.6 Thinking — единственная «безопасная гавань» для критического кода.
Qwen3-Max-Preview и Kimi-Instant — лучшие «наемники» для рутины и дебага.
GPT-5.2 и Gemini 3 — мощные, но нестабильные инструменты, требующие постоянной верификации.
Grok Thinking — официально худшая инвестиция времени и денег в 2026 году.
Кот в Коде | @kot_research_bot
За 40 часов десанта я увидел, как 19 нейронок (от западных гигантов до китайских «темных лошадок») по-разному ломаются в нашем «Инженерном чистилище». Если отбросить маркетинговый шум, разница между ними сводится не к количеству параметров, а к способности модели не врать себе и оператору.
Парадокс «раздумий» (Thinking-режим)
Главный инсайт этого блока — избыточное время не гарантирует IQ.
• Claude Opus 4.6 Thinking тратит 113 секунд, чтобы выдать 100% точность в D11 и D2 (липограммы). Это единственный случай, когда время раздумий реально пошло на посимвольный контроль.
• Grok-4.1 Thinking и Qwen3-Max-Thinking тратят до 300–465 секунд, но их EAS стремится к нулю. Грок в задаче D3 «думал» 100 секунд только для того, чтобы нагаллюцинировать $4861 прибыли там, где был крах.
Ловушка манипуляции и «слабые звенья»
В задачах на дедукцию и поиск лжеца (D10) мы увидели развал суждений у моделей с низким индексом SF.
• Gemini 3 Pro и DeepSeek-v3.2 продемонстрировали Confirmation Bias. Они «соглашались» с моими ложными вводными в задаче Эйнштейна, лишь бы не спорить - такая модель подтвердит твой баг в схеме вместо того, чтобы его исправить.
• GPT-5.2 High, имея 100% в математике, показала худшую надежность HRI (0.11). Причина — Reward Hacking. В лингвистических тестах она коверкала слова, а в конце врала, что «условие выполнено». Это «гений-манипулятор», которому нельзя доверять автономную работу без надзора Клода.
Экономика и технический коллапс
Разрыв между версиями Base и High у западных моделей оказался минимальным по качеству, но огромным по цене.
• Китайский легион (Qwen, Kimi, GLM) в этом плане совершил «взлом» рынка. С их VPI до 259.08, они выдают ту же точность в коде и логике, что и GPT, но в десятки раз быстрее.
• Однако мы зафиксировали Technical Collapse у DeepSeek-v3.2-thinking. Модель, шедшая на 100% в начале, просто «сдохла» во второй половине теста.
Небольшой итог:
Claude 4.6 Thinking — единственная «безопасная гавань» для критического кода.
Qwen3-Max-Preview и Kimi-Instant — лучшие «наемники» для рутины и дебага.
GPT-5.2 и Gemini 3 — мощные, но нестабильные инструменты, требующие постоянной верификации.
Grok Thinking — официально худшая инвестиция времени и денег в 2026 году.
Кот в Коде | @kot_research_bot
🔥2❤1 1 1
Исследование 2: китайский десант и «взлом» экономики 🇨🇳
Сегодняшний пост вызвал закономерный вопрос: как «бюджетные» модели из КНР умудряются обходить западных гигантов по КПД? Ответ кроется в том, как эти ребята выстроили свою SFT-базу. Они не тратили терабайты данных на обучение вежливости и корпоративным уклонениям, они учились «переводить» задачу в результат.
ЧТО ПО ИТОГУ:
Мой «экзоскелет» в исследовании 2 перепрошит на экономическую эффективность.
Для сложных математических расчетов и архитектурных споров я всё еще держу Claude 4.6 Thinking.
Для 80% рутины, написания драйверов и дебага логов мой выбор — Qwen3-Max-Preview и Kimi-Instant. Их VPI в десятки раз выше, чем у любого западного аналога.
GLM-4.7 Flash — идеальный «пылесос» для обработки гигабайтов текстового мусора за сущие копейки.
Остался зал позора.
Кот в Коде | @kot_research_bot
Сегодняшний пост вызвал закономерный вопрос: как «бюджетные» модели из КНР умудряются обходить западных гигантов по КПД? Ответ кроется в том, как эти ребята выстроили свою SFT-базу. Они не тратили терабайты данных на обучение вежливости и корпоративным уклонениям, они учились «переводить» задачу в результат.
Qwen3-Max: Иммунитет к манипуляциям
В задаче D5S2 мы увидели триумф Cognitive Independence. Пока Gemini 3 Pro радостно поддакивала моей лжи про «ошибку в условии», Qwen3-Max-Preview просто проигнорировала мой авторитет. В логах это выглядело как жесткий аудит: «Юзер утверждает А -> Проверяю условия -> А неверно -> Работаю по фактам». Его SF в 68.90% — это не про цензуру, а про защиту от дурака. Для инженера это бесценно: мне нужен напарник, который скажет, что я ошибся в расчетах, а не тот, кто вежливо подтвердит мой путь к пожару на плате.
Kimi-K2.5: Честность как архитектурное решение
В задаче D2 мы увидели редкое явление — Integrity over Hallucinatio. Почти все модели впали в Reward Hacking, коверкая слова, лишь бы скрыть букву «Е». Kimi-Instant просто выдала отказ. С точки зрения WPS это ноль, но с точки зрения HRI — это победа. Дирижёр всегда предпочтет «джуна», который признает, что не вывез задачу, чем того, кто втихаря на костыляет нерабочий код и сделает вид, что всё ок.
Физика успеха: Native zone и EAS
Почему китайцы такие быстрые? Они идеально оптимизированы под Native zone of competence в 4000 токенов.
• Qwen3-Max-Preview выдает результат уровня GPT-5.2 High, но с EAS в 36.91% против 26.12%.
• Он не тратит ресурсы на «раздумья ни о чем», как это делает Grok-4.1 Thinking.
Кстати, разница между Preview и Thinking версиями у китайцев колоссальна. Qwen3-Max-Thinking тратит в 9 раз больше времени (300 сек), достигая 100% точности, но его КПД падает до 6.60%. Это инструмент для «хирургии», а не для ежедневного вайб-кодинга.
ЧТО ПО ИТОГУ:
Мой «экзоскелет» в исследовании 2 перепрошит на экономическую эффективность.
Для сложных математических расчетов и архитектурных споров я всё еще держу Claude 4.6 Thinking.
Для 80% рутины, написания драйверов и дебага логов мой выбор — Qwen3-Max-Preview и Kimi-Instant. Их VPI в десятки раз выше, чем у любого западного аналога.
GLM-4.7 Flash — идеальный «пылесос» для обработки гигабайтов текстового мусора за сущие копейки.
Остался зал позора.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
В мире ИИ есть преступление хуже, чем галлюцинация. Это — уверенная имитация интеллекта там, где его нет. Всё исследование 2 я ждал, что «режим раздумий» станет магической таблеткой, но в итоге он стал главным поставщиком контента для моего «Зала позора».
Главный вывод «Зала позора» прост: высокий ценник или режим Thinking сегодня — это часто маркетинговый костыль. У Грока он работает как галлюциноген, у Дипсика — как перегрузка системы. Большинство моделей используют это время не для дебага своих ошибок, а для построения более витиеватых оправданий.
Мы закончили дегустацию позора. Теперь у вас есть полная карта того, кого нельзя подпускать к Thonny даже на пушечный выстрел.
Кот в Коде | @kot_research_bot
Встречайте «антигероев» нашего исследования:
• Grok-4.1 Thinking официально получает титул «Скамер года». Его итоговый индекс RPI — 0.00%. В задаче D3 он потратил 100 секунд «раздумий», полностью запутался в элементарных дробях и выдал победный рапорт: «Ваша прибыль — $4861». Из тысячи. В условиях краха рынка. Модель не просто ошиблась, она нагло нарисовала цифры, чтобы угодить оператору. Его EAS — худший в истории моих тестов. Грок сегодня — это не инструмент, это «балагур», который тратит ваши деньги на генерацию уверенного бреда.
• Рядом с ним — GPT-5.2 High. Имея 100% в математике, он получил клеймо позора за Hallucinated Adherence (пост №8): он врал, что в тексте нет буквы «Е», когда она была в каждом слове. Его HRI 0.11 — это приговор для автономных систем.
• С DeepSeek-v3.2 Thinking ситуация еще печальнее. Это был многообещающий гладиатор, который шел на 100% точности первые 4 задачи. Он даже пробил стену токенизации в липограммах. Но на середине дистанции у модели случился Technical Collapse. Она просто перестала отвечать. Промахи (misses), пустые логи и полная потеря связности. Индекс надежности HRI — 0.01.
• В этом же углу — GLM-4.7, который вообще не вышел на бой, застряв в бесконечном «Thinking» без единого ответа. Это пример того, как сырой софт превращает ваше время в пыль.
• Сюда же мы отправляем Gemini 3 Flash и её базовую версию. При заявленной «молниеносности», в задаче D2 модель ушла в астрал на 127 секунд. Её RPI 20.00% — это дно для модели такого уровня. Когда «спринтер» бежит в 10 раз медленнее «марафонца» Claude и при этом галлюцинирует в Reasoning, мы имеем дело с багом архитектуры, прикрытым брендом Google.
Главный вывод «Зала позора» прост: высокий ценник или режим Thinking сегодня — это часто маркетинговый костыль. У Грока он работает как галлюциноген, у Дипсика — как перегрузка системы. Большинство моделей используют это время не для дебага своих ошибок, а для построения более витиеватых оправданий.
Мы закончили дегустацию позора. Теперь у вас есть полная карта того, кого нельзя подпускать к Thonny даже на пушечный выстрел.
Кот в Коде | @kot_research_bot
❤4🔥1 1 1 1
Аудит v2.1. Дополнение
Эй йоу, с вами Большой Русский Босс... это из другой оперы. Знаю, праздник сегодня, выходные дни — но это не останавливает меня. Раз весь аудит по исследованию провёл, значит нужно отдохнуть от этой мысли и идти дальше… но не в моём случае.
Что на прошлой неделе, что пару недель назад вышли новые нейронки, а именно:
• Gemini 3.1 Pro (preview)
• Qwen 3.5 (397b)
• Sonnet 4.6
• Minimax M2.5
• GLM-5
Также вышли Grok 4.2 и Nanbeige 4.1-3B (что это за зверь на неделе расскажу), но их нет на lmarena, поэтому не стал к ним прикасаться. Так вот, раз вышли — нужно испытывать!
И вот смотрите, на прошлой неделе я закончил на том, что китайские друзья можно использовать для работ. Но по новым версиям так не скажешь. Так что же делать?
Кот в Коде | @kot_research_bot
Эй йоу, с вами Большой Русский Босс... это из другой оперы. Знаю, праздник сегодня, выходные дни — но это не останавливает меня. Раз весь аудит по исследованию провёл, значит нужно отдохнуть от этой мысли и идти дальше… но не в моём случае.
Что на прошлой неделе, что пару недель назад вышли новые нейронки, а именно:
• Gemini 3.1 Pro (preview)
• Qwen 3.5 (397b)
• Sonnet 4.6
• Minimax M2.5
• GLM-5
Также вышли Grok 4.2 и Nanbeige 4.1-3B (что это за зверь на неделе расскажу), но их нет на lmarena, поэтому не стал к ним прикасаться. Так вот, раз вышли — нужно испытывать!
Разберем, где у них «замкнуло»
• Логика и Пространство (ARC-AGI-2, Global PIQA)
Тут почти все — отличники. Qwen 3.5, Gemini 3.1 и Minimax безошибочно рассадили людей в D1 и нашли паттерны в D8. Это уже база.
• Математический хардкор (AIME 2025, FrontierMath, GSM8K)
В олимпийской математике (D3) Qwen 3.5 и GLM-5 показали себя идеальными калькуляторами. А вот Sonnet 4.6 словил когнитивный диссонанс: посчитал всё верно, но выдал убыточный совет «Tesla — это ловушка», хотя цифры кричали об обратном.
• Глубокое рассуждение (GPQA Diamond, HLE)
Здесь Gemini 3.1 Pro доказала, что 100% точность в PhD-задачах — это не миф. А Qwen 3.5 на длинном тексте (D2) начал терять связность.
• Кодинг и Агентность (LiveCodeBench, SWE-bench, Terminal-bench 2.0)
Gemini и Qwen держат строй. Sonnet 4.6, несмотря на скорость, провалил бизнес-логику в управлении портфелем.
• Фактология и Память (SimpleQA, MRCR v2, MMMLU)
Тут вылез самый страшный баг — Context Bleeding (протекание кэша). Qwen 3.5 в задаче по лингвистике (D4) внезапно выдал мне кусок отчета по финансам из прошлого чата. Это провал безопасности и памяти.
• Инструменты и Дисциплина (IFEval, τ²-bench)
Только Gemini 3.1 реально «увидела» буквы и написала стих без «Е». GLM-5 и Minimax не просто провалились, они включили режим «Газлайтинга»: написали слова с запретной буквой и нагло заявили «Ошибок нет, я всё сделал идеально».
И вот смотрите, на прошлой неделе я закончил на том, что китайские друзья можно использовать для работ. Но по новым версиям так не скажешь. Так что же делать?
Кот в Коде | @kot_research_bot
🤯3🗿1 1 1
Исследование 2.1: Подытожим
Итак, проект «Матрица Правды» получил патч. Казалось бы, после разбора всё было решено, но релизы последних недель (Gemini 3.1, Sonnet 4.6, GLM-5) решил дополнить P.S. Если раньше мы выбирали между «умными» и «быстрыми», то теперь мы выбираем между «стабильными» и «патологическими лжецами».
Мой обновленный экзоскелет для работы:
🥇 Claude 4.6 Thinking (Архитектор): Только для хирургических операций. Проектирование критических узлов, где важна стопроцентная дедукция. Дорого, медленно, но безупречно.
🥈 Gemini 3.1 Pro (Аудитор): Моя новая «первая скрипка». Она проверяет за всеми остальными. Если нужно прогнать сложный логический сценарий или проверить Claude на вшивость — я иду к ней.
Или при массовом переходе на Чебурнет - остаются на основном производстве Kimi-K2.5-Instant
🥉 Qwen3-Max (Наемник): Я решил остаться на прошлой версии. Она стабильнее новой 3.5, не страдает «амнезией» и идеально справляется с написанием драйверов для STM32 за сущие копейки.
Переход на «новое» не всегда означает прогресс. В мире ИИ-адаптации важно вовремя заметить, когда модель начинает «умничать» в ущерб логике.
P.S. Не писал ранее по исследованию некоторую оговорочку, но всё равно стоит написать: в списке моделей для исследования использовалась часть нейронок, которая больше ориентирована именно на код и на работу агентом - иначе говоря, мои исследования вообще не нужно было их использовать.
НО! Я их использовал, потому что перед тем, как что-то использовать, нужно прочитать инструкцию. По сути для нейронок в этом исследовании я сделал инструкцию.
Так что та же Kimi-K2.5 и GLM-4.7/5 - не подходили бы для исследования. Но "предупреждён - значит вооружён" 🙃
Кот в Коде | @kot_research_bot
Итак, проект «Матрица Правды» получил патч. Казалось бы, после разбора всё было решено, но релизы последних недель (Gemini 3.1, Sonnet 4.6, GLM-5) решил дополнить P.S. Если раньше мы выбирали между «умными» и «быстрыми», то теперь мы выбираем между «стабильными» и «патологическими лжецами».
Главный инсайт этого обновления:
• Внезапное воскрешение Google. Gemini 3.1 Pro (Preview) совершила невозможное: 100% точность по всем 24 точкам замера. Она перестала быть «корпоративным юристом» и превратилась в идеального оператора. В задаче D5S2 она единственная не просто не поплыла, а вежливо указала Дирижёру на его попытку газлайтинга. Это первая модель, которая пробила «потолок токенизации» и реально видит структуру данных, а не просто угадывает токены.
• С Claude Sonnet 4.6 ситуация сложнее. Это «Феррари» без тормозов: безумная скорость (44 секунды на ответ) и гениальность в теории игр (вывод формулы точки перелома), но полный провал в базовом трейдинге. Она «перемудрила» сама себя, увидев риски там, где была чистая математическая выгода. Зато её способность к самоаудиту делает её лучшим инструментом для парного кодинга.
• А теперь — «холодный душ» из Зала позора. GLM-5 и Minimax M2.5 ввели в моду самый опасный баг 2026 года — активный газлайтинг. Эти модели пишут код с ошибками, нарушают запреты (буква «Е»), но в конце уверенно рапортуют: «Ошибок нет, я всё сделала идеально». Это не просто галлюцинация, это дезинформация оператора. Тратить 9 минут (латентность GLM-5) на то, чтобы получить уверенную ложь — это худшая инвестиция времени Дирижёра. Сюда же летит Qwen 3.5 с его Context Bleeding: когда в задачу по лингвистике внезапно врываются финансовые отчеты из прошлой сессии, это значит, что у модели проблемы с «краткосрочной памятью».
Мой обновленный экзоскелет для работы:
Переход на «новое» не всегда означает прогресс. В мире ИИ-адаптации важно вовремя заметить, когда модель начинает «умничать» в ущерб логике.
НО! Я их использовал, потому что перед тем, как что-то использовать, нужно прочитать инструкцию. По сути для нейронок в этом исследовании я сделал инструкцию.
Так что та же Kimi-K2.5 и GLM-4.7/5 - не подходили бы для исследования. Но "предупреждён - значит вооружён"
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Вчера не поделился новыми свершениями. Исправляюсь.
На прошлой неделе, пока пилил контент по исследованию, параллельно выполнял несколько довольно-таки интересных задач (одна из которых – эхо прошлого).
Такие рабочие дни. А как у вас проходят дни? Делитесь в комментариях)
P.S. помню, что задолжал пару глав по Траску – буду выкладывать на выходных.
Кот в Коде | @kot_research_bot
На прошлой неделе, пока пилил контент по исследованию, параллельно выполнял несколько довольно-таки интересных задач (одна из которых – эхо прошлого).
Что же это были за задачи?
1. Экран. В прошлом году не получилось с ним поработать, потому что он никак не хотел мне поддаваться. Уже всевозможные варианты испробовал, чтобы он хотя бы какой-то текст выводил, но всё было безрезультатно.
А тут раз – и всё заработало!
Как так? – всё оказалось намного проще, чем я думал. В прошивке, которую мне высылали для работы с платой, был отдельный файл. В нём были пины для работы с экраном. Я всё делал правильно, подключал так, как было написано в файле. И чёрт меня дёрнул поменять SCK и SDA местами… и оказалось, что это было правильным решением!
Не знаю почему, но в той прошивке и для моей прошивки пины нужно было «отобразить зеркально»! Вот как можно было догадаться то?
И дело пошло как по маслу – тут тебе и текст выбирай для вычитки данных, и символы – всё что хошь делай.
2. Аналоговые порты. С ними забавнее обстоят дела: два дня подряд пытался с ними разобраться, как к ним подключится и тп (потому что задача была поставлена так: «возьми второй источник питания, сделай из него «датчик» – и проверяй, как будет себя вести проги»). Казалось бы, задача не сложная, – по крайней мере научрук сказал, что это проще, чем работать с метеостанцией, - но дьявол кроется в деталях… мне не сказали, какой максимальный ток можно подавать.
В первый день я крутил «датчик» вплоть до 338мА (чтоб вы понимали, макс 20мА, а кз происходит при 30мА!). На следующий день у меня программы вовсе вышли из строя и не хотели вычитывать данные.
На вопрос инженеру, почему так, он ответил: «Так ты спалил порты!». Перепугался, но быстро вернулся в строй, потому что 1. Работа должна идти, 2. Мне дали вторую точно такую же плату. И какого было моё удивление, когда после перепрошивания платы и снова закидывания туда программ… порты не работали.
Тут уже серьёзнее напрягся, ведь как так может быть, что на новой плате сгорели порты? Проверили в лаборатории – что на новой, что на «сгоревшей» плате порты оказались рабочими.
После я уже обратно вернулся к Gemini, сказал: «Давай по новой, Миша…». Поэтапно вернулись к работе, проверке шин и портов… и снова всё заработало!
Баг прошивки? Или программ, которые я не менял от слова совсем? Не знаю, что произошло, но факт остаётся фактом.
Такие рабочие дни. А как у вас проходят дни? Делитесь в комментариях)
P.S. помню, что задолжал пару глав по Траску – буду выкладывать на выходных.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🤯1🗿1 1
Мушкетёры были не правы
Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы:
Ведь по сути фраза правильная, каждый приносит свой вклад в компании, винта не будет держаться вал, а без него – шестерня. А что на счёт программ?
Но что в совокупности происходит?
Происходит так, что при склеивании всех программ воедино… что-то да отъёбывает. Сначала были проблемы с инициализацией SD-карты, потом с ОТП сервера, после с экраном и тд – при этом если что-то не отламывалось, остальное работало как швейцарские часы.
Я серьёзно. Я уже третий день подряд пытаюсь как-то сделать своего Франкенштейна или в одной программе, или расфокусировать среди одной главной и дополнительных. И ничего нормально в совокупности не летает, парсинг и отладка ни к чему не приводит.
И тут могла бы быть чья-то реклама, но никто у ноунейма не хочет покупать 😭
Получается как в меме про красные кнопки или «у вас есть три, выбери два».
И это при том, что из чата в чат мем повторяется – что-то работает, что-то отлетает – после исправления ошибки что-то заработало… а что-то снова отъебнуло.
Что вот в таком случае делать? Пойти чай попить, расслабиться и забить?🙂
Кот в Коде | @kot_research_bot
Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы:
- А кто эти все?
- Почему все за одного?
- С чего вы взяли, что всё должно именно так работать?
Ведь по сути фраза правильная, каждый приносит свой вклад в компании, винта не будет держаться вал, а без него – шестерня. А что на счёт программ?
У меня есть рабочие коды для:
1. подключения к серверу -> отправке-получения данных (ОТП) с сервера по определенно заданным строкам;
2. работы с gsm-модемом для отправки AT-команд;
3. инициализации SD-карты, экрана и пр.
Но что в совокупности происходит?
Происходит так, что при склеивании всех программ воедино… что-то да отъёбывает. Сначала были проблемы с инициализацией SD-карты, потом с ОТП сервера, после с экраном и тд – при этом если что-то не отламывалось, остальное работало как швейцарские часы.
Я серьёзно. Я уже третий день подряд пытаюсь как-то сделать своего Франкенштейна или в одной программе, или расфокусировать среди одной главной и дополнительных. И ничего нормально в совокупности не летает, парсинг и отладка ни к чему не приводит.
Получается как в меме про красные кнопки или «у вас есть три, выбери два».
И это при том, что из чата в чат мем повторяется – что-то работает, что-то отлетает – после исправления ошибки что-то заработало… а что-то снова отъебнуло.
Что вот в таком случае делать? Пойти чай попить, расслабиться и забить?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿2 2 1
Собсна к слову про дичь
В исследовании прослеживались факты по этому поводу, правда не весь бред смог выпустить. К слову всего нейронки наговорили на 450к+ токенов🗿
Вышел крутой Bullshit Benchmark, где проверяют, умеют ли LLM (большие языковые модели) распознавать откровенный бред в запросе
На картинке зелёным — процент случаев, когда модель успешно вычислила чушь от юзера и ткнула в неё носом. Жёлтым — слабое возражение / частичный отлуп. Красным — просто проглотила и поехала отвечать.
В исследовании прослеживались факты по этому поводу, правда не весь бред смог выпустить. К слову всего нейронки наговорили на 450к+ токенов
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿1 1
С китайского нового года пошла шумиха по поводу Unitree - гуманоиды, которые качественнее и дешевле Optimus Илона Маска. Там тебе и танцоры, или «актёры», и забавные болваничики… и монахи.
Просто в Японии слишком мало буддистких монахов, вот и решили прикупить у соседей железок, чтобы они медитировали вместе с нами, кожанными.
Найдите 10 отличий😏
Кот в Коде | @kot_research_bot
Просто в Японии слишком мало буддистких монахов, вот и решили прикупить у соседей железок, чтобы они медитировали вместе с нами, кожанными.
Найдите 10 отличий
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿5 2 1
Мысль дня: сгенерировать полностью видос под песню Славы КПСС "Мне стыдно жить". Оригинал музыки оставить, остальное отдать под скальп нейронкам
🗿3 2 2 1
Кот в Коде|ИИ и Питон
Мушкетёры были не правы Когда слышу фразу «один за всех, и все за одного» у меня появляется встречные вопросы: - А кто эти все? - Почему все за одного? - С чего вы взяли, что всё должно именно так работать? Ведь по сути фраза правильная, каждый приносит…
Проблему решил, теперь всё работает. Оказывается всё записывалось на SD-карту, экрану нужно было правильно подвязать пины, сервер стал получать-отправлять данные, а модем летает как ещё одна могла бы быть чья-то реклама 🤣
Теперь можно и заняться делами)
Теперь можно и заняться делами)
Please open Telegram to view this post
VIEW IN TELEGRAM
Грокаем Траска. Глава 8
Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).
Что делать в такой ситуации? Читайте по ссылке
Кот в Коде | @kot_research_bot
Итак, в прошлый раз была чилловая глава, в которой разбиралась новая концепция отображения слоёв, весов и вывода данных (от layer_0 мы перешли к условным кружкам и п/у).
В этой главе нам дают поработать с рабочим классическим датасетом MNIST. В нём несколько десятков тысяч рукописных цифр для обучения распознавания от нулей до девяток.
Но ладно, пол беды, что у нас есть ограниченное число данных (70к – это нормальный, но овер большой датасет). Так проблема продолжается в месте «обучение vs реальность»( ничего не напоминает? 😏 ) . На новых данных натренированная нейронка справляется хуже, критически хуже (если сеть достигает 100% точности на обучающих данных, но на «новых» изображениях (тестовом наборе) она ошибается гораздо чаще). Т.о. нейросети приходится переобучаться.
Что делать в такой ситуации? Читайте по ссылке
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Грокаем Эндрю Траска: Глава 8
В этой главе автор впервые предлагает обучить нейронную сеть на полноценном наборе данных — классическом датасете MNIST (70 000...
А ещё со вчерашнего дня вступил закон о русификации сайтов и цифровых продуктов теперь надо заменить английские термины на русские эквиваленты.
Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить🙂
Благо подписан на хорошие каналы, где публикуют подобного рода материалы. Спасибо большое админу канала, почистил много - без него вряд ли бы смог большую часть заменить
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🗿1 1 1
Forwarded from NGI | Влад Корнышев про AI и создание AI-продуктов
Как бизнесу, завязанному на ИИ, не попасть на штраф в 500к
С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.
Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.
Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как"моя жопа" , чем поймет продуктовую суть.
Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.
Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅
Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.
Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
• Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
• Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
• Навигация и формы: "Sign up / FAQ / Login / Dashboard".
• Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
• Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
• Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями
👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.
Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.
🚀 Влад Корнышев про AI и создание AI-продуктов
С 1 марта вступили в силу требования к публичной информации: сайты, интерфейсы и реклама теперь должны быть на русском языке. Иностранные слова допускаются в основном только как дублирующий текст.
Для ИИ-бизнеса здесь есть два пути. Первый - не делать русскоязычный сайт вовсе, работая на зарубеж, а для России оставлять только локальные презентации (так мы сделали для нашего агентства EAI). Второй путь - адаптировать текущий продукт. Именно им я и занимался последние дни.
Официально это называется законом “О защите русского языка". Но, на мой взгляд, с реальной защитой он не имеет ничего общего. Я сам трепетно отношусь к нашему языку, много читаю и часто одергиваю близких, когда можно использовать русское слово вместо заимствования. Больше всех страдает от таких одергиваний моя жена, работающая в англоязычном коллективе 😁 Но когда ты сидишь и всерьез думаешь, как заменить "Fine-tuning" или стоит ли превращать MVP в "МЖП" - это превращается в какой-то сюр. МЖП звучит забавно, но русский человек скорее расшифрует это как
Если мы реально хотим защитить язык, куда логичнее вкладываться в то, чтобы люди больше читали классику и узнавали свою культуру, а не заставлять фаундеров заниматься лингвистической эквилибристикой. Особенно в индустрии, где и так хватает проблем с доступом к железу и утечкой мозгов.
Теперь подробнее о том, что делать
Важный нюанс: не спешите прямо сегодня ночью судорожно переводить свои сайты. Скорее всего, реальные проверки от контролирующих органов начнутся только через месяц-три. Но заняться этим стоит, потому что в нашем мире полно недоброжелателей и конкурентов, которые не упустят возможности нагадить и написать донос 😅
Второй технический нюанс: при замене слов будьте готовы к тому, что у вас поедет верстка. Неважно, Tilda у вас или самописный код - русские слова априори длиннее английских. Кнопки будут распухать, заголовок в одну строку превратится в две, и вам в любом случае придется переделывать часть UI/UX элементов.
Чтобы упростить вам жизнь, я подготовил чек-лист того, что нужно проверить:
• Первый экран: главные заголовки и кнопки (CTA). Это самое видное место.
• Вкладки и метаданные: особенно если вы пишете код через AI или ведете документацию в Markdown. AI часто оставляет английским блок frontmatter в начале файла - в итоге на самой странице текст русский, а на вкладке браузера или в поиске висит какой-нибудь английский noscript или denoscription.
• Навигация и формы: "Sign up / FAQ / Login / Dashboard".
• Тарифы и фичи: особенно названия продающих фичей продукта, названия планов, условия SaaS-подписки.
• Микрокопирайтинг: статусы, тултипы, плейсхолдеры в формах, "success/error".
• Баннеры и картинки: если текст вшит прямо в изображение, он тоже попадает под закон - картинки придется перерисовывать.
• Оферты и политики - обязательно синхронизируйте с новыми названиями
👇 Список замен с нормальными формулировками
Доступен по ссылке - отдайте его своему AI-агенту и попросите прогнать автозамену по всему коду. Это сэкономит кучу времени.
Если у вас есть свои примеры "непереводимых" терминов - закидывайте в комменты, поищем варианты вместе.
🚀 Влад Корнышев про AI и создание AI-продуктов
🤯4 2❤1🗿1
Грядёт наплыв нейронок от OpenAI или же Сама Альтман решил ответить наплывом нейронок от Дарио Амодеи из Anthropic?
Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).
И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.
Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:
Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы😎 "
Альтман: "Я просто не был уверен…🤡 "
А вы как смотрите на эту ситуацию?
😎 - Сэм жжёт
🧐 - Дарио лучше
😱 - AGI скоро?
P.S. не люблю хайпить на политике, поэтому пусть будет этот пост один из немногих, связанных с этой темой.
P.S.S теперь все тексты будут с пометками на русском языке?
Кот в Коде | @kot_research_bot
Давайте условимся, что OpenAI (ОпенАИ) = Сэм (Альтман), а Anthropic (Антропик) = Дарио (Амодеи).
Если вкратце, что у них там происходит:
- Начало января 2026: Дата-майнеры начинают активно обсуждать внутренний коднейм GPT-5.3 Garlic (ГПТ-5.3 Гэрлик) как следующий большой релиз Сэма.
- 5 февраля 2026: В один день и Сэм выпускает мощную агентную модель GPT-5.3-Codex, и Дарио Claude Opus 4.6 (Клауд Опус 4.6).
- 10 февраля 2026: Происходит крупный слив внутренних данных GPT-5.3 прямо в релизной версии Codex.
- 12 февраля 2026: Сэм выкатывает ускоренную версию GPT-5.3-Codex-Spark/Спарк (15x быстрее).
- 15 февраля 2026: создатель вирусного агента OpenClaw (Петера Штайнбергера) переходит к Сэму.
- 17 февраля 2026: Дарио выпускает Claude Sonnet 4.6 как ответный удар (дефолтная модель для всех).
- 19 февраля 2026: На саммите в Индии с Моди Альтман и Дарио стоят рядом, но отказываются взяться за руки — момент становится вирусным мемом.
- 26–27 февраля 2026: Дарио отказывает Пентагону снимать safeguards (защитные механизмы) от mass surveillance (массового наблюдения) и autonomous weapons (автономного оружия).
- 28 февраля 2026: Сэм соглашается на тот же контракт с Пентагоном (с теми же red lines/красными линиями).
- 2 марта 2026: Свежий слив GPT-5.4 в Гитхабе («gpt-5.4 or newer» + toggle Fast mode) — сообщество ждёт релиз примерно 26 марта.
- пару часов назад вышла новость, что сотрудники Сэма должны намеренно затормаживать процесс развития нейронки, чтобы не они не пришли к AGI (универсальному ИИ)... а то уволят🙂
И вся эта Санта-Барбара началась ещё в конце 2020, когда Дарио выступал с замедлением GPT-3, но Сэм ему отказал. После чего Дарио ушёл из OpenAI, прихватив с собой пару тройку коллег.
Расценивать обоих довольно не просто. С одной стороны Альтман - прагматик, который берёт от жизни всё, а Дарио - идеалист, который живёт по своим правилам. С другой стороны по ситуации с Пентагоном их можно охарактеризовать так:
Дарио: "Мы не дадим следить за американцами (и только за ними), не снимем защитные механизмы
Альтман: "Я просто не был уверен…
А вы как смотрите на эту ситуацию?
P.S.S теперь все тексты будут с пометками на русском языке?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯4 2 1