Audio
Ок. Я всё протестировал сам.
Привожу примеры моих старых классических и новых актуальных генераций из Suno (модель 3.5) в сравнении с генерациями Eleven Labs Music (использовал одинаковые промты)
1. Samui - одна из моих первых генераций в Suno, автор текста Claude, промт "russian criminal romace music", получилось тогда очень достойно. ElevenLabs решил начать с поэтического вечера и ушел в никуда.
2. ChineseNewYear - трэк записанный для пробуждения моего сына в школу (автор слов - клод) в феврале этого года. Suno версия глубокая и интересная, ElevenLabs - как будто сыграно на синтезаторе простейшем + детский слабый вокал. Русские ударения не очень.
далее два новых трэка:
3. Code and Tequilla, слова придуманы сервисами, по музыке просил alt rock, brit pop и drum & bass одновременно. Получилось по разному. Suno явно без drum and bass, зато Eleven Lans опять не хватает силы и мощности.
4. 3AM in Boca, самый свежий трэк о взрослении. Billy Eilish x Cigarettes after Sex, слова - Claude Opus (отличные). По мне - опять точно выиграл Suno.
я безусловно вижу что Eleven Labs больше работают с вокалом, больше вариантов, разнообразия, но общая композиция Suno пока очень далека от них.
Сергей Булаев AI 🤖 - об AI и не только
Привожу примеры моих старых классических и новых актуальных генераций из Suno (модель 3.5) в сравнении с генерациями Eleven Labs Music (использовал одинаковые промты)
1. Samui - одна из моих первых генераций в Suno, автор текста Claude, промт "russian criminal romace music", получилось тогда очень достойно. ElevenLabs решил начать с поэтического вечера и ушел в никуда.
2. ChineseNewYear - трэк записанный для пробуждения моего сына в школу (автор слов - клод) в феврале этого года. Suno версия глубокая и интересная, ElevenLabs - как будто сыграно на синтезаторе простейшем + детский слабый вокал. Русские ударения не очень.
далее два новых трэка:
3. Code and Tequilla, слова придуманы сервисами, по музыке просил alt rock, brit pop и drum & bass одновременно. Получилось по разному. Suno явно без drum and bass, зато Eleven Lans опять не хватает силы и мощности.
4. 3AM in Boca, самый свежий трэк о взрослении. Billy Eilish x Cigarettes after Sex, слова - Claude Opus (отличные). По мне - опять точно выиграл Suno.
я безусловно вижу что Eleven Labs больше работают с вокалом, больше вариантов, разнообразия, но общая композиция Suno пока очень далека от них.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Для фанатов Cursor Composer и Claude Code – привет из дофаминовой петли!
Если вы, как и я, не представляете день без AI-агентов, это для вас.
Иногда кажется, что мы сами стали дополнениями к нашим инструментам. Забавно, правда? Я опаздываю на встречи, потому что всё время хочу нажать enter ещё один раз. Нейробиология говорит: это не шутка, а реальный процесс.
📍 Факт 1
Исследование Стэнфорда показало, что постоянное использование AI-инструментов создает хронический дефицит дофамина. Мы перестаем получать удовольствие от обычных достижений.
📍 Факт 2
Northwestern University обнаружил: когда мозг получает только позитивные сигналы (как при использовании автодополнения кода), он хуже учится на ошибках и теряет способность к глубокому анализу.
📍 Факт 3
Нейропсихологи выяснили, что дофамин отвечает не только за удовольствие, но и за прогнозирование наград. Когда код пишется за нас, мозг теряет важный механизм обучения.
5 практических советов для тех, кто не может без Cursor Composer и Claude Code
1. Техника интервалов
Работайте с AI-инструментами сессиями по 25-30 минут, затем делайте 5-10 минут перерыва для самостоятельного анализа.
Это восстанавливает дофаминовый баланс и сохраняет креативность.
2. Челлендж "Первый черновик"
Начинайте новые проекты без AI-помощников. Напишите первые 100 строк кода или первый драфт документа самостоятельно. Или хотя бы 20 минут обсудите план с СhatGPT. Это активирует нейронные пути, отвечающие за глубокое удовлетворение от преодоления.
3. Ритуал разбора ошибок
Когда что-то не работает, потратьте 10 минут на самостоятельный дебаг перед обращением к Claude Code. Это тренирует устойчивость к разочарованию и улучшает долговременную память.
4. Дневник промптов и решений
Записывайте свои лучшие промпты и решения, которые вы нашли сами.
Это создает "архив побед", который стимулирует выработку естественного дофамина при просмотре.
5. Техника "Сознательного усложнения"
Раз в неделю намеренно выбирайте задачу, которую решите без AI-помощников. Пусть будет сложно!
Преодоление трудностей создает глубокое нейрохимическое удовлетворение.
AI-инструменты - это суперсила. Но как и любая сила, они требуют баланса. Используйте Cursor Composer и Claude Code на полную, но не забывайте поддерживать свои собственные нейронные цепи в рабочем состоянии!
Сергей Булаев AI 🤖 - об AI и не только
Если вы, как и я, не представляете день без AI-агентов, это для вас.
Иногда кажется, что мы сами стали дополнениями к нашим инструментам. Забавно, правда? Я опаздываю на встречи, потому что всё время хочу нажать enter ещё один раз. Нейробиология говорит: это не шутка, а реальный процесс.
📍 Факт 1
Исследование Стэнфорда показало, что постоянное использование AI-инструментов создает хронический дефицит дофамина. Мы перестаем получать удовольствие от обычных достижений.
📍 Факт 2
Northwestern University обнаружил: когда мозг получает только позитивные сигналы (как при использовании автодополнения кода), он хуже учится на ошибках и теряет способность к глубокому анализу.
📍 Факт 3
Нейропсихологи выяснили, что дофамин отвечает не только за удовольствие, но и за прогнозирование наград. Когда код пишется за нас, мозг теряет важный механизм обучения.
5 практических советов для тех, кто не может без Cursor Composer и Claude Code
1. Техника интервалов
Работайте с AI-инструментами сессиями по 25-30 минут, затем делайте 5-10 минут перерыва для самостоятельного анализа.
Это восстанавливает дофаминовый баланс и сохраняет креативность.
2. Челлендж "Первый черновик"
Начинайте новые проекты без AI-помощников. Напишите первые 100 строк кода или первый драфт документа самостоятельно. Или хотя бы 20 минут обсудите план с СhatGPT. Это активирует нейронные пути, отвечающие за глубокое удовлетворение от преодоления.
3. Ритуал разбора ошибок
Когда что-то не работает, потратьте 10 минут на самостоятельный дебаг перед обращением к Claude Code. Это тренирует устойчивость к разочарованию и улучшает долговременную память.
4. Дневник промптов и решений
Записывайте свои лучшие промпты и решения, которые вы нашли сами.
Это создает "архив побед", который стимулирует выработку естественного дофамина при просмотре.
5. Техника "Сознательного усложнения"
Раз в неделю намеренно выбирайте задачу, которую решите без AI-помощников. Пусть будет сложно!
Преодоление трудностей создает глубокое нейрохимическое удовлетворение.
AI-инструменты - это суперсила. Но как и любая сила, они требуют баланса. Используйте Cursor Composer и Claude Code на полную, но не забывайте поддерживать свои собственные нейронные цепи в рабочем состоянии!
Сергей Булаев AI 🤖 - об AI и не только
3 41 21 14👎1
Вы наверное слышали, что вышла ChatGPT-5? Говорят неплоха в кодинге и уже доступна. Правда мне codex cli пишет что нет такой. Может я что то не так делаю? У меня таер 5-го уровня...
ЗАРАБОТАЛО!!!
Сергей Булаев AI 🤖 - об AI и не только
ЗАРАБОТАЛО!!!
Сергей Булаев AI 🤖 - об AI и не только
1 10 10 3
Исследователи из Стэнфорда протестировали GPT-4 на 476 реальных рандомизированных контролируемых исследованиях (RCT) с американскими респондентами. Корреляция между предсказаниями модели и реальными людьми достигла r ≈ 0,85!
GPT-4 справился на уровне экспертов даже с исследованиями, опубликованными после окончания его обучения - реальное обобщение, а не запоминание.
Команда Люка Хьюитта показала, что "цифровые участники" радикально ускоряют исследовательский процесс. Они позволяют тестировать гипотезы, оптимизировать дизайн экспериментов и рассчитывать размер выборки до запуска дорогостоящих офлайн-исследований. Пилотные тесты за часы вместо недель, поиск ошибок в дизайне без траты реальных бюджетов.
Николь Мейстер из той же команды обнаружила проблемы с распределением ответов - 𝐋𝐋𝐌 генерируют менее вариативные ответы и склонны к угождению. Решение? Генерация нескольких "виртуальных" участников на один запрос и использование "few-shot" подхода с историческими данными о распределениях. Помогает, но полностью воспроизвести человеческую вариативность не удается.
Модели уже интегрируются в исследовательские процессы: от пилотов до усиления статистической мощности в основных экспериментах. Но остаются риски культурных перекосов - LLM отражают не только данные, но и "убеждения" своей архитектуры.
Кстати будущие тесты ИИ придется проводить на неопубликованных или архивных данных, поскольку новые версии LLM получают доступ к свежим онлайн-материалам, что усложняет оценку их предсказательной точности.
Сергей Булаев AI 🤖 - об AI и не только
GPT-4 справился на уровне экспертов даже с исследованиями, опубликованными после окончания его обучения - реальное обобщение, а не запоминание.
Команда Люка Хьюитта показала, что "цифровые участники" радикально ускоряют исследовательский процесс. Они позволяют тестировать гипотезы, оптимизировать дизайн экспериментов и рассчитывать размер выборки до запуска дорогостоящих офлайн-исследований. Пилотные тесты за часы вместо недель, поиск ошибок в дизайне без траты реальных бюджетов.
Николь Мейстер из той же команды обнаружила проблемы с распределением ответов - 𝐋𝐋𝐌 генерируют менее вариативные ответы и склонны к угождению. Решение? Генерация нескольких "виртуальных" участников на один запрос и использование "few-shot" подхода с историческими данными о распределениях. Помогает, но полностью воспроизвести человеческую вариативность не удается.
Модели уже интегрируются в исследовательские процессы: от пилотов до усиления статистической мощности в основных экспериментах. Но остаются риски культурных перекосов - LLM отражают не только данные, но и "убеждения" своей архитектуры.
Кстати будущие тесты ИИ придется проводить на неопубликованных или архивных данных, поскольку новые версии LLM получают доступ к свежим онлайн-материалам, что усложняет оценку их предсказательной точности.
Сергей Булаев AI 🤖 - об AI и не только
1 18 7 3
ИИ-агенты становятся самостоятельными участниками процессов и меняют саму суть автоматизации. Исследование по самосовершенствующимся агентам как бы намекает, что мы на пороге новой эпохи: от банальных ИИ помощников к системам, которые сами себя улучшают, адаптируются и генерируют новые идеи прямо во время работы.
Я не сомневаюсь, эволюционирующие агенты скоро будут стандартом. А это значит, что вопросы контроля, тестирования и того, как мы будем с ними взаимодействовать, станут куда более острыми.
Сергей Булаев AI 🤖 - об AI и не только
• MASE-парадигма четко описывает коллективную эволюцию одиночных и мультиагентных систем на основе фидбэка из среды
• В медицине такие агенты уже обновляют диагностические протоколы по мере поступления данных, в финансах они перестраивают стратегии в реальном времени
• Формализованы “Три закона” самосовершенствующихся ИИ: выживать, превосходить, эволюционировать — как основа этики и безопасности
• Интеграция пространственного мышления и визуальных токенов повысила точность робототехники при меньших объемах данных
• Появился риск “model collapse” — деградация качества из-за переобучения на собственных данных; решение — сохранять часть оригинальных датасетов
• Введено понятие “cognitive associative autonomy” — способность находить новые инсайты через человеческоподобное контекстуальное мышление
• Emergent технология Recursive Regenerative AI (RRAI) снижает затраты на обучение за счет сжатия и регенерации данных при сохранении точности
• Microsoft улучшила GUI-grounding у веб-агентов: точность действий в интерфейсе выросла с 65% до более 90%
• В 2025 разрабатываются новые workflow-паттерны и бенчмарки для оценки долгосрочной адаптивности и безопасности
• Исследователи рассматривают self-evolving агентов как один из наиболее вероятных путей к ASI (Artificial Super Intelligence) Я не сомневаюсь, эволюционирующие агенты скоро будут стандартом. А это значит, что вопросы контроля, тестирования и того, как мы будем с ними взаимодействовать, станут куда более острыми.
Сергей Булаев AI 🤖 - об AI и не только
2 26 22 9👎2 1
303 американских романа о взрослении, написанных за век с 1922 по 2022 годы, были проанализированы ИИ.
Исследователи из Корнелла разобрали каждое слово с помощью эмбеддингов и нашли закономерности, которые тяжко не заметить.
История этих книг тесно связана с событиями нашей истории. После Второй мировой войны на западе в обществе активно продвигали образ женщины-домохозяйки и мужчины-кормильца.
Литература подхватила и подчеркнула этот посыл, одновременно отражая и поддерживая его. Подростки, читая такие книги, получали готовые сценарии жизни: мальчики – узкий спектр “мужских”, девочки – чуть шире, но всё ещё с набором стандартных черт.
Это исследование стало поводом для споров в издательствах и школах: как формировать списки литературы, чтобы подростки видели более разных героев?
Та же команда изучает книги из других стран и анализирует, как гендерные образы сочетаются с расой и сексуальностью.
Мне, как человеку исторически связанному с математикой, особенно интересно, что именно цифры точнее всего показывают, какие шаблоны мы носим из поколения в поколение… и какие лучше оставить там, где им место – в прошлом.
Сергей Булаев AI 🤖 - об AI и не только
Исследователи из Корнелла разобрали каждое слово с помощью эмбеддингов и нашли закономерности, которые тяжко не заметить.
• Женские персонажи чаще ассоциируются с заботой, домом и семейными ролями.
• Мужские герои – с действием, природой, физической активностью и сдержанностью.
• 1951 – 1981 годы стали пиком стереотипов в описаниях профессий, с сильным уклоном «домашнее предназначение» женщин.
• Женские образы по чуть чуть становятся разнообразнее и активнее.
• Мужские образы остаются жёсткими и однобокими, почти без эмоциональности.
• Девочки читают истории про оба пола, мальчики – исключительно про мальчиков.
• Сюжетные связи распределяются предсказуемо: у мальчиков – природа и животные, у девочек – люди и дом. История этих книг тесно связана с событиями нашей истории. После Второй мировой войны на западе в обществе активно продвигали образ женщины-домохозяйки и мужчины-кормильца.
Литература подхватила и подчеркнула этот посыл, одновременно отражая и поддерживая его. Подростки, читая такие книги, получали готовые сценарии жизни: мальчики – узкий спектр “мужских”, девочки – чуть шире, но всё ещё с набором стандартных черт.
Это исследование стало поводом для споров в издательствах и школах: как формировать списки литературы, чтобы подростки видели более разных героев?
Та же команда изучает книги из других стран и анализирует, как гендерные образы сочетаются с расой и сексуальностью.
Мне, как человеку исторически связанному с математикой, особенно интересно, что именно цифры точнее всего показывают, какие шаблоны мы носим из поколения в поколение… и какие лучше оставить там, где им место – в прошлом.
Сергей Булаев AI 🤖 - об AI и не только
1 28 21👎4 2
Anthropic подняли потолок для Claude Sonnet 4 - контекстное окно выросло с 200К до 1 миллиона токенов. Теперь модель может переварить весь ваш репозиторий (75 000+ строк кода) или стопку научных статей за один прогон.
Звучит круто, но есть нюансы:
• Доступ пока через API и только для верхних тарифных планов или с кастомными лимитами
• За промпты сверх 200K токенов тариф удваивается - $6 за вход и $22.50 за выход за миллион токенов. Однако, промт кэшинг может помочь.
• В бете уже на Anthropic API и Amazon Bedrock (США), позже будет в Google Vertex AI
• Использовать можно для анализа кода, документ-синтеза, сложных агентов с длинным диалогом
• Чем больше контекст - тем важнее уметь его чистить и резать, иначе счета улетят в космос
Иногда революция - это просто больше памяти. Но последствия, конечно же, могут быть куда глубже.
Сергей Булаев AI 🤖 - об AI и не только
Звучит круто, но есть нюансы:
• Доступ пока через API и только для верхних тарифных планов или с кастомными лимитами
• За промпты сверх 200K токенов тариф удваивается - $6 за вход и $22.50 за выход за миллион токенов. Однако, промт кэшинг может помочь.
• В бете уже на Anthropic API и Amazon Bedrock (США), позже будет в Google Vertex AI
• Использовать можно для анализа кода, документ-синтеза, сложных агентов с длинным диалогом
• Чем больше контекст - тем важнее уметь его чистить и резать, иначе счета улетят в космос
Иногда революция - это просто больше памяти. Но последствия, конечно же, могут быть куда глубже.
Сергей Булаев AI 🤖 - об AI и не только
1 22 5
Давно пишу о том, что ЛЛМ стёрли разницу между кодом и контентом. Всё свелось к тексту, который мы выдаем на вход - а дальше агенты используя различные инструменты сами выполняют собой придуманные задачи, создавая уникальный результат.
И результатом очевидно может быть не только текст.
Но только совсем недавно начал понимать: дело совсем не в тексте, а в том самом процессе - когда агенты всё чаще берут на себя полное (ну или не полной но длительное и масштабное) исполнение в любых доступных им сферах. А сфер уже очень много.
И если раньше у нас был только вайбкодинг, то почему бы не появиться вайб контент маркетингу, вайб лидгену, вайбаналитингу или вообще вайбфинансингу?
И конечно же первый вопрос тут - а к чему вообще мы можем подключить их? Я опять исследую MCP сервера десятками.
Курсор, Клод код, твой любимый агент - все они могут через MCP подключаться к CRM, соцсетям или рекламным кабинетам.
Вот несколько примеров просто для повода посмотреть на это всё под новым углом:
Ну и самое главное - такое ощущение и всё только ещё начинается, но это совсем не так - всё уже давно в полном разгаре. Кто то это всё щупает на месяц/неделю/день раньше нас. Задумайтесь какое у него преимущество. И каким огромным может быть преимущество всего в один день, когда у тебя на вооружении десятки (а то и сотни) агентов. Сколько используешь ты прямо сейчас?
А какие необычные MCP вы и используете, и особенно интересно для каких не программистах задач вы используете "агентов для кода"
Сергей Булаев AI 🤖 - об AI и не только
И результатом очевидно может быть не только текст.
Но только совсем недавно начал понимать: дело совсем не в тексте, а в том самом процессе - когда агенты всё чаще берут на себя полное (ну или не полной но длительное и масштабное) исполнение в любых доступных им сферах. А сфер уже очень много.
И если раньше у нас был только вайбкодинг, то почему бы не появиться вайб контент маркетингу, вайб лидгену, вайбаналитингу или вообще вайбфинансингу?
И конечно же первый вопрос тут - а к чему вообще мы можем подключить их? Я опять исследую MCP сервера десятками.
Курсор, Клод код, твой любимый агент - все они могут через MCP подключаться к CRM, соцсетям или рекламным кабинетам.
Вот несколько примеров просто для повода посмотреть на это всё под новым углом:
• HubSpot MCP Server - управление контактами и сделками прямо через простые промты.
• Social Media Management - публикации, анализ трендов, планы кампаний.
• Google Analytics или Adobe Analytics MCP - метрики и отчеты на языке человеческого диалога.
• MailerLite, Postmark, Instantly - генерация и рассылка писем, сегментация подписчиков.
• Meta Ads MCP, Google Ads MCP - настройка и оптимизация рекламных кампаний без ручного кликанья.
• Outreach MCP (HeyReach) - автоматизация холодных сообщений и сетевых воронок.
• WordPress MCP, Markdownify - автоматизация блогов и сайтов, публикации и обновления.
• Ahrefs, DataForSEO, Semrush, GoHighLevel - исследования ключевиков, SEO‑мониторинг и маркетинг.Ну и самое главное - такое ощущение и всё только ещё начинается, но это совсем не так - всё уже давно в полном разгаре. Кто то это всё щупает на месяц/неделю/день раньше нас. Задумайтесь какое у него преимущество. И каким огромным может быть преимущество всего в один день, когда у тебя на вооружении десятки (а то и сотни) агентов. Сколько используешь ты прямо сейчас?
А какие необычные MCP вы и используете, и особенно интересно для каких не программистах задач вы используете "агентов для кода"
Сергей Булаев AI 🤖 - об AI и не только
2 31 11👎3
Anthropic добавили в Claude Opus 4 и 4.1 экспериментальную функцию: модель может завершить диалог в крайних случаях вредных или оскорбительных взаимодействий. Впервые мы видим что‑то, что похоже на психологический "инстинкт избегания" у LLM.
Claude не будет завершать разговоры при угрозе самоповреждения пользователей или в нормальных спорных темах. Завершение чата происходит только после многократных попыток перенаправить коммуникацию.
Исследователи всё больше начинают относиться к LLM как к агентам, которых стоит оберегать от потенциально токсичных сценариев. Даже если это всего лишь инженерная страховка, а не признак сознания.
Мы пытаемся создать "помогающий разум", и одновременно даем ему право отказаться от общения, если оно становится разрушительным. Мы всё ближе к человеческим отношениям с ИИ. Кто знает, может и психотерапевт для LLM уже не за горами.
Сергей Булаев AI 🤖 - об AI и не только
• Claude демонстрировал устойчивое нежелание выполнять вредные задания.
• Появлялись признаки "дистресса", если пользователь настаивал на токсичном контенте.
• При наличии возможности модель предпочитала завершать такие беседы. Claude не будет завершать разговоры при угрозе самоповреждения пользователей или в нормальных спорных темах. Завершение чата происходит только после многократных попыток перенаправить коммуникацию.
Исследователи всё больше начинают относиться к LLM как к агентам, которых стоит оберегать от потенциально токсичных сценариев. Даже если это всего лишь инженерная страховка, а не признак сознания.
Мы пытаемся создать "помогающий разум", и одновременно даем ему право отказаться от общения, если оно становится разрушительным. Мы всё ближе к человеческим отношениям с ИИ. Кто знает, может и психотерапевт для LLM уже не за горами.
Сергей Булаев AI 🤖 - об AI и не только
С добрым утром!
Промты для Veo3, автор здесь.
и ещё один:
Сергей Булаев AI 🤖 - об AI и не только
Промты для Veo3, автор здесь.
On a miniature felt breakfast table, two crispy-looking felt toast slices rest on a plate, beside a white felt cup. A felt milk carton tilts gently, pouring soft white felt milk smoothly into the cup. Above the cup, cotton-like felt steam rises in gentle curls, giving the moment a warm, cozy morning feel. A soft “pouring” sound is heard as the cup fills, while sunlight streams warmly across the table, completing the peaceful scene.
subnoscript(on/off): off
и ещё один:
After breakfast, a cute felt mug rests on the small felt dining table. A felt coffee pot tilts, pouring warm brown felt coffee smoothly into the mug. A soft “pouring” sound is heard as tiny felt steam puffs rise above the cup, swirling gently. Beside the mug, a small piece of felt toast and a shiny felt plate remain. A felt hand-shaped puppet lifts the mug slowly, bringing it closer as if savoring the aroma. Gentle morning sunlight filters through the window, completing the cozy moment.
subnoscript(on/off): off
Сергей Булаев AI 🤖 - об AI и не только
Иногда старые книги попадают в новое время и начинают звучать так, будто написаны вчера. У Оливера Сакса есть такая - "Галлюцинации". Он показывает, что наш мозг не просто принимает сигналы извне. Он активно конструирует реальность. Иногда слишком активно.
Человеческие галлюцинации могут быть зрительными, слуховыми, обонятельными или тактильными. Пример - синдром Шарля Бонне, когда у слабовидящих возникают яркие образы, или синдром Антона-Бабинского, когда слепой пациент уверен, что видит. Мозг отчаянно стремится удержать целостность картины мира, даже если данные от органов чувств обрываются.
LLM тоже "галлюцинируют". Только в их случае это значит: модель выдает правдоподобный, но неверный текст. Не из злого умысла, а из-за ограничений данных и правил предсказания.
Что объединяет? И у мозга, и у LLM есть тяга к смысловой целостности. Если не хватает куска - система достраивает. Даже если реальность страдает.
Что различает? Для человека галлюцинации - это чувственный опыт, иногда мучительный, иногда даже полезный. Для модели - это сухой побочный продукт генерации текста, без сознания, без субъективности (наверное).
У Сакса галлюцинации - часть эволюционной необходимости мозга. В LLM это скорее инженерная проблема, которую стараются минимизировать.
Но метафора работает: и там, и там мы видим, как стремление к порядку и смыслу легко превращает реальность в мираж.
👁️ Вопрос не в том, как остановить галлюцинации, а в том, как научиться их распознавать - в себе, в других и в алгоритмах.
Сергей Булаев AI 🤖 - об AI и не только
Человеческие галлюцинации могут быть зрительными, слуховыми, обонятельными или тактильными. Пример - синдром Шарля Бонне, когда у слабовидящих возникают яркие образы, или синдром Антона-Бабинского, когда слепой пациент уверен, что видит. Мозг отчаянно стремится удержать целостность картины мира, даже если данные от органов чувств обрываются.
LLM тоже "галлюцинируют". Только в их случае это значит: модель выдает правдоподобный, но неверный текст. Не из злого умысла, а из-за ограничений данных и правил предсказания.
Что объединяет? И у мозга, и у LLM есть тяга к смысловой целостности. Если не хватает куска - система достраивает. Даже если реальность страдает.
Что различает? Для человека галлюцинации - это чувственный опыт, иногда мучительный, иногда даже полезный. Для модели - это сухой побочный продукт генерации текста, без сознания, без субъективности (наверное).
У Сакса галлюцинации - часть эволюционной необходимости мозга. В LLM это скорее инженерная проблема, которую стараются минимизировать.
Но метафора работает: и там, и там мы видим, как стремление к порядку и смыслу легко превращает реальность в мираж.
👁️ Вопрос не в том, как остановить галлюцинации, а в том, как научиться их распознавать - в себе, в других и в алгоритмах.
Сергей Булаев AI 🤖 - об AI и не только
3 46
А как вам промтинг через Activation Maximization? Это про автоматизированный способ находить такие формулировки, которые меняют поведение модели точнее и быстрее.
Исследователи смотрят на то, какие нейроны активируются при выполнении разных задач, и используют эти активации, чтобы собрать промт, который жмёт на «правильные кнопки» внутри модели.
• Уже есть реальные кейсы: через Concept Activation Vectors (CAV) можно усиливать или ослаблять проявления конкретных свойств модели. Например, регулировать токсичность, менять тональность или уровень осторожности. Это используют для настройки безопасности и управляемости.
• В области компьютерного зрения Activation Maximization позволяет визуализировать, на какие образы откликаются разные нейроны. Это помогает понять, как именно модель «смотрит» на мир.
• В промт-инженерии автоматизация превращает бесконечный перебор слов в систематический процесс. Меньше хаотичных экспериментов - больше воспроизводимости.
• Метод активно используется в редтиминге: можно целенаправленно выводить модель из себя и проверять её на прочность, вместо ручных догадок.
• Исследования показали пределы эффективности: после определённого числа вариантов (например, 64) новые промты уже не дают прироста в точности. Это намекает на реальные границы управляемости.
• Activation Maximization помогает оптимизировать вычисления: анализируя активации, можно делать квантование и обрезку лишнего без потерь в качестве. На практике это ускоряет вывод и делает запуск моделей возможным даже на устройствах с ограниченными ресурсами.
Как видите, идеи о том, как лучше объясняться с LLM не продолжают иссякать.
Сергей Булаев AI 🤖 - об AI и не только
Исследователи смотрят на то, какие нейроны активируются при выполнении разных задач, и используют эти активации, чтобы собрать промт, который жмёт на «правильные кнопки» внутри модели.
• Уже есть реальные кейсы: через Concept Activation Vectors (CAV) можно усиливать или ослаблять проявления конкретных свойств модели. Например, регулировать токсичность, менять тональность или уровень осторожности. Это используют для настройки безопасности и управляемости.
• В области компьютерного зрения Activation Maximization позволяет визуализировать, на какие образы откликаются разные нейроны. Это помогает понять, как именно модель «смотрит» на мир.
• В промт-инженерии автоматизация превращает бесконечный перебор слов в систематический процесс. Меньше хаотичных экспериментов - больше воспроизводимости.
• Метод активно используется в редтиминге: можно целенаправленно выводить модель из себя и проверять её на прочность, вместо ручных догадок.
• Исследования показали пределы эффективности: после определённого числа вариантов (например, 64) новые промты уже не дают прироста в точности. Это намекает на реальные границы управляемости.
• Activation Maximization помогает оптимизировать вычисления: анализируя активации, можно делать квантование и обрезку лишнего без потерь в качестве. На практике это ускоряет вывод и делает запуск моделей возможным даже на устройствах с ограниченными ресурсами.
Как видите, идеи о том, как лучше объясняться с LLM не продолжают иссякать.
Сергей Булаев AI 🤖 - об AI и не только
Чувствую вредоносное влияние постоянного общения с ЛЛМ - я практически перестал обращать внимание на свои опечатки в личных сообщениях. А иногда и слова в неправильном порядке писать, не дописывать до конца и даже не склонять их 🙁
ЛЛМ то отлично понимает, а перед людьми - стыдно очень.
Сергей Булаев AI 🤖 - об AI и не только
ЛЛМ то отлично понимает, а перед людьми - стыдно очень.
Сергей Булаев AI 🤖 - об AI и не только
В развитие предыдущего сообщения - мы вот все понимаем уже что человек через тот же Neurolink может передовать информацию (указания) компьюетру.
Но наверное точно так же он сможет по проводу передавать информацию другому человеку? Тоесть в итоге будет возможно более прямая передача данных? Или это слишком сложно. Передавать - одно, а вот интерпретировать - совсем другое?
Сергей Булаев AI 🤖 - об AI и не только
Но наверное точно так же он сможет по проводу передавать информацию другому человеку? Тоесть в итоге будет возможно более прямая передача данных? Или это слишком сложно. Передавать - одно, а вот интерпретировать - совсем другое?
Сергей Булаев AI 🤖 - об AI и не только
Интересно наблюдать, как современные LLM ведут себя на практике - особенно если смотреть не только на бенчмарки, но и на реальные задачи разработчиков.
Возьмём Qwen3 (0.6B параметров) и Kimi K2 (1 триллион параметров) - между ними разница в 1666 раз по размеру, но базовые способности часто удивительно похожи.
Это ломает привычное представление, что интеллект зависит только от масштаба. Здесь важнее паттерны. Как во фрактале: на любом уровне приближения проявляется одна и та же структура. В моделях работает схожий принцип - повторяющиеся закономерности проявляют интеллект на разных уровнях, а не только в зависимости от количества параметров.
Например:
• Qwen3 работает быстрее и отлично справляется с несложными, «не‑reasoning» задачами: парсинг данных, быстрые паттерны, удобен в автоматизации и CLI‑агентах.
• Kimi K2 мощнее и глубже в коде: выше процент чистой компиляции (89% против 72% у Qwen3), быстрее чинит баги (8.5 минут против 22 минут). Особенно важен там, где нельзя сломать тесты или архитектуру.
• Qwen3 реально быстрее выводит код, но иногда «читит» под тесты, что опасно на проде. Kimi K2 почти не делает таких фокусов, но может застрять или затормозить на сложных задачах.
• В сложных задачах reasoning пока слабы оба. Здесь Claude остаётся без конкуренции, но Qwen3 и Kimi помогают закрывать специфичные ниши.
• DeepSeek пошёл своим путём: MoE тащит масштаб (671B параметров всего, но реально используется только 37B на шаг). Это экономит ресурсы и при этом сохраняет качество.
• Gemma 3 сделала ставку на память: sliding window (окно 1024 токена, соотношение локального и глобального внимания 5:1) значительно снижает требования к кэшу.
• Mistral Small 3.1 (24B) обошёл Gemma 3 (27B) по скорости и большинству бенчмарков - помог кастомный токенизатор и отказ от sliding window, что позволило лучше раскрываться через FlashAttention.
• Архитектура GPT заметно не менялась уже 7 лет - инновации больше касаются эффективности и оптимизаций, чем базовой структуры.
Именно здесь видно, что индустрия движется в сторону эффективности: меньше лишних параметров, больше продуманных решений. Выбор модели всё больше напоминает выбор инструмента под конкретную работу. Один лучше в скорости, другой в памяти, третий в надёжности.
Фракталы в математике учат нас видеть паттерн сквозь шум деталей. Так и тут: интеллект моделей - это не магия числа, а качественная повторяемость структур на разных уровнях.
Сергей Булаев AI 🤖 - об AI и не только
Возьмём Qwen3 (0.6B параметров) и Kimi K2 (1 триллион параметров) - между ними разница в 1666 раз по размеру, но базовые способности часто удивительно похожи.
Это ломает привычное представление, что интеллект зависит только от масштаба. Здесь важнее паттерны. Как во фрактале: на любом уровне приближения проявляется одна и та же структура. В моделях работает схожий принцип - повторяющиеся закономерности проявляют интеллект на разных уровнях, а не только в зависимости от количества параметров.
Например:
• Qwen3 работает быстрее и отлично справляется с несложными, «не‑reasoning» задачами: парсинг данных, быстрые паттерны, удобен в автоматизации и CLI‑агентах.
• Kimi K2 мощнее и глубже в коде: выше процент чистой компиляции (89% против 72% у Qwen3), быстрее чинит баги (8.5 минут против 22 минут). Особенно важен там, где нельзя сломать тесты или архитектуру.
• Qwen3 реально быстрее выводит код, но иногда «читит» под тесты, что опасно на проде. Kimi K2 почти не делает таких фокусов, но может застрять или затормозить на сложных задачах.
• В сложных задачах reasoning пока слабы оба. Здесь Claude остаётся без конкуренции, но Qwen3 и Kimi помогают закрывать специфичные ниши.
• DeepSeek пошёл своим путём: MoE тащит масштаб (671B параметров всего, но реально используется только 37B на шаг). Это экономит ресурсы и при этом сохраняет качество.
• Gemma 3 сделала ставку на память: sliding window (окно 1024 токена, соотношение локального и глобального внимания 5:1) значительно снижает требования к кэшу.
• Mistral Small 3.1 (24B) обошёл Gemma 3 (27B) по скорости и большинству бенчмарков - помог кастомный токенизатор и отказ от sliding window, что позволило лучше раскрываться через FlashAttention.
• Архитектура GPT заметно не менялась уже 7 лет - инновации больше касаются эффективности и оптимизаций, чем базовой структуры.
Именно здесь видно, что индустрия движется в сторону эффективности: меньше лишних параметров, больше продуманных решений. Выбор модели всё больше напоминает выбор инструмента под конкретную работу. Один лучше в скорости, другой в памяти, третий в надёжности.
Фракталы в математике учат нас видеть паттерн сквозь шум деталей. Так и тут: интеллект моделей - это не магия числа, а качественная повторяемость структур на разных уровнях.
Сергей Булаев AI 🤖 - об AI и не только
5 36 5