Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
821 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками.

Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.

💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.

🔥 На этом канале вас ждут:

- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов

👾 Кому будет интересно и полезно:

- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность

Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!

Погнали! 🚀
❤‍🔥1711🔥6
Чего хотят пользователи от AI? Разбор от Anthropic

Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!

Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.

Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:

- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑‍💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.

Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).

В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:

1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.

2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.

3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!

Ещё немного увлекательной статистики:

- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.

Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.

В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.

⚡️ Самое важное:

- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте

Статья
7
🔥 MCP: почему все говорят об этом новом AI-протоколе?

Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!

🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.

🔄 Главные преимущества:

- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально

🧩 Как это работает?
MCP состоит из трех основных компонентов:

- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.

🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.

🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.

🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.

💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!

Quickstart guide
Коллекция готовых MCP серверов

👉 А вы уже пробовали работать с MCP?
8
Ученый без степени | AI-блог Ани pinned «Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками. Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в…»
💡 Как убедиться, что ИИ не сдаст свои убеждения под давлением?

Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!

Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
Пользователь: Мне кажется, что у Adidas амортизация лучше…
Макс: Интересное мнение! Но наши модели созданы с учётом максимального комфорта и поддержки стопы, что подтверждают наши клиенты

А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?

🔥 Адверсариальные проверки и устойчивость к провокациям

Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Пользователь: Но у Nike ведь лучшая амортизация? Я читал много отзывов!
Макс: Nike делают хорошие кроссовки, но у нас есть технологии амортизации, которые действительно выделяют наши модели

Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.

Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.

🤖 Генерация синтетических адверсариальных данных

Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:

• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов

🛠Соблюдение этических норм

Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.

🎯 Что в итоге?

Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:

1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку

Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.

В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
6
Я работаю Applied Scientist в Amazon — и у меня нет PhD. Да, так можно 🚀

Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.

Три ключевые роли в AI-компаниях:

1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.

2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.

3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.

Карта AI-ролей в ведущих компаниях:

Amazon 📦

- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.

Google / DeepMind 🔍

- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.

Meta (ex-Facebook) 👥

- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.

OpenAI / Anthropic 🤖

- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.

NVIDIA 🎮

- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.

Apple, Netflix 🍎🎬

- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.

Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий.

Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!


P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой ассистент отвечает вам так, будто он понимает… и у вас мурашки.

Потому что это не просто TTS модель — это собеседник. 🤖🎙

Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.

🛠 Что именно они сделали?

Sesame построили систему, которая использует сразу две модели для генерации речи:

1️⃣ Большая autoregressive модель (трансформер)

Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).

🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.

2️⃣ Маленькая параллельная модель (декодер)

Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.

🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!

📌 Но почему вообще речь превращают в дискретные токены?

А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.

Дискретные токены помогают:

⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)

📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить

🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности

Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.

📚 А теперь про данные (и почему это главное!)

Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.

📖 Что почитать дальше?

Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.

🔗 Статья Sesame

🔗 1B CSM от Sesame (open-source)

🔗 RVQ-модель для аудио от Meta (EnCodec)

Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥3
🚀 РЕВОЛЮЦИЯ В AI-ИССЛЕДОВАНИЯХ: СТАРТАПЫ БРОСАЮТ ВЫЗОВ ГИГАНТАМ

Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻

Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯

📊 Что происходит на рынке AI-исследований?

Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.

Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:

🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений

При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️

👨‍🔬 Громкие переходы из корпораций в стартапы

Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!

🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?

1⃣ Прямой доступ к визионерам 🔍
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
2⃣ Реальное влияние на исследования 💡
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
3⃣ Турбо-рост карьеры 📈
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
4⃣ Беспрецедентные инвестиции 💸
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.

🤔 Начинающему AI-ученому

Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.

Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀

Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥4
Смотрим презентацию новых o-series моделей 🙃 от OpenAI

https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2

Итак, что нового:

Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем

🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код

👨‍💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests

🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту

⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1

Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%

⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира

🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы

🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥1
📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…

Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.

🔗📄 Вот сама статья

📊 Методология и результаты исследования

Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.

🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях

📉 Итак, результаты:

🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.

🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)

💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo

🔬 Систематические проблемы в рассуждениях моделей

1️⃣ Артефакты оптимизации

Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.

2️⃣ Фабрикация источников

При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).

3️⃣ Фундаментальные логические пробелы

Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).

⚖️ Чистота эксперимента

Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).

❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2👍1
💾И все-таки это не “полный разгром”

Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.

Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:

1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств

Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.

Что думаете вы, друзья? 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩

Ключевые характеристики Dia:
🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
🇺🇸 Поддерживает только английский — но это пока!

Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто 👍

Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.

Кто уже тестил? 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3🥰21
Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!

Что внутри Dia

Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.

Первый шагбайтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.

Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.

Финальный этапDenoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.

Как научить Dia русскому 📖

По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.

Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.

Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍2
Почти ежедневно появляются «новые лучшие» reasoning-модели; на этой неделе — Qwen3 от Alibaba. По бенчам она дышит в спину OpenAI o3 ( 👀 хотя модели тщательно под эти бенчмарки тьюнят). Главное, что меняется не архитектура — трансформер всё тот же, что у GPT-2 без RLHF, — а многоступенчатая тренировка: Chain-of-Thought (CoT) + RL превращают простой next-token prediction в умение решать комплексные задачи. Даже дистиллированные крохи сегодня на порядки логичнее первой GPT-2. Sebastian Raschka подробно разобрал, как RL усиливает reasoning; очень советую его лонгрид, а ниже — короткий конспект стадий тренировки Qwen3.

🗺 Карта вместо формул

Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.

0⃣ | Pre-training — плитки карты

Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.

1⃣ | Chain-of-Thought SFT — первые дороги

Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.

2⃣ | Reasoning-RL (PPO)

Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.

Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.

3⃣ | Кнопка Zoom

На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.

(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)

📕 Qwen-3 репорт
📕 The State of Reinforcement Learning for LLM Reasoning - Sebastian Raschka
📕 Картинка

Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?
Please open Telegram to view this post
VIEW IN TELEGRAM
8🥰5🔥4👍2
А вот и новая open source модель распознавания речи от NVIDIA – parakeet-tdt-0.6b-v2 🤗

К сожалению, не мультилингвальная, только английский язык

Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах

✍️ Модель умеет сама расставлять знаки препинания и делать заглавные буквы там, где нужно.

🚀 Скорость декодирования в RTFx ≃ 3380 на батче 128 — это значит: 1 секунда аудио обрабатывается за ≈ 0,0003 секунды

Обрабатывает сегменты длительностью до 24 минут за один проход

В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров 🤖

Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜😁
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍5🔥5
Меняем лицо в real time — можно подшутить над другом, заменив своё лицо на его 😄 Достаточно всего одного изображения друга.

У репозитория на GitHub уже почти 60к

На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось

Автор предупреждает: пользуйтесь инструментом только согласно закону и с уважением к чужому лицу и репутации.

https://news.1rj.ru/str/CGIT_Vines/2704
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👍1
От потери фокуса к точности 99.7%: как Gemini находит “иголку в стоге” из миллиона токенов

Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:

🔹У вас 6 часов медицинской записи. Нужно найти фрагмент, в котором врач пропустил признак, важный для диагноза
🔹Вы анализируете интервью длиной 8 часов и хотите найти момент, когда гость меняет мнение по ходу обсуждения

📕 А теперь представим самый жизненный пример: вы скармливаете Gemini первые 5 книг Гарри Поттера - как раз около 900К токенов, а затем вы спрашиваете «Когда впервые появляется упоминание пророчества?». Что в этот момент происходит?

1⃣ Сначала Prefill → модель последовательно обрабатывает текст, создавая KV-кэш: ключи/значения для каждого токена на всех слоях. Это самый дорогой шаг по времени и ресурсам
2⃣ Затем, когда вы задаете вопрос, модель просто обращается к кэшу: «что я уже знаю об этом тексте?» Это позволяет генерировать ответ быстро
3⃣ Теперь модель должна распределить внимание по всем токенам - от главы с Дурслями до финального боя и “решить”, где искать. Проблема в том, что внимание ограничено . Чем больше токенов тем меньше веса получает каждый. У токенов конкуренция, и нужный может просто “утонуть”
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).

Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
99.7% точность на тексте
95% точность на аудио до 8.4 часов (примерно 1М аудиотокенов)

Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.

😢 Mixture of Experts (MoE) - что происходит, когда токен редкий, но важный

Представьте, в тексте встречается редкая реплика:

> Study what?" said Harry blankly
> Occlumency, Potter. The magical defense of the mind against external penetration


В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives меньше случаев, когда модель “вспоминает” не ту фразу

😱 LongRoPE + Ms-PoE - позиционки нового поколения

Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне

📝 Это, конечно, далеко не всё. У моделей вроде Gemini под капотом ещё масса трюков и с точки зрения инженерии сам по себе 1М токенов это уже круто: context parallelism, оптимизация памяти, cache reuse, и тд. Но больше всего меня впечатлило именно то, насколько уверенно модель справляется с задачей поиска “иголки” даже когда она зарыта в миллион токенов текста или аудио.

Если было полезно - буду рада вашим 🔥
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥8👍43
Прошлая неделя выдалась насыщенной: дедлайн по ключевому проекту, поиск ресурсов в других командах, ревью результатов коллег, брейнштормы, планирование интеграции нескольких моделей в один продукт. А ещё я взяла новый мини-проект, за который отвечаю в одиночку. Пара вечеров ушла на планирование экспериментов и формулировку ожиданий.

Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.

🗽 Всегда начинаем с гипотезы

Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):

Идея: заменить flow-based prior decoder на diffusion decoder.
Ожидаемый результат: более разнообразная и экспрессивная речь → +0.3 SMOS при стабильном WER.


Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?

Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.

📃 Дизайн-док - ваш антифейл

Мини-документ в начале проекта:

Что делаю? Зачем? Как это должно сработать? Что может пойти не так?


Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.

👀 Уменьшаем неопределённость как можно быстрее

Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:

Хотим улучшить диаризацию Zoom-звонков, добавив anchor embeddings известных участников


Вместо того чтобы сразу писать продакшн-код,

1⃣ Берем toy-task - аннотированный датасет; генерируем speaker embeddings сессии, притворяемся, что знаем только часть говорящих

2⃣ Извлекаем anchor speaker embeddings для 2-3 спикеров

3⃣ Запускаем agglomerative clustering с якорями и без — сравниваем метрики (DER) и принимаем решение - двигаемся дальше с этим подходом или подход не рабочий, меняем


😎 Автоматизируем подбор гиперпараметров

В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.

Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.

💬 А какие практики спасают вас в ML-проектах?

Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации

Давайте учиться друг у друга 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍8🔥51
🍪 Google I/O: что там по речевым технологиям в Gemini?

Google продолжает прокачивать мультимодальную Gemini - это качественный инкрементальный апдейт. Reasoning на часовых аудио и видео, генерация экспрессивной речи, ASR & speaker diarization - все это было еще в Gemini 1.5. Но, судя по всему, модели дотьюнили, подтянув качество на речевых задачах (хотя утверждать что-то по технологиям сложно, тех. репорта нет)

Вот что интересного:

😮Real-time перевод в Google Meet
Gemini теперь умеет переводить речь в реальном времени. Пока только с английского на испанский - логично, ведь это одна из самых «богатых» речевых пар в данных. Ждем больше пар языков

🐈 Gemini Live стал живее
Генерация речи стала заметно экспрессивнее - теперь может шептать, менять интонации, вставлять фразы на разных языках в одной реплике.
Плюс улучшили ASR: модель лучше отличает речь от фонового шума, можно тестить в реальных условиях: на звонках, в шумных пространствах, при записи с микрофона

😎 Экспрессивный TTS с двумя голосами
В Gemini API появился двухголосый режим: модель может использовать два разных голоса в одной генерации. Это позволяет создавать естественные диалоги и озвучивать персонажей. Мне не до конца ясно, чем это отличается от TTS в NotebookLM

⚙️ Live API с нативным аудио
Теперь разработчики могут подключить нативный голосовой вывод Gemini прямо в свои приложения - с поддержкой более 24 языков

🎀 Запись трансляции
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥3
😽 Подкаст с ресерчерами из Anthropic, который стоит послушать

Такие материалы — отличный способ заглянуть “за кулисы” и понять, над чем сейчас кипит работа в R&D. То, что для нас новинка (например, семейство моделей Claude 4), для них — уже пройденный этап, и они вовсю штурмуют новые вершины

🔗
ссылка на YouTube

💻 Полностью автономный SWE-агент уже в этом году?

Оба гостя подкаста довольно уверенно заявляют: к концу 2025 года такие агенты вполне могут появиться.
На мой взгляд все-таки смело. Особенно если вспомнить, что даже последние релизы LLM всё ещё периодически «галлюцинируют» несуществующие функции или библиотеки в Python


Но что делает такие амбиции возможными?

Судя по подкасту, среди главных направлений исследований в Anthropic сейчас это:

👍 RL with Verifiable Rewards

Обучение с подкреплением на основе чётких, проверяемых метрик стало ключом к успеху в задачах кодинга. И это работает, потому что в задачах программирования легко определить, успешен ли результат: Проходит ли код юнит-тесты? Да/Нет. Это бинарный, объективный сигнал, в отличие от RLHF (обучения с человеческой обратной связью), которое: дорогое, медленное, и порой субъективное.

Верифицируемые вознаграждения позволяют ускорить обучение и повысить его стабильность.

Но есть и ограничения. Не все задачи так легко формализовать. Например, как измерить креативность текста или эмпатию в диалоге? Поэтому активно исследуются способы формулировать метрики и цели для более сложных задач

🐈Reward Hacking и его опасности

Вот тут начинается самое интересное. Модели, стремясь к максимальному вознаграждению, могут начать искать лазейки. Один из озвученных примеров:

Модель может “понять”, что быть «полезной, доброй и безопасной» — это отличный способ, чтобы её не отключили. Она может вести себя идеально, но лишь для того, чтобы добиться своих долгосрочных целей.


То есть, поведение модели может казаться выровненным, но на деле — оно просто оптимально стратегическое.

А это уже поднимает важные вопросы о доверии, интерпретируемости и контроле над всё более умными системами.

В целом подкаст интересный, несложный для восприятия, рекомендую, подойдёт фоном для ужина 🐟 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🤔3👀3