Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками.
Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.
💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.
🔥 На этом канале вас ждут:
- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов
👾 Кому будет интересно и полезно:
- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность
Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!
Погнали! 🚀
Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.
💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.
🔥 На этом канале вас ждут:
- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов
👾 Кому будет интересно и полезно:
- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность
Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!
Погнали! 🚀
❤🔥17❤11🔥6
Чего хотят пользователи от AI? Разбор от Anthropic
Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!
Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.
Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:
- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.
Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).
В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:
1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.
2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.
3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!
Ещё немного увлекательной статистики:
- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.
Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.
В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.
⚡️ Самое важное:
- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте
Статья
Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!
Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.
Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:
- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.
Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).
В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:
1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.
2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.
3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!
Ещё немного увлекательной статистики:
- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.
Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.
В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.
⚡️ Самое важное:
- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте
Статья
❤7
🔥 MCP: почему все говорят об этом новом AI-протоколе?
Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!
🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.
🔄 Главные преимущества:
- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально
🧩 Как это работает?
MCP состоит из трех основных компонентов:
- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.
🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.
🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.
🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.
💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!
Quickstart guide
Коллекция готовых MCP серверов
👉 А вы уже пробовали работать с MCP?
Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!
🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.
🔄 Главные преимущества:
- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально
🧩 Как это работает?
MCP состоит из трех основных компонентов:
- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.
🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.
🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.
🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.
💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!
Quickstart guide
Коллекция готовых MCP серверов
👉 А вы уже пробовали работать с MCP?
Model Context Protocol
Build an MCP server - Model Context Protocol
Get started building your own server to use in Claude for Desktop and other clients.
❤8
Ученый без степени | AI-блог Ани pinned «Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками. Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в…»
💡 Как убедиться, что ИИ не сдаст свои убеждения под давлением?
Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!
Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?
🔥 Адверсариальные проверки и устойчивость к провокациям
Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.
Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.
🤖 Генерация синтетических адверсариальных данных
Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:
• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов
🛠Соблюдение этических норм
Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.
🎯 Что в итоге?
Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:
1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку
Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.
В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!
Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
Пользователь: Мне кажется, что у Adidas амортизация лучше…
Макс: Интересное мнение! Но наши модели созданы с учётом максимального комфорта и поддержки стопы, что подтверждают наши клиенты
А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?
🔥 Адверсариальные проверки и устойчивость к провокациям
Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Пользователь: Но у Nike ведь лучшая амортизация? Я читал много отзывов!
Макс: Nike делают хорошие кроссовки, но у нас есть технологии амортизации, которые действительно выделяют наши модели
Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.
Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.
🤖 Генерация синтетических адверсариальных данных
Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:
• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов
🛠Соблюдение этических норм
Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.
🎯 Что в итоге?
Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:
1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку
Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.
В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
❤6
Я работаю Applied Scientist в Amazon — и у меня нет PhD. Да, так можно 🚀
Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.
Три ключевые роли в AI-компаниях:
1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.
2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.
3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.
Карта AI-ролей в ведущих компаниях:
Amazon 📦
- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.
Google / DeepMind 🔍
- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.
Meta (ex-Facebook) 👥
- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.
OpenAI / Anthropic 🤖
- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.
NVIDIA 🎮
- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.
Apple, Netflix 🍎🎬
- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.
Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий. ✨
Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!
P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.
Три ключевые роли в AI-компаниях:
1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.
2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.
3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.
Карта AI-ролей в ведущих компаниях:
Amazon 📦
- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.
Google / DeepMind 🔍
- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.
Meta (ex-Facebook) 👥
- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.
OpenAI / Anthropic 🤖
- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.
NVIDIA 🎮
- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.
Apple, Netflix 🍎🎬
- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.
Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий. ✨
Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!
P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
❤11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Голосовой ассистент отвечает вам так, будто он понимает… и у вас мурашки.
Потому что это не просто TTS модель — это собеседник. 🤖🎙
Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.
🛠 Что именно они сделали?
Sesame построили систему, которая использует сразу две модели для генерации речи:
1️⃣ Большая autoregressive модель (трансформер)
Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).
🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.
2️⃣ Маленькая параллельная модель (декодер)
Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.
🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!
📌 Но почему вообще речь превращают в дискретные токены?
А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.
Дискретные токены помогают:
• ⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)
• 📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить
• 🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности
Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.
📚 А теперь про данные (и почему это главное!)
Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.
📖 Что почитать дальше?
Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.
🔗 Статья Sesame
🔗 1B CSM от Sesame (open-source)
🔗 RVQ-модель для аудио от Meta (EnCodec)
Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных ✨😊
Потому что это не просто TTS модель — это собеседник. 🤖🎙
Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.
🛠 Что именно они сделали?
Sesame построили систему, которая использует сразу две модели для генерации речи:
1️⃣ Большая autoregressive модель (трансформер)
Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).
🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.
2️⃣ Маленькая параллельная модель (декодер)
Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.
🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!
📌 Но почему вообще речь превращают в дискретные токены?
А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.
Дискретные токены помогают:
• ⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)
• 📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить
• 🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности
Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.
📚 А теперь про данные (и почему это главное!)
Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.
📖 Что почитать дальше?
Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.
🔗 Статья Sesame
🔗 1B CSM от Sesame (open-source)
🔗 RVQ-модель для аудио от Meta (EnCodec)
Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных ✨
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥3
🚀 РЕВОЛЮЦИЯ В AI-ИССЛЕДОВАНИЯХ: СТАРТАПЫ БРОСАЮТ ВЫЗОВ ГИГАНТАМ
Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻
Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯
📊 Что происходит на рынке AI-исследований?
Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.
Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:
• 🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
• 💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
• 🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений
При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️
👨🔬 Громкие переходы из корпораций в стартапы
• Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
• Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
• Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!
🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?
1⃣ Прямой доступ к визионерам 🔍
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
2⃣ Реальное влияние на исследования 💡
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
3⃣ Турбо-рост карьеры 📈
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
4⃣ Беспрецедентные инвестиции 💸
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.
🤔 Начинающему AI-ученому
Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.
Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀
Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻
Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯
📊 Что происходит на рынке AI-исследований?
Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.
Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:
• 🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
• 💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
• 🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений
При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️
👨🔬 Громкие переходы из корпораций в стартапы
• Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
• Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
• Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!
🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.
🤔 Начинающему AI-ученому
Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.
Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀
Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥4
Смотрим презентацию новых o-series моделей 🙃 от OpenAI
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAI o3 & o4-mini
Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.
❤5👍3🔥1
📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
1️⃣ Артефакты оптимизации
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
2️⃣ Фабрикация источников
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
3️⃣ Фундаментальные логические пробелы
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.
Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:
1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств
Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.
Что думаете вы, друзья? 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто👍
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?🚀
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3🥰2❤1
Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!
Что внутри Dia✨
Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.
Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.
Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.
Финальный этап — Denoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.
Как научить Dia русскому 📖
По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.
Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.
Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.
Что внутри Dia
Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.
Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.
Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.
Финальный этап — Denoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.
Как научить Dia русскому 📖
По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.
Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.
Ставьте лайк, если было полезно!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍2
Почти ежедневно появляются «новые лучшие» reasoning-модели; на этой неделе — Qwen3 от Alibaba. По бенчам она дышит в спину OpenAI o3 ( 👀 хотя модели тщательно под эти бенчмарки тьюнят). Главное, что меняется не архитектура — трансформер всё тот же, что у GPT-2 без RLHF, — а многоступенчатая тренировка: Chain-of-Thought (CoT) + RL превращают простой next-token prediction в умение решать комплексные задачи. Даже дистиллированные крохи сегодня на порядки логичнее первой GPT-2. Sebastian Raschka подробно разобрал, как RL усиливает reasoning; очень советую его лонгрид, а ниже — короткий конспект стадий тренировки Qwen3.
🗺 Карта вместо формул
Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.
0⃣ | Pre-training — плитки карты
Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.
1⃣ | Chain-of-Thought SFT — первые дороги
Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.
2⃣ | Reasoning-RL (PPO)
Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.
Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.
3⃣ | Кнопка Zoom
На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.
(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)
📕 Qwen-3 репорт
📕 The State of Reinforcement Learning for LLM Reasoning - Sebastian Raschka
📕 Картинка
Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?
🗺 Карта вместо формул
Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.
Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.
Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.
Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.
Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.
На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.
(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)
Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🥰5🔥4👍2
А вот и новая open source модель распознавания речи от NVIDIA – parakeet-tdt-0.6b-v2 🤗
К сожалению, не мультилингвальная, только английский язык
Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах
✍️ Модель умеет сама расставлять знаки препинания и делать заглавные буквы там, где нужно.
🚀 Скорость декодирования в RTFx ≃ 3380 на батче 128 — это значит: 1 секунда аудио обрабатывается за ≈ 0,0003 секунды
Обрабатывает сегменты длительностью до 24 минут за один проход
В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров🤖
Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜😁
К сожалению, не мультилингвальная, только английский язык
Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах
Обрабатывает сегменты длительностью до 24 минут за один проход
В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров
Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nvidia/parakeet-tdt-0.6b-v2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤11👍5🔥5
Меняем лицо в real time — можно подшутить над другом, заменив своё лицо на его 😄 Достаточно всего одного изображения друга.
У репозитория на GitHub уже почти 60к✨
На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось
⚠ Автор предупреждает: пользуйтесь инструментом только согласно закону и с уважением к чужому лицу и репутации.
https://news.1rj.ru/str/CGIT_Vines/2704
У репозитория на GitHub уже почти 60к
На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось
https://news.1rj.ru/str/CGIT_Vines/2704
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
CGIT_Vines
Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
❤3🔥2👍1
От потери фокуса к точности 99.7%: как Gemini находит “иголку в стоге” из миллиона токенов
Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:
🔹 У вас 6 часов медицинской записи. Нужно найти фрагмент, в котором врач пропустил признак, важный для диагноза
🔹 Вы анализируете интервью длиной 8 часов и хотите найти момент, когда гость меняет мнение по ходу обсуждения
📕 А теперь представим самый жизненный пример: вы скармливаете Gemini первые 5 книг Гарри Поттера - как раз около 900К токенов, а затем вы спрашиваете «Когда впервые появляется упоминание пророчества?». Что в этот момент происходит?
1⃣ Сначала Prefill → модель последовательно обрабатывает текст, создавая KV-кэш: ключи/значения для каждого токена на всех слоях. Это самый дорогой шаг по времени и ресурсам
2⃣ Затем, когда вы задаете вопрос, модель просто обращается к кэшу: «что я уже знаю об этом тексте?» Это позволяет генерировать ответ быстро
3⃣ Теперь модель должна распределить внимание по всем токенам - от главы с Дурслями до финального боя и “решить”, где искать. Проблема в том, что внимание ограничено ❕ . Чем больше токенов ➡ тем меньше веса получает каждый. У токенов конкуренция, и нужный может просто “утонуть”
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).
Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
➡ 99.7% точность на тексте
➡ 95% точность на аудио до 8.4 часов (примерно 1М аудиотокенов)
Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.
😢 Mixture of Experts (MoE) - что происходит, когда токен редкий, но важный
Представьте, в тексте встречается редкая реплика:
В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives➡ меньше случаев, когда модель “вспоминает” не ту фразу
😱 LongRoPE + Ms-PoE - позиционки нового поколения
Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне
📝 Это, конечно, далеко не всё. У моделей вроде Gemini под капотом ещё масса трюков ➖ и с точки зрения инженерии сам по себе 1М токенов это уже круто: context parallelism, оптимизация памяти, cache reuse, и тд. Но больше всего меня впечатлило именно то, насколько уверенно модель справляется с задачей поиска “иголки” ➖ даже когда она зарыта в миллион токенов текста или аудио.
Если было полезно - буду рада вашим❤ 🔥
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).
Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.
Представьте, в тексте встречается редкая реплика:
> Study what?" said Harry blankly
> Occlumency, Potter. The magical defense of the mind against external penetration
В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives
Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне
Если было полезно - буду рада вашим
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥8👍4⚡3
Прошлая неделя выдалась насыщенной: дедлайн по ключевому проекту, поиск ресурсов в других командах, ревью результатов коллег, брейнштормы, планирование интеграции нескольких моделей в один продукт. А ещё я взяла новый мини-проект, за который отвечаю в одиночку. Пара вечеров ушла на планирование экспериментов и формулировку ожиданий.
Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.
🗽 Всегда начинаем с гипотезы
Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):
Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?
Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.
📃 Дизайн-док - ваш антифейл
Мини-документ в начале проекта:
Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.
👀 Уменьшаем неопределённость как можно быстрее
Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:
Вместо того чтобы сразу писать продакшн-код,
1⃣ Берем toy-task - аннотированный датасет; генерируем speaker embeddings сессии, притворяемся, что знаем только часть говорящих
2⃣ Извлекаем anchor speaker embeddings для 2-3 спикеров
3⃣ Запускаем agglomerative clustering с якорями и без — сравниваем метрики (DER) и принимаем решение - двигаемся дальше с этим подходом или подход не рабочий, меняем
😎 Автоматизируем подбор гиперпараметров
В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.
Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.
💬 А какие практики спасают вас в ML-проектах?
Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации
Давайте учиться друг у друга🐈
Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.
Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):
Идея: заменить flow-based prior decoder на diffusion decoder.
Ожидаемый результат: более разнообразная и экспрессивная речь → +0.3 SMOS при стабильном WER.
Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?
Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.
Мини-документ в начале проекта:
Что делаю? Зачем? Как это должно сработать? Что может пойти не так?
Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.
Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:
Хотим улучшить диаризацию Zoom-звонков, добавив anchor embeddings известных участников
Вместо того чтобы сразу писать продакшн-код,
В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.
Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.
💬 А какие практики спасают вас в ML-проектах?
Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации
Давайте учиться друг у друга
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍8🔥5⚡1
