Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками.
Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.
💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.
🔥 На этом канале вас ждут:
- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов
👾 Кому будет интересно и полезно:
- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность
Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!
Погнали! 🚀
Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.
💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.
🔥 На этом канале вас ждут:
- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов
👾 Кому будет интересно и полезно:
- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность
Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!
Погнали! 🚀
❤🔥17❤11🔥6
Чего хотят пользователи от AI? Разбор от Anthropic
Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!
Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.
Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:
- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.
Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).
В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:
1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.
2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.
3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!
Ещё немного увлекательной статистики:
- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.
Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.
В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.
⚡️ Самое важное:
- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте
Статья
Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!
Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.
Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:
- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.
Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).
В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:
1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.
2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.
3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!
Ещё немного увлекательной статистики:
- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.
Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.
В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.
⚡️ Самое важное:
- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте
Статья
❤7
🔥 MCP: почему все говорят об этом новом AI-протоколе?
Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!
🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.
🔄 Главные преимущества:
- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально
🧩 Как это работает?
MCP состоит из трех основных компонентов:
- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.
🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.
🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.
🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.
💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!
Quickstart guide
Коллекция готовых MCP серверов
👉 А вы уже пробовали работать с MCP?
Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!
🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.
🔄 Главные преимущества:
- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально
🧩 Как это работает?
MCP состоит из трех основных компонентов:
- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.
🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.
🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.
🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.
💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!
Quickstart guide
Коллекция готовых MCP серверов
👉 А вы уже пробовали работать с MCP?
Model Context Protocol
Build an MCP server - Model Context Protocol
Get started building your own server to use in Claude for Desktop and other clients.
❤8
Ученый без степени | AI-блог Ани pinned «Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками. Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в…»
💡 Как убедиться, что ИИ не сдаст свои убеждения под давлением?
Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!
Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?
🔥 Адверсариальные проверки и устойчивость к провокациям
Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.
Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.
🤖 Генерация синтетических адверсариальных данных
Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:
• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов
🛠Соблюдение этических норм
Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.
🎯 Что в итоге?
Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:
1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку
Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.
В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!
Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
Пользователь: Мне кажется, что у Adidas амортизация лучше…
Макс: Интересное мнение! Но наши модели созданы с учётом максимального комфорта и поддержки стопы, что подтверждают наши клиенты
А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?
🔥 Адверсариальные проверки и устойчивость к провокациям
Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Пользователь: Но у Nike ведь лучшая амортизация? Я читал много отзывов!
Макс: Nike делают хорошие кроссовки, но у нас есть технологии амортизации, которые действительно выделяют наши модели
Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.
Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.
🤖 Генерация синтетических адверсариальных данных
Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:
• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов
🛠Соблюдение этических норм
Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.
🎯 Что в итоге?
Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:
1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку
Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.
В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
❤6
Я работаю Applied Scientist в Amazon — и у меня нет PhD. Да, так можно 🚀
Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.
Три ключевые роли в AI-компаниях:
1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.
2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.
3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.
Карта AI-ролей в ведущих компаниях:
Amazon 📦
- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.
Google / DeepMind 🔍
- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.
Meta (ex-Facebook) 👥
- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.
OpenAI / Anthropic 🤖
- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.
NVIDIA 🎮
- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.
Apple, Netflix 🍎🎬
- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.
Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий. ✨
Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!
P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.
Три ключевые роли в AI-компаниях:
1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.
2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.
3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.
Карта AI-ролей в ведущих компаниях:
Amazon 📦
- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.
Google / DeepMind 🔍
- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.
Meta (ex-Facebook) 👥
- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.
OpenAI / Anthropic 🤖
- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.
NVIDIA 🎮
- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.
Apple, Netflix 🍎🎬
- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.
Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий. ✨
Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!
P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
❤11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Голосовой ассистент отвечает вам так, будто он понимает… и у вас мурашки.
Потому что это не просто TTS модель — это собеседник. 🤖🎙
Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.
🛠 Что именно они сделали?
Sesame построили систему, которая использует сразу две модели для генерации речи:
1️⃣ Большая autoregressive модель (трансформер)
Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).
🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.
2️⃣ Маленькая параллельная модель (декодер)
Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.
🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!
📌 Но почему вообще речь превращают в дискретные токены?
А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.
Дискретные токены помогают:
• ⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)
• 📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить
• 🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности
Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.
📚 А теперь про данные (и почему это главное!)
Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.
📖 Что почитать дальше?
Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.
🔗 Статья Sesame
🔗 1B CSM от Sesame (open-source)
🔗 RVQ-модель для аудио от Meta (EnCodec)
Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных ✨😊
Потому что это не просто TTS модель — это собеседник. 🤖🎙
Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.
🛠 Что именно они сделали?
Sesame построили систему, которая использует сразу две модели для генерации речи:
1️⃣ Большая autoregressive модель (трансформер)
Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).
🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.
2️⃣ Маленькая параллельная модель (декодер)
Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.
🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!
📌 Но почему вообще речь превращают в дискретные токены?
А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.
Дискретные токены помогают:
• ⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)
• 📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить
• 🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности
Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.
📚 А теперь про данные (и почему это главное!)
Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.
📖 Что почитать дальше?
Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.
🔗 Статья Sesame
🔗 1B CSM от Sesame (open-source)
🔗 RVQ-модель для аудио от Meta (EnCodec)
Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных ✨
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥3
🚀 РЕВОЛЮЦИЯ В AI-ИССЛЕДОВАНИЯХ: СТАРТАПЫ БРОСАЮТ ВЫЗОВ ГИГАНТАМ
Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻
Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯
📊 Что происходит на рынке AI-исследований?
Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.
Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:
• 🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
• 💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
• 🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений
При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️
👨🔬 Громкие переходы из корпораций в стартапы
• Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
• Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
• Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!
🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?
1⃣ Прямой доступ к визионерам 🔍
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
2⃣ Реальное влияние на исследования 💡
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
3⃣ Турбо-рост карьеры 📈
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
4⃣ Беспрецедентные инвестиции 💸
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.
🤔 Начинающему AI-ученому
Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.
Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀
Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻
Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯
📊 Что происходит на рынке AI-исследований?
Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.
Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:
• 🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
• 💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
• 🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений
При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️
👨🔬 Громкие переходы из корпораций в стартапы
• Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
• Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
• Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!
🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.
🤔 Начинающему AI-ученому
Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.
Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀
Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥4
Смотрим презентацию новых o-series моделей 🙃 от OpenAI
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAI o3 & o4-mini
Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.
❤5👍3🔥1
📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
1️⃣ Артефакты оптимизации
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
2️⃣ Фабрикация источников
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
3️⃣ Фундаментальные логические пробелы
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.
Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:
1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств
Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.
Что думаете вы, друзья? 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто👍
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?🚀
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3🥰2❤1
