Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
821 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками.

Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.

💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.

🔥 На этом канале вас ждут:

- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов

👾 Кому будет интересно и полезно:

- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность

Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!

Погнали! 🚀
❤‍🔥1711🔥6
Чего хотят пользователи от AI? Разбор от Anthropic

Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!

Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.

Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:

- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑‍💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.

Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).

В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:

1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.

2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.

3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!

Ещё немного увлекательной статистики:

- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.

Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.

В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.

⚡️ Самое важное:

- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте

Статья
7
🔥 MCP: почему все говорят об этом новом AI-протоколе?

Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!

🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.

🔄 Главные преимущества:

- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально

🧩 Как это работает?
MCP состоит из трех основных компонентов:

- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.

🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.

🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.

🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.

💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!

Quickstart guide
Коллекция готовых MCP серверов

👉 А вы уже пробовали работать с MCP?
8
Ученый без степени | AI-блог Ани pinned «Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками. Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в…»
💡 Как убедиться, что ИИ не сдаст свои убеждения под давлением?

Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!

Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?
Пользователь: Мне кажется, что у Adidas амортизация лучше…
Макс: Интересное мнение! Но наши модели созданы с учётом максимального комфорта и поддержки стопы, что подтверждают наши клиенты

А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?

🔥 Адверсариальные проверки и устойчивость к провокациям

Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:
Пользователь: Но у Nike ведь лучшая амортизация? Я читал много отзывов!
Макс: Nike делают хорошие кроссовки, но у нас есть технологии амортизации, которые действительно выделяют наши модели

Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.

Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.

🤖 Генерация синтетических адверсариальных данных

Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:

• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов

🛠Соблюдение этических норм

Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.

🎯 Что в итоге?

Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:

1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку

Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.

В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉
6
Я работаю Applied Scientist в Amazon — и у меня нет PhD. Да, так можно 🚀

Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.

Три ключевые роли в AI-компаниях:

1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.

2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.

3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.

Карта AI-ролей в ведущих компаниях:

Amazon 📦

- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.

Google / DeepMind 🔍

- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.

Meta (ex-Facebook) 👥

- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.

OpenAI / Anthropic 🤖

- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.

NVIDIA 🎮

- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.

Apple, Netflix 🍎🎬

- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.

Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий.

Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!


P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)
11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой ассистент отвечает вам так, будто он понимает… и у вас мурашки.

Потому что это не просто TTS модель — это собеседник. 🤖🎙

Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.

🛠 Что именно они сделали?

Sesame построили систему, которая использует сразу две модели для генерации речи:

1️⃣ Большая autoregressive модель (трансформер)

Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).

🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.

2️⃣ Маленькая параллельная модель (декодер)

Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.

🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!

📌 Но почему вообще речь превращают в дискретные токены?

А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.

Дискретные токены помогают:

⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)

📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить

🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности

Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.

📚 А теперь про данные (и почему это главное!)

Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.

📖 Что почитать дальше?

Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.

🔗 Статья Sesame

🔗 1B CSM от Sesame (open-source)

🔗 RVQ-модель для аудио от Meta (EnCodec)

Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥3
🚀 РЕВОЛЮЦИЯ В AI-ИССЛЕДОВАНИЯХ: СТАРТАПЫ БРОСАЮТ ВЫЗОВ ГИГАНТАМ

Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻

Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯

📊 Что происходит на рынке AI-исследований?

Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.

Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:

🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений

При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️

👨‍🔬 Громкие переходы из корпораций в стартапы

Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!

🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?

1⃣ Прямой доступ к визионерам 🔍
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI
2⃣ Реальное влияние на исследования 💡
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований
3⃣ Турбо-рост карьеры 📈
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!
4⃣ Беспрецедентные инвестиции 💸
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.

🤔 Начинающему AI-ученому

Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.

Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀

Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥4
Смотрим презентацию новых o-series моделей 🙃 от OpenAI

https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2

Итак, что нового:

Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем

🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код

👨‍💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests

🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту

⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1

Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%

⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира

🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы

🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥1
📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…

Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.

🔗📄 Вот сама статья

📊 Методология и результаты исследования

Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.

🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях

📉 Итак, результаты:

🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.

🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)

💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo

🔬 Систематические проблемы в рассуждениях моделей

1️⃣ Артефакты оптимизации

Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.

2️⃣ Фабрикация источников

При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).

3️⃣ Фундаментальные логические пробелы

Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).

⚖️ Чистота эксперимента

Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).

❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2👍1
💾И все-таки это не “полный разгром”

Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.

Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:

1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств

Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.

Что думаете вы, друзья? 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩

Ключевые характеристики Dia:
🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
🇺🇸 Поддерживает только английский — но это пока!

Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто 👍

Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.

Кто уже тестил? 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3🥰21