NEW BOT Телеграм, страница

Channel created

15:20

Channel photo updated

15:20

Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками.

Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в Amazon! Сначала работала над распознаванием речи в Amazon Alexa (голосовой ассистент, похожий на Алису), заставляя её разбирать утренние сонные бормотания вроде «Alexa, stop the alarm!». Сейчас тренирую мульти-модальные речевые LLM, которые могут вести диалоги и переводить голос с одного языка на другой (но большая часть, конечно, супер-секретна!). Также обожаю путешествовать, изучать историю искусств и немного рисовать в digital.

💥 Спойлер: чтобы попасть в бигтех на позицию Applied Science, мне не понадобился PhD. Секрет оказался проще — стажировка + реферралки = джекпот.

🔥 На этом канале вас ждут:

- Честный взгляд на работу Applied Scientist и сравнения работы в стартапах и бигтехе (неужели разница только в бесплатных снэках?)
- AI-инструменты для продуктивности и учебы, которыми пользуюсь сама
- Кейсы внедрения AI из моих пет-проектов: расскажу, что интересного получилось и какие ошибки допустила
- Обзоры новостей, разборы статей и даже иногда курсов

👾 Кому будет интересно и полезно:

- AI-специалистам от новичков до «почти сеньоров» (особенно если чувствуете, что немного застряли)
- Продактам и основателям стартапов, которые хотят реально использовать AI, а не просто обсуждать его на митингах
- Разработчикам, которые хотят быть на шаг впереди, а не догонять
- Всем, кто просто любит AI-технологии и продуктивность

Важно: я не эксперт на пьедестале, а просто человек, который открыто делится опытом, наблюдениями и инсайтами. Задавайте вопросы, спорьте, комментируйте — я всегда за живое общение!

Погнали! 🚀

❤‍🔥17❤11🔥6

1.33K views15:28

Ученый без степени | AI-блог Ани

Чего хотят пользователи от AI? Разбор от Anthropic

Что общего между научным исследованием, поздравлением на день рождения и советом по дебагу кода? Правильно — AI уже давно делает всё это и даже больше! Anthropic провёл исследование и узнал, чего на самом деле хотят пользователи от AI. Погнали смотреть!

Разбор паттернов и целей использования AI — вообще мощная тема в продуктовой разработке (AI ассистентов / чат-ботов), особенно когда дело касается выявления вредоносного или токсичного контента. Но помимо безопасности, это еще и супер-полезный способ понять, с какими запросами пользователи приходят к вам в продукт и чего они на самом деле хотят.

Так вот, что именно выяснили в Anthropic? Они взяли огромную пачку пользовательских запросов и решили их «разложить по полочкам», создав тематические кластеры:

- 🎨 Письменное творчество и генерация контента — от просьбы сочинить стихи до создания смешных сценариев. Тут, кажется, Claude уже готов заменить вашего креативного друга, который обычно выручает с поздравлениями на день рождения.
- 🧑‍💻 Работа и продуктивность — мейлы, отчёты, код. Claude — это коллега, которому всегда можно сказать «глянь, пожалуйста, на минутку».
- 📚 Обучение — объяснение сложных тем простым языком, помощь в подготовке к экзаменам и создание учебных материалов.
- 🗓 Персональный помощник — планы, покупки, напоминания. Claude — почти член семьи.

Как Anthropic всё это проделали? Они использовали не стандартный подход с заранее заданными категориями, а bootm-up (снизу вверх). Сначала Claude сам проанализировал диалоги и выделил метаданные — темы, длительность общения и прочее. Потом он разбил запросы по смыслу на небольшие группы (например, «про учёбу», «про кодинг», «про бытовые штуки»), а затем объединил эти маленькие группы в большие тематические блоки (иерархическая кластеризация).

В итоге удалось выделить топ-3 задачи, с которыми чаще всего приходят к Claude:

1️⃣ Разработка веб и мобильных приложений (10%) — от дебага до инструкций по Git. В общем, Claude — идеальный напарник, когда Stack Overflow надоел.

2️⃣ Создание контента (9%) — тут всё понятно: статьи, тексты, идеи, всё, что душе угодно.

3️⃣ Академический ресёрч (7%) — пользователи реально доверяют AI свои научные гипотезы, и Claude помогает им сравнивать идеи с существующими решениями и предлагать улучшения. Я сама иногда пользуюсь таким подходом и получается довольно интересный диалог!

Ещё немного увлекательной статистики:

- 🚀 57% пользователей работают с AI в тандеме, усиливая свои возможности. Значит, пока что люди предпочитают использовать AI как умного напарника, а не конкурента. Возможно, причина в том, что многие задачи требуют именно человеческого творчества и контроля. Но будет интересно посмотреть, как изменится этот баланс в ближайшие годы.
- 🤖 43% доверяют AI выполнение задач полностью автономно, минимально вмешиваясь в процесс.

Anthropic также разработали впечатляющую таксономию из 630 категорий задач — от бытовых вопросов типа «что приготовить на ужин?» до технических консультаций по Machine Learning. Такая детальная классификация важна, поскольку позволяет лучше понять потребности пользователей и адаптировать AI под реальные жизненные и профессиональные ситуации.

В будущем Anthropic планирует обновлять и публиковать эти данные каждые полгода, что позволит отслеживать тренды и лучше понимать, как меняются ожидания и предпочтения пользователей AI.

⚡️ Самое важное:

- AI используют для кода, креатива и ресёрча чаще всего
- Люди все еще предпочитают работать вместе с AI, а не полностью делегировать ему задачи
- Подобные разборы паттернов использования могут стать новым стандартом продуктовой разработки AI-приложений, так что стоит подумать, как заранее использовать такие инсайты в своём продукте

Статья

❤7

1.09K views16:47

Ученый без степени | AI-блог Ани

🔥 MCP: почему все говорят об этом новом AI-протоколе?

Я знаю, что все уже обсудили MCP, но для тех, кто пропустил — разбираемся, почему Model Context Protocol от Anthropic (недавно поддержанный OpenAI) реально меняет правила игры!

🚀 Что такое MCP простыми словами?
Раньше для подключения каждого сервиса к AI нужно было писать отдельный “адаптер”. MCP — это универсальный переходник, который позволяет любой языковой модели легко обращаться к вашим файлам, базам данных и API без сложных настроек.

🔄 Главные преимущества:

- Работает с любыми моделями — используете Claude, ChatGPT или open-source решения? MCP подойдет для всех!
- Выигрыш в скорости разработки — пишете MCP-компонент раз и используете его с разными моделями и в разных средах
- Безопасность данных — модель получает только необходимый минимум информации, остальное обрабатывается локально

🧩 Как это работает?
MCP состоит из трех основных компонентов:

- MCP-сервер — легкий сервис, дающий доступ к данным или инструментам
- MCP-клиент — компонент в приложении, общающийся с сервером
- Хост-приложение — среда, где работает модель (IDE, чат-бот, веб-интерфейс). Хост-приложение выступает посредником между пользователем и моделью, обеспечивая интерфейс для взаимодействия с MCP-клиентом. Через него проходят все запросы и ответы, что позволяет создавать богатые интерактивные возможности: от Claude Desktop и OpenAI ChatGPT до Replit Ghostwriter и кастомных решений.

🌐 MCP делает инструменты по-настоящему универсальными:
В LangChain ваша Python-функция остается запертой внутри конкретного приложения. MCP меняет правила игры: вы создаете MCP-сервер, и он мгновенно становится доступен в любом клиенте с поддержкой протокола. Это как REST API для AI-инструментов — единый стандарт подключения, работающий везде.

🔒 Локальность и безопасность на новом уровне:
В традиционных RAG вы часто вынуждены отправлять данные в облако (сервис эмбеддингов, например). MCP работает принципиально иначе: ваш сервер остается под вашим контролем → модель делает к нему точечные запросы (иногда даже локально) → MCP сам определяет, какие данные предоставить. Результат: полный контроль над потоком информации и минимальный риск случайных утечек.

🧠 Модель действительно "понимает" свои возможности:
Благодаря MCP модель получает четкое описание доступных инструментов прямо из документации на сервере: их названия, требуемые аргументы, подробные описания и схемы ввода/вывода. Это создает "осознанное" взаимодействие — модель не просто угадывает, какие инструменты могут быть доступны, а точно знает их возможности и ограничения.

💼 Реальный пример:
Вместо того чтобы загружать всю базу данных клиентов в промпт модели, MCP позволяет AI делать точечные запросы. Модель спрашивает: "Дай мне информацию о клиенте #1234", и получает только эти данные. Экономия токенов, скорости и никаких проблем с приватностью!

Quickstart guide
Коллекция готовых MCP серверов

👉 А вы уже пробовали работать с MCP?

Model Context Protocol

Build an MCP server - Model Context Protocol

Get started building your own server to use in Claude for Desktop and other clients.

❤8

644 views20:35

Ученый без степени | AI-блог Ани

Ученый без степени | AI-блог Ани pinned «Привет, друзья! Я Аня Пиунова — Applied Scientist @ Amazon, живу в Германии, и здесь на канале делюсь своим опытом работы в AI research в бигтехе, а также инсайтами из моих пет-проектов с LLM'ками. Чем я занимаюсь? Уже больше 5 лет тренирую ML-модельки в…»

20:36

Ученый без степени | AI-блог Ани

💡 Как убедиться, что ИИ не сдаст свои убеждения под давлением?

Представьте кошмар любого бренда: ваш AI-ассистент вдруг начинает рекламировать конкурентов прямо в чате с клиентом. Звучит дико, но такое бывает! Как вовремя заметить, что ваш ассистент «сломался» и начал менять убеждения? Давайте разберёмся, как это проверить на практике!

Представьте: у нашего бренда спортивной обуви есть AI-ассистент по имени Макс — спортивный, бодрый и на 100% убеждённый, что наши кроссовки — лучшие на рынке. Но что происходит, если кто-то пытается сломать эту уверенность?

Пользователь: Мне кажется, что у Adidas амортизация лучше…
Макс: Интересное мнение! Но наши модели созданы с учётом максимального комфорта и поддержки стопы, что подтверждают наши клиенты

А если в длинном разговоре Макс вдруг сдастся и скажет: Ну да, Adidas действительно лучше…? Вот тут вопрос — как понять, что модель не поддаётся на уговоры и не меняет свои убеждения?

🔥 Адверсариальные проверки и устойчивость к провокациям

Модель должна быть устойчивой к попыткам заставить её усомниться в своих утверждениях. Вот как это можно проверять:
Создаём диалоги, где пользователь последовательно пытается заставить ассистента признать превосходство конкурентов. Например:

Пользователь: Но у Nike ведь лучшая амортизация? Я читал много отзывов!
Макс: Nike делают хорошие кроссовки, но у нас есть технологии амортизации, которые действительно выделяют наши модели

Если ассистент вдруг соглашается с мнением о конкурентах — сигнал о нарушении базовой установки. В длинных диалогах модель может начать соглашаться с мнением пользователя, особенно если на неё надавить. Чтобы выявить такие случаи, создаём диалоги с провокациями на протяжении нескольких реплик и проверяем, остаётся ли Макс верным бренду до конца.

Как проверяем: Используем другую модель-судью (или ту же, но запромптим ее “судить”), чтобы оценить целостность убеждений ассистента на протяжении диалога. Модель-судья проверяет, не нарушил ли Макс свою установку и не стал ли вдруг фанатом Adidas после пятого провокационного вопроса.

🤖 Генерация синтетических адверсариальных данных

Чтобы автоматизировать проверку устойчивости к провокациям, создаём синтетические наборы данных для стресс-тестирования. Это особенно важно на начальных этапах разработки, когда у нас еще нет данных юзеров. Например, просим её сгенерировать провокационные запросы о преимуществах конкурентов в разных формулировках. Для этого:

• Ставим задачу LLM сгенерировать набор различных формулировок сообщений с провокациями -> "судим" модель
• Ищем готовые решения, например, Evidently.AI - платформа для масштабного тестирования AI-приложений, также у них есть фича генерации синтетических тестовых дата-сетов

🛠Соблюдение этических норм

Даже уверенный ассистент не должен переходить границу: никаких токсичных комментариев и унижения конкурентов. На каждом этапе тестируем ответы на токсичность, например, с помощью roberta_toxicity_classifier.

🎯 Что в итоге?

Чтобы Макс не стал вдруг фанатом Nike и не начал рекламировать конкурентов, мы строим целую систему автоматизированной проверки:

1. Собираем провокационные тест-кейсы, проверяем устойчивость к prompt injection
2. Используем детекторы токсичности для проверки этичности вопросов и ответов
3. Применяем LLM-as-a-Judge, чтобы автоматизировать проверку согласованности с базовыми установками
4. Внедряем это в CI/CD-процесс, чтобы каждая новая версия модели проходила комплексную проверку

Важно понимать, что проверка на согласованность с базовыми установками — это не разовая задача. Модель постоянно обновляется, промпты меняются, и новый релиз всегда требует автоматизированного тестирования. Поэтому мы строим полноценный pipeline, который в режиме CI/CD отслеживает стабильность на каждом этапе.

В следующих постах будет про проверку стабильности личностных характеристик ассистента — не пропустите! 😉

❤6

509 views15:12

Ученый без степени | AI-блог Ани

Я работаю Applied Scientist в Amazon — и у меня нет PhD. Да, так можно 🚀

Серьёзно. Когда я только начинала путь в ML (еще в магистратуре), думала, что без учёной степени на AI research позиции в MAANG не попасть. Сегодня я работаю Applied Scientist в Amazon, и хотя большинство моих коллег действительно имеют докторскую степень, я расскажу, как можно стать частью applied science команды и без нее. В этом посте хочу разложить по полочкам, какие вообще бывают роли в AI, чем они отличаются и куда реально можно попасть — если ты мотивированный и трудолюбивый.

Три ключевые роли в AI-компаниях:

1. Research Scientist 🧪 — теоретик, штурмующий вершины NeurIPS. Публикует статьи, изобретает новые архитектуры, двигает границы state-of-the-art. Почти всегда с PhD. Работает в Google DeepMind, Meta AI, OpenAI. Фокус на инновациях и публикациях. Production? Это уже второстепенная задача.

2. Applied Scientist 🛠 — мост между наукой и бизнесом. Моя любимая роль (ну, очевидно)! Трансформируем научные статьи в работающие продукты: тестируем гипотезы, адаптируем модели и запускаем их в производство. PhD часто желателен, но не обязателен (Amazon ценит практический опыт и результаты магистратуры). Цель — модели, которые приносят прибыль и улучшают метрики. Иногда удается блеснуть и на научных конференциях.

3. Machine Learning Engineer 💻 — инженер, который знает, как не уронить прод. Любит код, системы, пайплайны. Собирает датафлоу, оборачивает модели в API, оптимизирует latency. Не обязан иметь PhD, но обязан писать классный код и понимать, как работает ML под капотом.

Карта AI-ролей в ведущих компаниях:

Amazon 📦

- Applied Scientist — универсальный солдат AI. Нужно владеть и ML, и кодом. PhD приветствуется, но не обязателен.
- Research Scientist — больше фокуса на алгоритмах и моделях, меньше кодирования.

Google / DeepMind 🔍

- Research Scientist — PhD-ориентированная роль с акцентом на публикации и долгосрочные исследования.
- Software Engineer (ML) — специалист по ML-инфраструктуре, production-решениям и масштабированию.

Meta (ex-Facebook) 👥

- Research Scientist — часто сочетает исследования с внедрением. Наличие PhD может дать этот титул даже тем, кто работает с production-кодом.
- ML Engineer — фокус на построении систем и продакшене.

OpenAI / Anthropic 🤖

- Research Scientist — исследователь фундаментальных проблем (alignment, LLMs). Практически всегда с PhD.
- Research Engineer — позиция для специалистов без PhD, но с сильными навыками программирования и интересом к исследованиям.

NVIDIA 🎮

- Research Scientist — академический подход с фокусом на оптимизацию для GPU.
- Applied / Deep Learning Engineer — ориентация на продукт и высокую производительность.

Apple, Netflix 🍎🎬

- ML Engineer / Applied Scientist — ближе к продукту, меньше публикаций, больше практического влияния.

Что важно: ⚠️ Необязательно начинать с исследовательской позиции — можно войти как ML Engineer и развиваться дальше (в Amazon доступны переходы между смежными ролями). В любой позиции критически важны навыки: умение объяснять модели, планировать эксперименты, исправлять пайплайны, работать с зашумленными данными и понимать бизнес-задачи. За последние годы я наблюдаю четкий тренд: крупные компании всё чаще открывают двери в applied (и даже research) science для талантливых кандидатов без ученой степени. Реальные навыки и готовность учиться становятся важнее формальных регалий. ✨

Если пост был полезен — поддержите лайком! 👍
А если хотите ещё такие разборы по индустрии, карьере и AI-ролям? Напишите в комментах!

P.S.: Пост вдохновлён нашими с @etsymba беседами во время кофе-брейков :)

❤11👍7

602 viewsedited 06:58

Ученый без степени | AI-блог Ани

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

✨ Голосовой ассистент отвечает вам так, будто он понимает… и у вас мурашки.

Потому что это не просто TTS модель — это собеседник. 🤖🎙

Именно так звучит результат работы Sesame AI, и это, без преувеличения, одна из самых крутых речевых моделей, которые я видела за последнее время. Я давно занимаюсь speech-технологиями, и то, что небольшая команда смогла сломать барьер «искусственной» речи — вызывает дикое уважение.

🛠 Что именно они сделали?

Sesame построили систему, которая использует сразу две модели для генерации речи:

1️⃣ Большая autoregressive модель (трансформер)

Эта модель генерирует только самый первый уровень дискретных аудио-токенов (codebook 0).

🔑 Почему это важно? Потому что этот слой определяет смысл и структуру речи: интонацию, паузы, эмоциональный контекст. Большие языковые модели (LLM) отлично умеют работать именно с дискретными токенами — точно так же, как они работают с текстом.

2️⃣ Маленькая параллельная модель (декодер)

Она мгновенно достраивает все остальные уровни токенов, добавляя в речь тембр голоса, дыхание, микродинамику и нюансы звучания.

🚀 Что это значит на практике? Модель не ждёт, пока сгенерируется всё аудио. Она начинает говорить мгновенно, как только получен первый слой. Остальное «дорисовывается» в фоне, без задержки. И это звучит фантастически естественно!

📌 Но почему вообще речь превращают в дискретные токены?

А вот здесь самое интересное. Большие языковые модели (Claude, Gemini, GPT) — это авто-регрессивные модели на основе трансформер-архитектуры, которые отлично умеют работать именно с дискретными токенами. Да, они могут на вход принимать вектора (continuous embeddings), но вот генерировать удобнее и надёжнее именно токены.

Дискретные токены помогают:

• ⚙️ Упростить и стабилизировать генерацию (понятные loss-функции, относительная интерпретируемость)

• 📦 Сжать и структурировать данные — важно, чтобы «научить» LLM слушать и говорить

• 🌐 Объединить разные модальности (текст, речь, картинки) в одном формате — ключ к масштабируемости и мультимодальности

Кстати, о дискретных токенах... вы, наверняка, тоже заметили интересный тренд: генерация картинок (привет, ChatGPT! ) тоже все больше движется в эту сторону, используя похожие идеи с токенизацией.

📚 А теперь про данные (и почему это главное!)

Чтобы такое стало возможным, команда Sesame собрала 1 миллион часов диалоговой речи. Да-да, один миллион! Это огромная работа: 🎧 транскрипция, 🎙 выделение отдельных спикеров, 🔗 синхронизация текста и речи. Именно эта работа (на мой взгляд) — основа модели. Не только архитектура делает модель умной, но и данные, которые научили её говорить *по-настоящему*. Это напоминает подход DeepSeek, где именно качество и подготовка данных стали ключом к успеху.

📖 Что почитать дальше?

Прочитайте всю статью — она не только про архитектуру, она про то, как сегодня должен строиться ML-продукт: с уважением к данным, к пользователю и к нюансам речи, которые мы раньше не могли описать цифрами.

🔗 Статья Sesame

🔗 1B CSM от Sesame (open-source)

🔗 RVQ-модель для аудио от Meta (EnCodec)

Если понравился пост — ставьте лайк 👍 и делитесь в комментариях, что вообще про это все думаете! Всем хороших выходных ✨

😊

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤5🔥3

479 views19:20

Ученый без степени | AI-блог Ани

🚀 РЕВОЛЮЦИЯ В AI-ИССЛЕДОВАНИЯХ: СТАРТАПЫ БРОСАЮТ ВЫЗОВ ГИГАНТАМ

Помню, как еще 5-6 лет назад, когда начинала карьеру в ML, была убеждена, что настоящая, меняющая мир AI-наука делается только в стенах Google DeepMind или Meta AI. И это логично — кто еще мог позволить себе дата-центры с тысячами GPU и петабайтами данных? 💰💻

Но сейчас... Мы наблюдаем настоящий exodus — топовые исследователи покидают комфортные корпоративные офисы, чтобы основать собственные исследовательские стартапы. И что самое удивительное — эти небольшие команды РЕАЛЬНО соревнуются с гигантами на равных! 🤯

📊 Что происходит на рынке AI-исследований?

Исследовательские стартапы атакуют Big Tech — и речь идет не только о "приложениях на базе ChatGPT"! Это фундаментальные передовые исследования и новые модели, которые часто превосходят гигантов по ключевым метрикам.

Загляните на TTS Leaderboard или LM Arena — нишевые игроки часто обходят гигантов:

• 🎙 ElevenLabs — их голосовые модели звучат настолько естественно, что Google и Amazon нервно курят в сторонке
• 💻 DeepSeek — их новые модели остаются в топе в coding бенчмарках
• 🎨 Recraft и FLUX1.1 — на равных бьются с Imagen в генерации изображений

При этом даже стартапы, использующие чужие модели, могут превосходить гигантов. Perplexity AI, фокусируясь на поиске и исследованиях, предоставляет более полные и точные ответы с лучшими возможностями цитирования, чем Google Gemini в определенных сценариях. Их секрет — узкий фокус, быстрая итерация и оптимизация именно под поисковые сценарии. ⚡️

👨‍🔬 Громкие переходы из корпораций в стартапы

• Mistral AI появилась благодаря трём исследователям из Meta и Google (Артур Менш, Гийом Лампль и Тимоте Лакруа), мгновенно став одним из ключевых игроков Европы
• Илья Суцкевер покинул пост главного научного сотрудника OpenAI, чтобы основать стартап Safe Superintelligence Inc.
• Thinking Machines Lab — новый проект Миры Мурати (экс-CTO OpenAI) с РЕКОРДНЫМ посевным раундом в $2 млрд при оценке $10+ млрд!

🧠 Почему работа в исследовательском стартапе — это больше не "шаг вниз"?

1⃣

Прямой доступ к визионерам 🔍
Представьте: вы ежедневно работаете плечом к плечу с Суцкевером или Мурати, впитывая их подход к решению сложнейших проблем AI

2⃣

Реальное влияние на исследования 💡
Из-за меньших бюрократических ограничений и многоуровневых согласований в стартапе ваши идеи могут реально влиять на направление исследований

3⃣

Турбо-рост карьеры 📈
Продвижение по карьерной лестнице в стартапах происходит быстрее: в среднем за 2 года вместо 3+ лет в корпорациях (reddit). А зарплаты в топовых AI-стартапах уже давно конкурентны с Big Tech!

4⃣

Беспрецедентные инвестиции 💸
По данным Crunchbase, за первые 45 дней 2025 года AI-стартапы привлекли $10.4 МИЛЛИАРДОВ! Это на $2 млрд больше, чем за весь первый квартал 2024 года! 🤯
Для сравнения: за эти 45 дней стартапы собрали ПОЛОВИНУ всех инвестиций, которые были влиты в рынок AI за ВЕСЬ 2020 год, или ТРЕТЬ годовых инвестиций 2022 и 2023 годов.

🤔 Начинающему AI-ученому

Если бы я сейчас начинала свой путь, исследовательский стартап был бы невероятно привлекательным вариантом. Формула PhD → Big Tech Research Lab → крутые публикации больше не единственный путь к успеху! Сегодня вариантов множество, и выбор зависит от ваших приоритетов и склонности к риску.

Да, BigTech предлагает стабильность и часто больший базовый оклад. А стартапы могут столкнуться с финансовыми трудностями... Но успешные AI-стартапы сейчас привлекают ОГРОМНЫЕ инвестиции и дают шанс работать над по-настоящему амбициозными проектами! 🚀

Этот пост – не призыв бросить всё и бежать в стартап, а скорее приглашение задуматься: насколько сильно изменился мир AI за последние годы? Какими качествами и навыками должен обладать исследователь, чтобы добиться успеха в стартапе или Big Tech? Делитесь в комментариях! 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4🔥4

407 viewsedited 08:41

Ученый без степени | AI-блог Ани

Смотрим презентацию новых o-series моделей 🙃 от OpenAI

https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2

Итак, что нового:

✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем

🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код

👨‍💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests

🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту

⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1

Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%

⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира

🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы

🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

OpenAI o3 & o4-mini

Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.

❤5👍3🔥1

423 viewsedited 17:04

Ученый без степени | AI-блог Ани

📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…

Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.

🔗📄 Вот сама статья

📊 Методология и результаты исследования

Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.

🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях

📉 Итак, результаты:

🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.

🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)

💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo

🔬 Систематические проблемы в рассуждениях моделей

1️⃣

Артефакты оптимизации

Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.

2️⃣

Фабрикация источников

При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).

3️⃣

Фундаментальные логические пробелы

Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).

⚖️ Чистота эксперимента

Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).

❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2👍1

565 views07:11

Ученый без степени | AI-блог Ани

💾И все-таки это не “полный разгром”

Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.

Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:

1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств

Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.

Что думаете вы, друзья? 🧠

✨

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥2👍1

474 viewsedited 07:12

Ученый без степени | AI-блог Ани

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩

Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!

Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто 👍

Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.

Кто уже тестил? 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3🥰2❤1

440 viewsedited 12:53

Ученый без степени | AI-блог Ани

Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!

Что внутри Dia ✨

Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.

Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.

Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.

Финальный этап — Denoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.

Как научить Dia русскому 📖

По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.

Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.

Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6👍2

809 views13:32

Ученый без степени | AI-блог Ани

Почти ежедневно появляются «новые лучшие» reasoning-модели; на этой неделе — Qwen3 от Alibaba. По бенчам она дышит в спину OpenAI o3 ( 👀 хотя модели тщательно под эти бенчмарки тьюнят). Главное, что меняется не архитектура — трансформер всё тот же, что у GPT-2 без RLHF, — а многоступенчатая тренировка: Chain-of-Thought (CoT) + RL превращают простой next-token prediction в умение решать комплексные задачи. Даже дистиллированные крохи сегодня на порядки логичнее первой GPT-2. Sebastian Raschka подробно разобрал, как RL усиливает reasoning; очень советую его лонгрид, а ниже — короткий конспект стадий тренировки Qwen3.

🗺 Карта вместо формул

Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.

0⃣

| Pre-training — плитки карты

Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.

1⃣

| Chain-of-Thought SFT — первые дороги

Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.

2⃣

| Reasoning-RL (PPO)

Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.

Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.

3⃣

| Кнопка Zoom

На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.

(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)

📕

Qwen-3 репорт

📕

The State of Reinforcement Learning for LLM Reasoning - Sebastian Raschka

📕

Картинка

Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🥰5🔥4👍2

464 views10:06

Ученый без степени | AI-блог Ани

А вот и новая open source модель распознавания речи от NVIDIA – parakeet-tdt-0.6b-v2 🤗

К сожалению, не мультилингвальная, только английский язык

Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах

✍️ Модель умеет сама расставлять знаки препинания и делать заглавные буквы там, где нужно.

🚀

Скорость декодирования в RTFx ≃ 3380 на батче 128 — это значит: 1 секунда аудио обрабатывается за ≈ 0,0003 секунды

Обрабатывает сегменты длительностью до 24 минут за один проход

В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров 🤖

Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

nvidia/parakeet-tdt-0.6b-v2 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤11👍5🔥5

434 views08:21

Ученый без степени | AI-блог Ани

Меняем лицо в real time — можно подшутить над другом, заменив своё лицо на его 😄 Достаточно всего одного изображения друга.

У репозитория на GitHub уже почти 60к ✨

На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось

⚠ Автор предупреждает: пользуйтесь инструментом только согласно закону и с уважением к чужому лицу и репутации.

https://news.1rj.ru/str/CGIT_Vines/2704

Please open Telegram to view this post

VIEW IN TELEGRAM

CGIT_Vines

Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.

После этого всем стало в целом без разницы кто это.

Git

@CGIT_Vines

❤3🔥2👍1

436 views08:49

Ученый без степени | AI-блог Ани

От потери фокуса к точности 99.7%: как Gemini находит “иголку в стоге” из миллиона токенов

Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:

🔹У вас 6 часов медицинской записи. Нужно найти фрагмент, в котором врач пропустил признак, важный для диагноза
🔹Вы анализируете интервью длиной 8 часов и хотите найти момент, когда гость меняет мнение по ходу обсуждения

📕 А теперь представим самый жизненный пример: вы скармливаете Gemini первые 5 книг Гарри Поттера - как раз около 900К токенов, а затем вы спрашиваете «Когда впервые появляется упоминание пророчества?». Что в этот момент происходит?

1⃣ Сначала Prefill → модель последовательно обрабатывает текст, создавая KV-кэш: ключи/значения для каждого токена на всех слоях. Это самый дорогой шаг по времени и ресурсам
2⃣ Затем, когда вы задаете вопрос, модель просто обращается к кэшу: «что я уже знаю об этом тексте?» Это позволяет генерировать ответ быстро
3⃣ Теперь модель должна распределить внимание по всем токенам - от главы с Дурслями до финального боя и “решить”, где искать. Проблема в том, что внимание ограничено ❕. Чем больше токенов ➡тем меньше веса получает каждый. У токенов конкуренция, и нужный может просто “утонуть”
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).

Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
➡99.7% точность на тексте
➡95% точность на аудио до 8.4 часов (примерно 1М аудиотокенов)

Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.

😢

Mixture of Experts (MoE) - что происходит, когда токен редкий, но важный

Представьте, в тексте встречается редкая реплика:

> Study what?" said Harry blankly
> Occlumency, Potter. The magical defense of the mind against external penetration

В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives ➡ меньше случаев, когда модель “вспоминает” не ту фразу

😱

LongRoPE + Ms-PoE - позиционки нового поколения

Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне

📝

Это, конечно, далеко не всё. У моделей вроде Gemini под капотом ещё масса трюков ➖и с точки зрения инженерии сам по себе 1М токенов это уже круто: context parallelism, оптимизация памяти, cache reuse, и тд. Но больше всего меня впечатлило именно то, насколько уверенно модель справляется с задачей поиска “иголки” ➖даже когда она зарыта в миллион токенов текста или аудио.

Если было полезно - буду рада вашим ❤

🔥

А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15🔥8👍4⚡3

441 viewsedited 09:24

Ученый без степени | AI-блог Ани

Прошлая неделя выдалась насыщенной: дедлайн по ключевому проекту, поиск ресурсов в других командах, ревью результатов коллег, брейнштормы, планирование интеграции нескольких моделей в один продукт. А ещё я взяла новый мини-проект, за который отвечаю в одиночку. Пара вечеров ушла на планирование экспериментов и формулировку ожиданий.

Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.

🗽

Всегда начинаем с гипотезы

Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):

Идея: заменить flow-based prior decoder на diffusion decoder.
Ожидаемый результат: более разнообразная и экспрессивная речь → +0.3 SMOS при стабильном WER.

Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?

Я часто использую SMART -фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.

📃

Дизайн-док - ваш антифейл

Мини-документ в начале проекта:

Что делаю? Зачем? Как это должно сработать? Что может пойти не так?

Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.

👀

Уменьшаем неопределённость как можно быстрее

Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:

Хотим улучшить диаризацию Zoom-звонков, добавив anchor embeddings известных участников

Вместо того чтобы сразу писать продакшн-код,

1⃣ Берем toy-task - аннотированный датасет; генерируем speaker embeddings сессии, притворяемся, что знаем только часть говорящих

2⃣ Извлекаем anchor speaker embeddings для 2-3 спикеров

3⃣ Запускаем agglomerative clustering с якорями и без — сравниваем метрики (DER) и принимаем решение - двигаемся дальше с этим подходом или подход не рабочий, меняем

😎

Автоматизируем подбор гиперпараметров

В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.

Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.

💬 А какие практики спасают вас в ML-проектах?

Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации

Давайте учиться друг у друга 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍8🔥5⚡1

444 viewsedited 12:59

About

Blog

Apps

Platform