Inside Yandex Cloud – Telegram
Inside Yandex Cloud
5.56K subscribers
692 photos
46 videos
247 links
Тут мы рассказываем о людях и задачах команды Yandex Cloud, а также делимся полезными материалами.
Блог на Хабре — https://habr.com/ru/companies/yandex_cloud_and_infra/articles/
Вакансии — https://cloud.yandex.ru/ru/careers
Download Telegram
❤️ Одна из наших традиций: по пятницам во флуд-чате обмениваться фотографиями своих пушистых, хвостатых и пернатых друзей. А сегодня ещё и Всемирный день кошек. Всё звучит, как повод собрать подборку любимцев наших коллег.

Вот мы и собрали.

❤️ — котикам
👍 — собачкам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
52👍29🔥5
Мы знаем, что вы будете делать в этот четверг 👇

Заинтриговали? Тогда рассказываем: 14 августа пройдёт вебинар для тех, кто работает с корпоративными знаниями и ИИ-сценариями.

На примере корпоративной базы знаний покажем, как индексировать тексты, формировать эмбеддинги с помощью opensource моделей, хранить их в YDB и запускать векторный поиск по эмбеддингам для получения релевантных ответов.

🎙 Привет, это Саша Зевайкин, руководитель разработки YDB. Недавно я выступал на конференции Saint HighLoad, на которой рассказал про эволюцию векторного поиска в YDB. Подробнее познакомиться с докладом можно по ссылке, а пока что приглашаю вас на вебинар — будет интересно! 


➡️ 14 августа, 14:00, онлайн. Регистрация доступна на сайте.

🔥 — буду обязательно!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍3
Forwarded from Yandex for ML
🎙 Синтезируем голос с новым инструментом

Команда Yandex SpeechKit разработала фичу Brand Voice Lite. Она позволяет пользователю быстро и просто создать синтез голоса. Понадобится только микрофон и немного свободного времени.

👷 Мы взяли интервью у Глеба Енгалыча из команды Yandex SpeechKit. Самые любопытные факты о сервисе показываем в карточках, а ниже — решения под капотом и ключевые метрики.

Главным вызовом для команды было завести модель на как можно меньшем количестве данных. Чтобы собрать большой датасет для обучения синтеза, нужно потратить много сил, времени и денег — и это отпугивает многих клиентов. Создать маленький датасет намного проще, так что технология становится доступна куда большему числу людей. Поэтому ребята поставили себе ключевую задачу: определить минимальную суммарную длительность датасета, достаточную для стабильного обучения модели.

В самом начале проекта ребята поставили такие цели:

⚪️ Качество синтеза сохраняет уровень текущего прода (по метрике side by side)
⚪️ Время обучения адекватное (не больше 12 часов)
⚪️ Голос на синтезе похож на голос диктора

Чтобы их достичь, ребята ставили эксперименты с разными конфигурациями и размерами модели. В итоге получилось сделать так, чтобы модель за разумное время училась на десяти минутах чистого студийного материала или на сорока минутах грязного звука с микрофона ноутбука. И при этом практически не проседала по качеству в сравнении с продом.

🔛 Метриками для экспериментов стали side by side (аналог А/В-тестирования) и QQ (quality questions) — собственная разработка команды. Это набор бинарных вопросов о качестве звука, например:

⚪️ Есть ли сторонние шумы на аудио?
⚪️ Сохранилась ли вопросительная интонация на записи?
⚪️ Нет ли проблем в произношении у диктора?

🌠 Ещё ребята собрали несколько тестовых датасетов. У них была разная длительность и разные устройства записи: от эйрподс до айфона с макбуком. Такой сбор данных честно отражал будущих клиентов и помог эффективно бенчмаркать модели.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👏3👍21
About:cloud – infrastructure впервые в турне по России

В тёплой, неформальной обстановке инженеры и разработчики Yandex Cloud и Yandex Infrastructure расскажут про внутрянку инфраструктурных и сетевых сервисов, поделятся планами и реальными историями из практики — с честным разбором ошибок и нестандартных решений.

Обсудим, как управлять тысячами выделенных серверов, что нового в сетевых дисках, CDN, S3 и Cloud Interconnect, и разберём, какие технические подходы работают на больших масштабах.

Когда и где можно встретиться с нашей командой:
🔵 21.08 — Казань (офлайн)
🔵 28.08 — Санкт-Петербург (офлайн)
🔵 4.09 — Новосибирск (офлайн)
🔵 11.09 — Екатеринбург (офлайн)
🔵 16.10 — Москва (офлайн+онлайн)

До встречи на about:cloud – infrastructure митапах для разработчиков, архитекторов и сетевых инженеров, которые хотят обменяться опытом и услышать истории из реальной практики.
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥10👍2
This media is not supported in your browser
VIEW IN TELEGRAM
4🔥1