Привет! Давайте еще раз познакомимся)
Меня зовут Надя, мне 25 лет. Сейчас я работаю в войс тех стартапе (пишу код, общаюсь с партнерами и разрабатываю стратегию развития). До этого — поработала в нескольких других американских/русских стартапах. Мой основной фокус — speech processing (например делала шумодавы, скоринг произношения для разных языков) но также я успела позаниматься компьютерным зрением для скутеров и написала статью на небольшой воркшоп EMNLP'20 про детекцию токсичных высказываний. До этого — делала распознавание речи в старом ВКонтакте и затем тимлидила спич команду. Еще раньше — закончила бакалавриат ФИВТ МФТИ'19 и бросила магу, о чем не жалею 🌚
И все еще очень хочу доделать курс лекций по speech processing для диплернеров. Work in progress!
Сейчас я нахожусь на админ процессинге по визе О1-А США. Я получила статус в январе, прошла через попытку отзыва консулом и его внезапное возвращение и вот — жду решения (список TAL, привет).
В свободное время я занимаюсь скалолазанием, учу японский язык и обожаю fashion индустрию. Мечтаю когда-нибудь сделать свой fashion tech стартап с доступной и доброй модой.
В этом канале я пишу:
— технические обзоры на интересные мне статьи/технологии + делаю плейграунды
— рассказываю про прогресс с визой
— делюсь мыслями про работу и не работу
А про что вам было бы интересно почитать?)
Меня зовут Надя, мне 25 лет. Сейчас я работаю в войс тех стартапе (пишу код, общаюсь с партнерами и разрабатываю стратегию развития). До этого — поработала в нескольких других американских/русских стартапах. Мой основной фокус — speech processing (например делала шумодавы, скоринг произношения для разных языков) но также я успела позаниматься компьютерным зрением для скутеров и написала статью на небольшой воркшоп EMNLP'20 про детекцию токсичных высказываний. До этого — делала распознавание речи в старом ВКонтакте и затем тимлидила спич команду. Еще раньше — закончила бакалавриат ФИВТ МФТИ'19 и бросила магу, о чем не жалею 🌚
И все еще очень хочу доделать курс лекций по speech processing для диплернеров. Work in progress!
Сейчас я нахожусь на админ процессинге по визе О1-А США. Я получила статус в январе, прошла через попытку отзыва консулом и его внезапное возвращение и вот — жду решения (список TAL, привет).
В свободное время я занимаюсь скалолазанием, учу японский язык и обожаю fashion индустрию. Мечтаю когда-нибудь сделать свой fashion tech стартап с доступной и доброй модой.
В этом канале я пишу:
— технические обзоры на интересные мне статьи/технологии + делаю плейграунды
— рассказываю про прогресс с визой
— делюсь мыслями про работу и не работу
А про что вам было бы интересно почитать?)
❤90👍16❤🔥8🔥8😍4🐳4🥰3🥴1
Про что интересно читать?
Anonymous Poll
34%
Технические обзоры на статьи и технологии 🤖
13%
Процесс с визой и переездом 🏃♀️
54%
Про все 🤩
пока Москва спит, мои юристы в Пало Алто получили notice о пересмотре моего О1 кейса и повторный аппрув статуса (ранее я не знала, что мой статус опять находится в пересмотре). Получается, это может означать либо то, что я в начале пути и моя проверка только начнется, либо то, что пересмотр статуса и был моей проверкой. Рекомендуют отправить notice в белградское консульство. Штош, доброй ночи...
#O1
#O1
😱36🙏11🌚8🤡6🤔3❤2💯2😢1
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
Telegram
каналы нади
Nadia ズエバ invites you to add the folder “каналы нади”, which includes 19 chats.
❤9👍5👌3
Как я попала в стартапы и что я там делала? 👨💻
Вопросы, которые мне задали в канале уже по крайней мере 4 раза 😅
TLDR — через знакомых. Иногда — через канал, через бывших коллег и друзей. Я всегда была очень общительным человеком, который любит выступать с докладами или просто со всеми болтать.
Осенью 2021го года когда я была тимлидом ВКонтакте — поняла, что менеджмент в бигтехе меня не особо привлекает🙂 . На тот момент мой парень уже год работал в американском стартапе который занимается музыкой, но без AI. Мне сделали интро, и ребята из стартапа мной заинтересовались. Мы созвонились, я рассказала, что умею и мы обсудили, чем я могу быть им полезна. Договорились, что я сделаю им на парт тайме легкий денойзер на девайсе и генерацию четверостишия в стиле выбранного исполнителя на беке. Мы проработали вместе примерно 4 месяца по очень приятному ценнику и у нас были идеи для будущих проектов. За это время я плотно поработала с библиотекой coremltools и swift'ом, а также стала свободнее в использовании гуглового бэкенда 😎 Однако, в январе 2022 года СЕО стартапа решил сменить вектор развития и сказал, что не хочет разрабатывать свой AI. К слову, сейчас ребята стали довольно успешно использовать нейронные API без обучения своих собственных моделек.
Во время работы с mayk.it, ко мне пришел мой друг с предложением сделать скоринг произношения на девайсе. Это был мэтч, равно как и челлендж — по сути, сделать "распознавание речи" на девайсе (а я как раз в этом прокачалась). Мы сделали движок на английском, испанском и японском языках, но в 2022м году с рекламой стало непросто. Ну, или идея оказалась не такой востребованной как мы думали. А может быть то ли еще будет — не знаю. В любом случае, активная стадия этого проекта для меня завершилась.
Я не успела начать искать работу — меня почти сразу позвал в еще один проект экс-коллега из ВКонтакте — идеей было делать компьютерное зрение для самокатов (детекция, что человек едет в разрешенном месте, а также сегментировать карту — машины, люди, и так далее). Для меня это тоже был вызов — ведь до этого я не занималась cv на практике. Тем не менее, это было интересно, я потрогала что-то принципиально отличающееся от моей основной специализации. Однако, этот проект летом 2022го тоже закончился.
Затем я искала работу — собесилась в гугл (правда, это было чуть раньше), откликнулась на всякие стартапные вакансии. Критерии были довольно жесткие — в тот момент я уже делала О1 визу и для меня было принципиальным, чтобы компания имела регистрацию в сша. И как итог 2х недель — 1 оффер на звук, но не в сша. К концу 3й недели поиска мне написал СЕО стартапа по удалению акцента в рилтайме и предложил пособеседоваться на лид инженера. В первом же сообщении —пересекались в шаде видел твой канал, готов помочь с О1. В этом стартапе я работаю с сентября на фултайме.
👀 Про текущий опыт работы в стартапах могу сказать следующее:
1. Большие ставки, большие риски. Если приходите в стартап на ранней стадии, в случае успешного экзита получите много деняк. Но куда более вероятно, увы, что стартап просто закроется
2. Из стартапа очень легко увольняют. Даже если вы перформите. В этом нет ничего страшного, но к этому надо быть готовым
3. Иногда придется заниматься неожиданными вещами, а не только основной специализацией
4. Очень легко выгореть — если не верите в стартап, лучше даже не пытаться
5. Конверсия из подач через платформы оказалась очень низкой. Почти все с кем был мэтч приходили, потому что что-то слышали про меня. И это притом, что у меня небольшой канал
6. Нетворкинг и личный бренд — супер важны
7. Наиболее вероятно, что часть с оплатой налогов и открытием ИП будет на вас
Про что еще вам интересно было бы почитать?💻
Осенью 2021го года когда я была тимлидом ВКонтакте — поняла, что менеджмент в бигтехе меня не особо привлекает
Во время работы с mayk.it, ко мне пришел мой друг с предложением сделать скоринг произношения на девайсе. Это был мэтч, равно как и челлендж — по сути, сделать "распознавание речи" на девайсе (а я как раз в этом прокачалась). Мы сделали движок на английском, испанском и японском языках, но в 2022м году с рекламой стало непросто. Ну, или идея оказалась не такой востребованной как мы думали. А может быть то ли еще будет — не знаю. В любом случае, активная стадия этого проекта для меня завершилась.
Я не успела начать искать работу — меня почти сразу позвал в еще один проект экс-коллега из ВКонтакте — идеей было делать компьютерное зрение для самокатов (детекция, что человек едет в разрешенном месте, а также сегментировать карту — машины, люди, и так далее). Для меня это тоже был вызов — ведь до этого я не занималась cv на практике. Тем не менее, это было интересно, я потрогала что-то принципиально отличающееся от моей основной специализации. Однако, этот проект летом 2022го тоже закончился.
Затем я искала работу — собесилась в гугл (правда, это было чуть раньше), откликнулась на всякие стартапные вакансии. Критерии были довольно жесткие — в тот момент я уже делала О1 визу и для меня было принципиальным, чтобы компания имела регистрацию в сша. И как итог 2х недель — 1 оффер на звук, но не в сша. К концу 3й недели поиска мне написал СЕО стартапа по удалению акцента в рилтайме и предложил пособеседоваться на лид инженера. В первом же сообщении —
👀 Про текущий опыт работы в стартапах могу сказать следующее:
1. Большие ставки, большие риски. Если приходите в стартап на ранней стадии, в случае успешного экзита получите много деняк. Но куда более вероятно, увы, что стартап просто закроется
2. Из стартапа очень легко увольняют. Даже если вы перформите. В этом нет ничего страшного, но к этому надо быть готовым
3. Иногда придется заниматься неожиданными вещами, а не только основной специализацией
4. Очень легко выгореть — если не верите в стартап, лучше даже не пытаться
5. Конверсия из подач через платформы оказалась очень низкой. Почти все с кем был мэтч приходили, потому что что-то слышали про меня. И это притом, что у меня небольшой канал
6. Нетворкинг и личный бренд — супер важны
7. Наиболее вероятно, что часть с оплатой налогов и открытием ИП будет на вас
Про что еще вам интересно было бы почитать?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥28❤9🤔1👌1🌚1
После выхода API к ChatGPT появились десятки ботов/приложений, которые стучались в модельку. Сегодня захожу на сайт openai и вижу, что было релизнуто нативное приложение под iOS, которое за 2 недели уже #1 в AppStore по productivity. В русском сторе аппки нет, но зато есть Bing и куча клонов с похожими иконками. Часть из которых, кстати, тоже в 10ке топ-чарта сша 🌚
😁16👍3🔥2🤡2🌚2❤1
Forwarded from grokaem себя
SCALE ASR TO 1000 LANGUAGES
предыстория:
Так случилось, что в детстве я не выучила кабардинский, хотя на половину во мне течет горячая кавказская кровь. Одним прекрасным днем на созвоне у меня спросили смотрела ли я, что там meta выкатила с 1000 языков. Тут я решила разобраться, что они нового сделали и заодно проверить, а будет ли эта новомодная модель определять родной кабардинский. Я написала своей сестре Милане (ага, у меня сестра Милана и ей столько же лет), которая отлично говорит по-кабардински, и она записала мне 5 аудио-сообщений, которые я провалидирую в конце поста.
СТАТЬЯ
BLOG POST with video
код и туториалы по запуску
обзор на медиуме
Кратко:
- взяли 4000 языков (в мире сейчас около 7к) и собрали на них кучу религиозных текстов Библии с аудио
- сделали двуэтапный alignement на эти записи
- сделали ASR (аудио в текст) поэтапно тюнили wav2vec 2.0 относительно частоты языков
- TTS - затюнили VITS
- LID - тот же самый wav2vec, но в конце линейный на кол-о языков. Интересно, что в LID в отличии от ASR микро языки мержились. Например, у азейбарджанского есть северный и южный микро-языки. Имхо, это делает задачу не такой честной, так как многие диалекты вообще не могут понять друг друга, хотя живут через гору и входят в одну группу.
Какие интересные штучки использовали?
0️⃣Так как аудио были около 43 минут, их сначала разделили на чанки в 15 секунд, где речь склеили и поставили SCALABLE FORCED ALIGNMENT. Штука, которая должна соотнести, где речь на аудио. Это особенно сложно (имхо) для агглютинативных языков, так как одно слово может быть очень длинным. Этот scalable forced alignement у них состоит из двух этапов: forced alignment, который взяли на ускоренном Viterbi алгоритме от акустической модели, натренированной на FLEURS и Common Voice + доп. обучение на отфильтрованных чистых семлах, которые получили из разницы forced alignment и greedy search.
1️⃣ Сами тексты были еще допом почищены, добавили токен * чтобы убрать из текстов первые названия, если они не произносились и числа. Хотя тут конечно есть вопросы, потому что в некоторых языках числа это аффиксы, ну да ладно.
2️⃣ Для ASR взяли старый добрый WAV2VEC 2.0. НО добавили LSAH - language-specific adapters к каждому языку в трансформер между блоками. Каждый из них обучается под конкретный язык + после идет файнтюнинг на specific vocab. Адаптеры - это интересная техника тюнинга моделей по статье [будет отдельный пост] Это безусловно добавляет параметров, но и улучшает качество.
Также само обучение, все параметры и валидацию очень подробно описывают, так мне понравилась их
3️⃣ tri-stage schedule тренировка: warm up 10% of updates, 40% constant, final 50% decayed.
Авторы замечают, что скейлинг on over ten times the number of languages of XLS-R повышает качество на low-resource языка, но дропает на популярные. Было бы связно-лингвистически обучиться тогда на языковых группах, ну да ладно.
Сама статья примечательна именно тем, как собрали датасет (я плохо искала и не нашла ссылку на него) и что это действительно возможно заскейлиться на 4к языков хотя бы на LID. Надеюсь, что это станет еще более большим движением и endangered языки будут поддерживаться не только полевыми лингвистами. Тут кстати все языки и пометы использовался ли ASR, LID и TTS на них.
А теперь что там с кабардинским?
Из топ-3 только 3 записи из 5 были распознаны как кабардинский, при этом ни в одной из записей это не топ 1 язык. Чаще путался с абхазским. Тут еще возможен bias на женскую речь, так как большинство спикеров в датасете были мужчины.
Также, я попросила своего друга из Узбекистана сказать эти же фразы. LID на всех из них верно отметил узбекский в топ-1. ASR у них сейчас через hf не работает, так что чекним позже))
#grokaem_audio
предыстория:
Так случилось, что в детстве я не выучила кабардинский, хотя на половину во мне течет горячая кавказская кровь. Одним прекрасным днем на созвоне у меня спросили смотрела ли я, что там meta выкатила с 1000 языков. Тут я решила разобраться, что они нового сделали и заодно проверить, а будет ли эта новомодная модель определять родной кабардинский. Я написала своей сестре Милане (ага, у меня сестра Милана и ей столько же лет), которая отлично говорит по-кабардински, и она записала мне 5 аудио-сообщений, которые я провалидирую в конце поста.
СТАТЬЯ
BLOG POST with video
код и туториалы по запуску
обзор на медиуме
Кратко:
- взяли 4000 языков (в мире сейчас около 7к) и собрали на них кучу религиозных текстов Библии с аудио
- сделали двуэтапный alignement на эти записи
- сделали ASR (аудио в текст) поэтапно тюнили wav2vec 2.0 относительно частоты языков
- TTS - затюнили VITS
- LID - тот же самый wav2vec, но в конце линейный на кол-о языков. Интересно, что в LID в отличии от ASR микро языки мержились. Например, у азейбарджанского есть северный и южный микро-языки. Имхо, это делает задачу не такой честной, так как многие диалекты вообще не могут понять друг друга, хотя живут через гору и входят в одну группу.
Какие интересные штучки использовали?
0️⃣Так как аудио были около 43 минут, их сначала разделили на чанки в 15 секунд, где речь склеили и поставили SCALABLE FORCED ALIGNMENT. Штука, которая должна соотнести, где речь на аудио. Это особенно сложно (имхо) для агглютинативных языков, так как одно слово может быть очень длинным. Этот scalable forced alignement у них состоит из двух этапов: forced alignment, который взяли на ускоренном Viterbi алгоритме от акустической модели, натренированной на FLEURS и Common Voice + доп. обучение на отфильтрованных чистых семлах, которые получили из разницы forced alignment и greedy search.
1️⃣ Сами тексты были еще допом почищены, добавили токен * чтобы убрать из текстов первые названия, если они не произносились и числа. Хотя тут конечно есть вопросы, потому что в некоторых языках числа это аффиксы, ну да ладно.
2️⃣ Для ASR взяли старый добрый WAV2VEC 2.0. НО добавили LSAH - language-specific adapters к каждому языку в трансформер между блоками. Каждый из них обучается под конкретный язык + после идет файнтюнинг на specific vocab. Адаптеры - это интересная техника тюнинга моделей по статье [будет отдельный пост] Это безусловно добавляет параметров, но и улучшает качество.
Также само обучение, все параметры и валидацию очень подробно описывают, так мне понравилась их
3️⃣ tri-stage schedule тренировка: warm up 10% of updates, 40% constant, final 50% decayed.
Авторы замечают, что скейлинг on over ten times the number of languages of XLS-R повышает качество на low-resource языка, но дропает на популярные. Было бы связно-лингвистически обучиться тогда на языковых группах, ну да ладно.
Сама статья примечательна именно тем, как собрали датасет (я плохо искала и не нашла ссылку на него) и что это действительно возможно заскейлиться на 4к языков хотя бы на LID. Надеюсь, что это станет еще более большим движением и endangered языки будут поддерживаться не только полевыми лингвистами. Тут кстати все языки и пометы использовался ли ASR, LID и TTS на них.
А теперь что там с кабардинским?
Из топ-3 только 3 записи из 5 были распознаны как кабардинский, при этом ни в одной из записей это не топ 1 язык. Чаще путался с абхазским. Тут еще возможен bias на женскую речь, так как большинство спикеров в датасете были мужчины.
Также, я попросила своего друга из Узбекистана сказать эти же фразы. LID на всех из них верно отметил узбекский в топ-1. ASR у них сейчас через hf не работает, так что чекним позже))
#grokaem_audio
👍13❤6🔥2😁1
а вы знали, что в тг можно ставить кастомные аватарки на других людей? 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚30🤯14👍9👌6😱4🤔1
Про что больше хотите пост?
Anonymous Poll
21%
Разбор lm для tts (aka vall-e) 🖊️
79%
Какие вопросы я задавала на ml собеседованиях (speech/nlp) 👩🏻💻
👍6💯2
Мое первое серьезное собеседование было на 2м курсе в Яндекс.Такси. С алгоритмами я справилась нормально, а вот мл секция была полным фиаско. После собеседования мне позвонили и сказали, что мои знания по мл “поверхностные”. Я расстроилась, но не сдалась — а сейчас, спустя 6 лет, кучу пройденных и проведенных собеседований я понимаю, что в этом нет ничего страшного.
Я выработала подход для себя как интервьюера. Сама, подглядела, или от противного 😂
Цель собеседования: понять, что человек уже умеет, чем занимался, готов ли учиться, как будет вести себя в стрессе. Идеально — если с собеса он уйдет довольный при любом раскладе)
🌱 Джун/мидл 🌱
Даю тестовое задание на кодинг, чтобы обсуждать на собеседовании и попутно задавать технические вопросы. В случае успешного прохождения этого этапа, человек попадает на собес. И там идем по плану:
Вопрос: есть ли релевантный опыт?
Вопрос: делал ли тестовое сам (понимает, что там происходит), как решает задачи?
Начинаем обсуждать решение по накиданному плану. То, что обязательно спрошу: использовал ли чужой код? (И да, само собой это норм). Использовал — почему взял из этого репозитория, а не из другого? Как работает твой алгоритм? С какими трудностями столкнулся? Как можно улучшить? А как корректно оценить результат?
Вопрос: что будет происходить в нестандартных ситуациях?
Если по части 2 все чисто, переходим к финальному этапу — проблемы из реальной жизни. Тут нет правильных ответов, но важен план и размышления. И да, для роли любой синиорности ответ “пойду спрошу того кто знает если не уверен” очень хорошо. Будет ли закапываться? Будет ли молчать, если накосячил?
🌴 Синиор/лид🌴
И в корпорации, и в стартап на такую роль ожидаю человека, который в значительной мере понимает бизнес-задачи и сам принимает решения. Идеально, если человек приходит по проверенной рекомендации.
Вопрос: есть ли релевантный опыт?
Тестовое задание обычно не даю — особенно, если есть опыт работы над конкретными проектами с понятным импактом человека. Например — “делал генерацию субтитров к видео в компании N, отвечал за эффективный сбор данных и дообучение моделей”. Тоже накидываю список вопросов для дайва.
Вопрос: как решает релевантные задачи?
Проваливаемся по цепочке связанных тем примерно по плану накиданных вопросов в первом пункте. Важно не столько погружаться в теоретические детали, сколько спрашивать про подходы и фреймворки. Как человек декомпозирует задачу, проецирует бизнес задачи на техническое пространство, как фиксирует успех и взаимодействует со смежными специалистами? Умеет ли делегировать?
Вопрос: что будет происходить в нестандартных ситуациях?
Как будем контролировать, что пайплайн не упадет? Что будем делать, если упадет? Выяснили, что задачу не сделать так быстро, как планировали. Что тогда? И все на конкретных примерах.
А также то, что обязательно должно быть развито у любого синьора — софт скилы. Кандидат должен быть готов к компромиссам, обсуждениям и тупым вопросам. А еще к признанию своих собственных ошибок и несению ответственности за критические компоненты.
Что происходит после собеседования? Отказы — тоже целое искусство 🌚. Самый изящный вариант отказа был мне из гугла после финального собеса — эйчар позвонил и голосом сказал, что у меня есть самое главное — софт скиллы и умение выстраивать рабочие процессы. То, что в этот раз не хватило знаний по алгоритмам (не мл) — можно развить и мне очень понравился этот ответ — закончили на хорошей ноте)
Кстати, если я вас собеседовала когда-либо, пишите в комменты
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍12❤5👏4
Очередной визовый апдейт
Пришло еще одно письмо от консула из Белграда по О1 визе — запросили еще раз (в 3й) мое CV и заполненную форму про бекграунд. Общаюсь с юристами, снова не понимаю, что происходит...
upd: юристы говорят, что форму бекграунда действительно могут запрашивать часто. Сейчас скорее всего проверяют, что мой оффер еще актуален и ждут ли меня в сша
#O1
Пришло еще одно письмо от консула из Белграда по О1 визе — запросили еще раз (в 3й) мое CV и заполненную форму про бекграунд. Общаюсь с юристами, снова не понимаю, что происходит...
upd: юристы говорят, что форму бекграунда действительно могут запрашивать часто. Сейчас скорее всего проверяют, что мой оффер еще актуален и ждут ли меня в сша
#O1
😱32🤡25🤯14
🎶Как не словить депрессию, пока делаешь свой SVS (text-to-singing voice synthesis)
Задача синтеза речи хорошо решена на большинстве языков. С пением все иначе — есть пара популярных репозиториев с прошлых интерспичей, но есть нюансы. Чтобы успешно завести свой svs и не разочароваться в мире нейронок и в жизни в целом я сейчас про них расскажу.
😡 SVS в 2023 году — мир китайцев, японцев и немного корейцев. Все дело в том, что нет опенсорсных датасетов на английском языке в студийном качестве, но зато есть отличный датасет opencpop с китайским женским пением, размеченный не только по тексту, но и по нотам. Есть пара API с английском языком, но это уже совсем другая история.
😌 Хорошая новость — SVS хорошо дружат с one-shot SVC моделями (можно нагенерировать данных voice conversion'ом по нескольким минутам оригинального спикера).
😡 Многие модные фреймворки из статей типа NANSY++, NaturalSpeech-2 упоминают SVS, но не является фокусом внимания авторов. Хоть они и на слуху, проблема в том, что у многих из них есть только любительские реализации, некоторые из которых не заводятся, а авторы не поддерживают работу. И если в офигенного lucidrains который пишет понятный работающий код и его работу над NaturalSpeech я верю, то единственная известная мне реализация NANSY++ не работает от слова совсем. К тому же значительная часть документации будет на китайском даже в официальных репозиториях. Как вам такое?
😌 Совет банальный — искать комьюнити вокруг моделей и смотреть на число звезд у репозитория. Например вокруг самого залайканного DiffSinger есть дискорд, где можно с англоговорящими разработчиками пообуждать как лучше разбивать английские слова на слоги и куда ставить SP/AP токены
😡 Просто текста не достаточно. Нужна информация о длительностях фонем и нотах для пения. А, значит, нужно еще 2 модели: для генерации мелодии и для предсказания длительностей фонем и других фичей (например f0, enenrgy)
😌 Самая большая боль здесь — разметка по числу фонем на каждый слог и расстановка спец символов. Но и ее не так сложно автоматизировать, благо задача в интернете популярная. В остальном разметка английского похожа на пайплайн разметки китайского: какой-нибудь алфавитный asr (не whisper, чтобы не разворачивать потом числа/сокращения и учесть все охи/вздохи, можно из nemo взять что-нибудь например) + mfa + оценка октав и нот по частоте. Много деталей, но сам пайп заводится не очень сложно. А вот с мелодией все чуть сложнее... в целом подход "найти хорошие паттерны и выбирать/комбинировать" работает неплохо или обучить легкий seq2seq. Главное, чтобы на выходе был элаймент по длительностям нот и сами ноты, которые уже можно подать на вход предиктору фонем
Задача синтеза речи хорошо решена на большинстве языков. С пением все иначе — есть пара популярных репозиториев с прошлых интерспичей, но есть нюансы. Чтобы успешно завести свой svs и не разочароваться в мире нейронок и в жизни в целом я сейчас про них расскажу.
😡 SVS в 2023 году — мир китайцев, японцев и немного корейцев. Все дело в том, что нет опенсорсных датасетов на английском языке в студийном качестве, но зато есть отличный датасет opencpop с китайским женским пением, размеченный не только по тексту, но и по нотам. Есть пара API с английском языком, но это уже совсем другая история.
😌 Хорошая новость — SVS хорошо дружат с one-shot SVC моделями (можно нагенерировать данных voice conversion'ом по нескольким минутам оригинального спикера).
😡 Многие модные фреймворки из статей типа NANSY++, NaturalSpeech-2 упоминают SVS, но не является фокусом внимания авторов. Хоть они и на слуху, проблема в том, что у многих из них есть только любительские реализации, некоторые из которых не заводятся, а авторы не поддерживают работу. И если в офигенного lucidrains который пишет понятный работающий код и его работу над NaturalSpeech я верю, то единственная известная мне реализация NANSY++ не работает от слова совсем. К тому же значительная часть документации будет на китайском даже в официальных репозиториях. Как вам такое?
😌 Совет банальный — искать комьюнити вокруг моделей и смотреть на число звезд у репозитория. Например вокруг самого залайканного DiffSinger есть дискорд, где можно с англоговорящими разработчиками пообуждать как лучше разбивать английские слова на слоги и куда ставить SP/AP токены
😡 Просто текста не достаточно. Нужна информация о длительностях фонем и нотах для пения. А, значит, нужно еще 2 модели: для генерации мелодии и для предсказания длительностей фонем и других фичей (например f0, enenrgy)
😌 Самая большая боль здесь — разметка по числу фонем на каждый слог и расстановка спец символов. Но и ее не так сложно автоматизировать, благо задача в интернете популярная. В остальном разметка английского похожа на пайплайн разметки китайского: какой-нибудь алфавитный asr (не whisper, чтобы не разворачивать потом числа/сокращения и учесть все охи/вздохи, можно из nemo взять что-нибудь например) + mfa + оценка октав и нот по частоте. Много деталей, но сам пайп заводится не очень сложно. А вот с мелодией все чуть сложнее... в целом подход "найти хорошие паттерны и выбирать/комбинировать" работает неплохо или обучить легкий seq2seq. Главное, чтобы на выходе был элаймент по длительностям нот и сами ноты, которые уже можно подать на вход предиктору фонем
👍29🔥9❤8👏3
Кто спрашивал про визу — если коротко, продвижений больших нет 🥲
Писали сенатору, сенатор обратилась в консульство, консульство ответило, что мой статус О1 в пересмотре (по какой-то причине они не получили майское уведомление о том, что ходатайство об отзыве статуса не удовлетворено и статус остается). Сейчас пытаемся через сенатора снова достучаться до консульства и узнать, почему они не получили уведомление о сохранении статуса в мае🌚
#O1
Писали сенатору, сенатор обратилась в консульство, консульство ответило, что мой статус О1 в пересмотре (по какой-то причине они не получили майское уведомление о том, что ходатайство об отзыве статуса не удовлетворено и статус остается). Сейчас пытаемся через сенатора снова достучаться до консульства и узнать, почему они не получили уведомление о сохранении статуса в мае
#O1
Please open Telegram to view this post
VIEW IN TELEGRAM
😱38😢15🌚6❤🔥4
Прошлой осенью по сети бродил любительский проект riffusion, который умел генерировать звуки/мелодии и подражать пению, но именно подражать, без слов. Авторов начали цитировать в своих статьях бигтехи и тем самым привлекли внимание в том числе инвесторов. С тех пор riffusion подняли 4М$ и научили свою сетку не просто внятно говорить, но и здорово петь
это реально 🔥, я такого еще не видела
само собой в этот раз без статей или опенсорса 🥲
попробовать можно в том числе по русскому номеру бесплатно
это реально 🔥, я такого еще не видела
само собой в этот раз без статей или опенсорса 🥲
попробовать можно в том числе по русскому номеру бесплатно
🔥30👍8❤5🤯2
Помимо работы с войс тех стартапами я развиваю свой собственный проект, а именно разрабатываю приложение, которое будет помогать покупать и выбирать одежду по личным предпочтениям и особенностям внешности пользователя нет, пока что это не онлайн примерка
если хотите мне помочь и вам интересна эта область, то пройдите небольшой опрос на 5-10 минут. Шеринг очень приветствуется 😊
если хотите мне помочь и вам интересна эта область, то пройдите небольшой опрос на 5-10 минут. Шеринг очень приветствуется 😊
Google Docs
OOTD needs YOU!
Hey there! We're the OOTD team, and we'd love to pick your brain for a second! OOTD is this fantastic new project we're working on. It's all about using AI to help people discover awesome outfit combos that match their personal style. We're stoked to have…
👍20❤6👏4🔥3😱3❤🔥2
подборка классных сеток из мира audio processing 😎
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла😉
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35❤3👍3🤩2👏1