Самый больше челлендж в сложившейся ситуации с визой, что никто не может мне ничего сказать. Я отправила доки в консульство по почте, но нет никаких гарантий, что они получили их и отправили на административный процессинг, потому что господа визовые офицеры не читают мои имейлы 🙃 бюрократия такая бюрократия. Но это про О1 и Белград
В пятницу объявят победителей лотереи H1B, по которой я тоже смогу поехать в США, если выиграю. Правда, только в октябре, но зато сроки фиксированные!
#O1
В пятницу объявят победителей лотереи H1B, по которой я тоже смогу поехать в США, если выиграю. Правда, только в октябре, но зато сроки фиксированные!
#O1
❤21🙏7👍2🤯2
Нашла в Москве wework — оказалось можно брать абонемент только от месяца и только на компанию 😅
Посоветуйте, пожалуйста, хорошие коворкинги в центре Москвы, которые можно брать посуточно 😎
Посоветуйте, пожалуйста, хорошие коворкинги в центре Москвы, которые можно брать посуточно 😎
😁4👍3🌚3❤2
К сожалению, с лотереей H1B не сложилось 🥲 так что теперь вся надежда на О1А. Вчера мне кстати все же ответили из консульства — сказали что процесс идет и даже добавили приписку, что We realize that this delay may cause you frustration and we regret the inconvenience.
Через пару дней будет год как я начала делать О1. Сейчас eta ответа — еще 3 месяца
Не сдаюсь, само собой. Вероятно, коплю свою удачу на будущее 😂
#O1
Через пару дней будет год как я начала делать О1. Сейчас eta ответа — еще 3 месяца
Не сдаюсь, само собой. Вероятно, коплю свою удачу на будущее 😂
#O1
😢44🙏18👍4❤1🥴1
Forwarded from мнк сторис
Переезд в Лос-Анджелес. Часть 1 – путешествие
– Решил лететь через Стамбул (туркиш аэйрлайнс), потому что без шенгена варианты перелетов сильно ограничены. В воздухе проводишь около 14 часов, при этом довольно удобная пересадка c возможностью поспать. Еще можно, например, через Дубаи или Доху, но тогда проведешь на борту уже 16 часов при ночных пересадках 😔
– Подарил себе бизнес-класс в честь такого события. К тому же самолет довольно новый, хотелось посмотреть, что там могут предложить.
– Аэропорт для авиакомпании домашний, поэтому со входа меня встретила черно-золотая перегородка и далее начался отдельный коридор для бизнеса – Вместо обычных стоек отдельные диванчики, своя очередь на контроль, огромный бизнес зал (можно сказать, отдельный этаж) с кучей еды и пространства для отдыха.
– Удивило, что на рейсы в США есть несколько дополнительных стадий проверок. Паспорт проверяли раза 3, при этом наклеивая разные надписи. Перед посадкой еще раз осмотрели и попросили показать все содержимое сумок.
– На борту я получил очень широкое место без соседей, отгороженное даже от прохода, которое раскладывается в полноценную кровать где-то 1.9м. На 17 дюймовом экране было очень много фильмов, включая все новинки проката. По сути, если у тебя есть кровать, то весь полет складывается в простой алгоритм – поел, посмотрел фильм, поспал (повторить 3 раза).
– Заказал себе веганское питание, но для бизнес-класса там оказался отдельный повар с меню, как в ресторане. Поэтому люди заказывали всякую вкуснотищу, а я ел огурцы. Потом все-таки заказал супчик, но было забавно.
– Самолет долго летел над городом, поэтому можно было рассмотреть разные районы и увидеть заветную надпись HOLLYWOOD.
– На границе меня по радио вызвали из общей очереди и я решил, что это фаст трек у бизнес-класса. Меня быстро отыскал местный офицер и повел в отдельную комнату. Мы сели за небольшой круглый стол друг напротив друга, начался разговор. Тут до меня и дошло, что я на допросе😅 Все прошло очень дружелюбно, но офицер разобрал всю мою жизнь по крупным моментам и написал стену заметок. Зато быстро прошел погран контроль лол.
– Снаружи меня уже ждал коллега (конечно же, на Тесле), и мы поехали знакомиться с остальной командой...
– Решил лететь через Стамбул (туркиш аэйрлайнс), потому что без шенгена варианты перелетов сильно ограничены. В воздухе проводишь около 14 часов, при этом довольно удобная пересадка c возможностью поспать. Еще можно, например, через Дубаи или Доху, но тогда проведешь на борту уже 16 часов при ночных пересадках 😔
– Подарил себе бизнес-класс в честь такого события. К тому же самолет довольно новый, хотелось посмотреть, что там могут предложить.
– Аэропорт для авиакомпании домашний, поэтому со входа меня встретила черно-золотая перегородка и далее начался отдельный коридор для бизнеса – Вместо обычных стоек отдельные диванчики, своя очередь на контроль, огромный бизнес зал (можно сказать, отдельный этаж) с кучей еды и пространства для отдыха.
– Удивило, что на рейсы в США есть несколько дополнительных стадий проверок. Паспорт проверяли раза 3, при этом наклеивая разные надписи. Перед посадкой еще раз осмотрели и попросили показать все содержимое сумок.
– На борту я получил очень широкое место без соседей, отгороженное даже от прохода, которое раскладывается в полноценную кровать где-то 1.9м. На 17 дюймовом экране было очень много фильмов, включая все новинки проката. По сути, если у тебя есть кровать, то весь полет складывается в простой алгоритм – поел, посмотрел фильм, поспал (повторить 3 раза).
– Заказал себе веганское питание, но для бизнес-класса там оказался отдельный повар с меню, как в ресторане. Поэтому люди заказывали всякую вкуснотищу, а я ел огурцы. Потом все-таки заказал супчик, но было забавно.
– Самолет долго летел над городом, поэтому можно было рассмотреть разные районы и увидеть заветную надпись HOLLYWOOD.
– На границе меня по радио вызвали из общей очереди и я решил, что это фаст трек у бизнес-класса. Меня быстро отыскал местный офицер и повел в отдельную комнату. Мы сели за небольшой круглый стол друг напротив друга, начался разговор. Тут до меня и дошло, что я на допросе
– Снаружи меня уже ждал коллега (конечно же, на Тесле), и мы поехали знакомиться с остальной командой...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤7😱4🥴3
Те, кто следит за О1 новостями, вероятно, видели, что в ряде каналов написали про то, что доля одобрения кейсов — 93%. Немного хочу поумерить эксайтмент
1. 93% — это с учетом RFE (кейсов, которые получили одобрение не с первой попытки, среди них 72%. Сколько среди них тех, кто после отказа сдался?)
2. Статус — это еще не виза. У меня вот статус есть еще с декабря, а вот визы все еще нет 😅
3. Почти все заполняют свои кейсы с юристами. Юристы как правило не берутся за безнадежные кейсы, а тех кто заполняет сам очень мало
посмотреть цифры можно тут
кстати, спасибо, что спрашиваете как у меня дела и куда я пропала — со мной все хорошо, я сейчас на море. Пью кофе с видом на горы, обучаю модельки и восстанавливаюсь
#O1
1. 93% — это с учетом RFE (кейсов, которые получили одобрение не с первой попытки, среди них 72%. Сколько среди них тех, кто после отказа сдался?)
2. Статус — это еще не виза. У меня вот статус есть еще с декабря, а вот визы все еще нет 😅
3. Почти все заполняют свои кейсы с юристами. Юристы как правило не берутся за безнадежные кейсы, а тех кто заполняет сам очень мало
посмотреть цифры можно тут
кстати, спасибо, что спрашиваете как у меня дела и куда я пропала — со мной все хорошо, я сейчас на море. Пью кофе с видом на горы, обучаю модельки и восстанавливаюсь
#O1
❤36👍8🔥3
пользуюсь VScode с тех пор как забанили мой @phystech.edu аккаунт на PyCharm'e. Вчера обновила мак, и сегодня пару часов не могла подключиться к серверу — сейчас поняла, что не заметила сверху маленькое окошко, которое серыми буквами просило ввести пароль и поэтому ssh-соединение фризилось.... 🤡
доброго утра понедельника☕️
доброго утра понедельника
Please open Telegram to view this post
VIEW IN TELEGRAM
😁49❤4🤡4🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Классный гайд с картинками про историю языковых моделей с хайпа BERTa 2019 года и до наших дней 😎
Особенно актуально тем, кто использует разные апи как черные ящики — в репе есть decision flow, который помогает понять, нужна ли новомодная LLM для вашей задачи, или можно обойтись чем-то простым с hugginface
Особенно актуально тем, кто использует разные апи как черные ящики — в репе есть decision flow, который помогает понять, нужна ли новомодная LLM для вашей задачи, или можно обойтись чем-то простым с hugginface
❤24👍6🔥3
Как вы вероятно уже заметили, в телегу в конце апреля завезли новую фичу — она позволяет делиться подробками каналов, на которые можно подписаться одной кнопкой. После того как Даня включил мой канал в свой лист рекомендаций, на меня за 3 дня подписались ~ 180 человек. Возможно, делился еще кто-то, но я не увидела — спасибо вам 😉
Предлагаю еще одну механику рекомендаций — я знаю, что многие из вас ведут каналы. Используйте комменты к этому посту, чтобы рассказать о них. Я тоже посмотрю, подпишусь на те, которые мне срезонируют и сделаю из них свою подборку 🤝
Предлагаю еще одну механику рекомендаций — я знаю, что многие из вас ведут каналы. Используйте комменты к этому посту, чтобы рассказать о них. Я тоже посмотрю, подпишусь на те, которые мне срезонируют и сделаю из них свою подборку 🤝
👍18❤4🔥2
Все безумие с генеративными моделями началось с того, что изображения и тексты научились представлять в удобном для нейросетей мультимодальном формате — конкретнее, такими эмбеддингами, которые хранят в себе информацию как о картинке, так и об ее текстовом описании. Для обучения подобных энкодеров используется контрастный лосс — подход к обучению, где близкие по смыслу эмбеддинги располагаются рядом, а несвязанные — далеко. Таким образом, на инференсе можно подавая на вход только картинку получить zero-shot классификацию. Отсюда и название — Contrastive Language-Image Pretraining. Затем поверх CLIP’a навесили декодер, и получили text2image, а позже и midjourney, результаты работы которого вы почти наверное видели в рилзах/тиктоках.
А теперь давайте Image заменим на Audio. И, знаете, я ждала CLAP — это настолько очевидное и изящное название, которое просилось само. Дождалась — и вскользь даже написала в контексте text-to-audio. Примерно месяц назад вышла еще одна статья про CLAP от канадско-американских авторов
— Собрали из существующих и зарелизили датасет на ~ 2000 часов с размеченными звуками, речью и музыкой. Помимо подписей, они также добавили в эмбеддинги тэги если они были в более натуральном формате — “The sound of label-1, label-2, ..., and label-n”
— Модель тестировали на трех задачах: text-to-audio (не путать с text-to-speech) retrieval, zero-shot audio classification (audio2text retrieval с промптом "this is a sound of label"), supervised audio classification (файнтюн энкодера на размеченных данных).
— Со слов авторов, эта модель имеет неплохой перфоманс — это значит, что ее можно втаскивать в продакшн
— быстро zero shot через prompts раскидать данные по полу/возрасту/качеству микрофона/etc
— кластеризовать по спикерам
— искать аутлаеры в датасетах
Накидала небольшой плейграунд, который раскидывает либри лайт на женские и мужские голоса. Можно подавать в качестве промптов также к примеру шумный/чистый или старый/молодой. Получается вполне достойно!
Уверена, что скоро и в звуке будет game changer уровня dall-e/chat-gpt. Ходят слухи, что openai уже работает над своим voice conversion...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍12🔥5
Привет! Давайте еще раз познакомимся)
Меня зовут Надя, мне 25 лет. Сейчас я работаю в войс тех стартапе (пишу код, общаюсь с партнерами и разрабатываю стратегию развития). До этого — поработала в нескольких других американских/русских стартапах. Мой основной фокус — speech processing (например делала шумодавы, скоринг произношения для разных языков) но также я успела позаниматься компьютерным зрением для скутеров и написала статью на небольшой воркшоп EMNLP'20 про детекцию токсичных высказываний. До этого — делала распознавание речи в старом ВКонтакте и затем тимлидила спич команду. Еще раньше — закончила бакалавриат ФИВТ МФТИ'19 и бросила магу, о чем не жалею 🌚
И все еще очень хочу доделать курс лекций по speech processing для диплернеров. Work in progress!
Сейчас я нахожусь на админ процессинге по визе О1-А США. Я получила статус в январе, прошла через попытку отзыва консулом и его внезапное возвращение и вот — жду решения (список TAL, привет).
В свободное время я занимаюсь скалолазанием, учу японский язык и обожаю fashion индустрию. Мечтаю когда-нибудь сделать свой fashion tech стартап с доступной и доброй модой.
В этом канале я пишу:
— технические обзоры на интересные мне статьи/технологии + делаю плейграунды
— рассказываю про прогресс с визой
— делюсь мыслями про работу и не работу
А про что вам было бы интересно почитать?)
Меня зовут Надя, мне 25 лет. Сейчас я работаю в войс тех стартапе (пишу код, общаюсь с партнерами и разрабатываю стратегию развития). До этого — поработала в нескольких других американских/русских стартапах. Мой основной фокус — speech processing (например делала шумодавы, скоринг произношения для разных языков) но также я успела позаниматься компьютерным зрением для скутеров и написала статью на небольшой воркшоп EMNLP'20 про детекцию токсичных высказываний. До этого — делала распознавание речи в старом ВКонтакте и затем тимлидила спич команду. Еще раньше — закончила бакалавриат ФИВТ МФТИ'19 и бросила магу, о чем не жалею 🌚
И все еще очень хочу доделать курс лекций по speech processing для диплернеров. Work in progress!
Сейчас я нахожусь на админ процессинге по визе О1-А США. Я получила статус в январе, прошла через попытку отзыва консулом и его внезапное возвращение и вот — жду решения (список TAL, привет).
В свободное время я занимаюсь скалолазанием, учу японский язык и обожаю fashion индустрию. Мечтаю когда-нибудь сделать свой fashion tech стартап с доступной и доброй модой.
В этом канале я пишу:
— технические обзоры на интересные мне статьи/технологии + делаю плейграунды
— рассказываю про прогресс с визой
— делюсь мыслями про работу и не работу
А про что вам было бы интересно почитать?)
❤90👍16❤🔥8🔥8😍4🐳4🥰3🥴1
Про что интересно читать?
Anonymous Poll
34%
Технические обзоры на статьи и технологии 🤖
13%
Процесс с визой и переездом 🏃♀️
54%
Про все 🤩
пока Москва спит, мои юристы в Пало Алто получили notice о пересмотре моего О1 кейса и повторный аппрув статуса (ранее я не знала, что мой статус опять находится в пересмотре). Получается, это может означать либо то, что я в начале пути и моя проверка только начнется, либо то, что пересмотр статуса и был моей проверкой. Рекомендуют отправить notice в белградское консульство. Штош, доброй ночи...
#O1
#O1
😱36🙏11🌚8🤡6🤔3❤2💯2😢1
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
Telegram
каналы нади
Nadia ズエバ invites you to add the folder “каналы нади”, which includes 19 chats.
❤9👍5👌3
Как я попала в стартапы и что я там делала? 👨💻
Вопросы, которые мне задали в канале уже по крайней мере 4 раза 😅
TLDR — через знакомых. Иногда — через канал, через бывших коллег и друзей. Я всегда была очень общительным человеком, который любит выступать с докладами или просто со всеми болтать.
Осенью 2021го года когда я была тимлидом ВКонтакте — поняла, что менеджмент в бигтехе меня не особо привлекает🙂 . На тот момент мой парень уже год работал в американском стартапе который занимается музыкой, но без AI. Мне сделали интро, и ребята из стартапа мной заинтересовались. Мы созвонились, я рассказала, что умею и мы обсудили, чем я могу быть им полезна. Договорились, что я сделаю им на парт тайме легкий денойзер на девайсе и генерацию четверостишия в стиле выбранного исполнителя на беке. Мы проработали вместе примерно 4 месяца по очень приятному ценнику и у нас были идеи для будущих проектов. За это время я плотно поработала с библиотекой coremltools и swift'ом, а также стала свободнее в использовании гуглового бэкенда 😎 Однако, в январе 2022 года СЕО стартапа решил сменить вектор развития и сказал, что не хочет разрабатывать свой AI. К слову, сейчас ребята стали довольно успешно использовать нейронные API без обучения своих собственных моделек.
Во время работы с mayk.it, ко мне пришел мой друг с предложением сделать скоринг произношения на девайсе. Это был мэтч, равно как и челлендж — по сути, сделать "распознавание речи" на девайсе (а я как раз в этом прокачалась). Мы сделали движок на английском, испанском и японском языках, но в 2022м году с рекламой стало непросто. Ну, или идея оказалась не такой востребованной как мы думали. А может быть то ли еще будет — не знаю. В любом случае, активная стадия этого проекта для меня завершилась.
Я не успела начать искать работу — меня почти сразу позвал в еще один проект экс-коллега из ВКонтакте — идеей было делать компьютерное зрение для самокатов (детекция, что человек едет в разрешенном месте, а также сегментировать карту — машины, люди, и так далее). Для меня это тоже был вызов — ведь до этого я не занималась cv на практике. Тем не менее, это было интересно, я потрогала что-то принципиально отличающееся от моей основной специализации. Однако, этот проект летом 2022го тоже закончился.
Затем я искала работу — собесилась в гугл (правда, это было чуть раньше), откликнулась на всякие стартапные вакансии. Критерии были довольно жесткие — в тот момент я уже делала О1 визу и для меня было принципиальным, чтобы компания имела регистрацию в сша. И как итог 2х недель — 1 оффер на звук, но не в сша. К концу 3й недели поиска мне написал СЕО стартапа по удалению акцента в рилтайме и предложил пособеседоваться на лид инженера. В первом же сообщении —пересекались в шаде видел твой канал, готов помочь с О1. В этом стартапе я работаю с сентября на фултайме.
👀 Про текущий опыт работы в стартапах могу сказать следующее:
1. Большие ставки, большие риски. Если приходите в стартап на ранней стадии, в случае успешного экзита получите много деняк. Но куда более вероятно, увы, что стартап просто закроется
2. Из стартапа очень легко увольняют. Даже если вы перформите. В этом нет ничего страшного, но к этому надо быть готовым
3. Иногда придется заниматься неожиданными вещами, а не только основной специализацией
4. Очень легко выгореть — если не верите в стартап, лучше даже не пытаться
5. Конверсия из подач через платформы оказалась очень низкой. Почти все с кем был мэтч приходили, потому что что-то слышали про меня. И это притом, что у меня небольшой канал
6. Нетворкинг и личный бренд — супер важны
7. Наиболее вероятно, что часть с оплатой налогов и открытием ИП будет на вас
Про что еще вам интересно было бы почитать?💻
Осенью 2021го года когда я была тимлидом ВКонтакте — поняла, что менеджмент в бигтехе меня не особо привлекает
Во время работы с mayk.it, ко мне пришел мой друг с предложением сделать скоринг произношения на девайсе. Это был мэтч, равно как и челлендж — по сути, сделать "распознавание речи" на девайсе (а я как раз в этом прокачалась). Мы сделали движок на английском, испанском и японском языках, но в 2022м году с рекламой стало непросто. Ну, или идея оказалась не такой востребованной как мы думали. А может быть то ли еще будет — не знаю. В любом случае, активная стадия этого проекта для меня завершилась.
Я не успела начать искать работу — меня почти сразу позвал в еще один проект экс-коллега из ВКонтакте — идеей было делать компьютерное зрение для самокатов (детекция, что человек едет в разрешенном месте, а также сегментировать карту — машины, люди, и так далее). Для меня это тоже был вызов — ведь до этого я не занималась cv на практике. Тем не менее, это было интересно, я потрогала что-то принципиально отличающееся от моей основной специализации. Однако, этот проект летом 2022го тоже закончился.
Затем я искала работу — собесилась в гугл (правда, это было чуть раньше), откликнулась на всякие стартапные вакансии. Критерии были довольно жесткие — в тот момент я уже делала О1 визу и для меня было принципиальным, чтобы компания имела регистрацию в сша. И как итог 2х недель — 1 оффер на звук, но не в сша. К концу 3й недели поиска мне написал СЕО стартапа по удалению акцента в рилтайме и предложил пособеседоваться на лид инженера. В первом же сообщении —
👀 Про текущий опыт работы в стартапах могу сказать следующее:
1. Большие ставки, большие риски. Если приходите в стартап на ранней стадии, в случае успешного экзита получите много деняк. Но куда более вероятно, увы, что стартап просто закроется
2. Из стартапа очень легко увольняют. Даже если вы перформите. В этом нет ничего страшного, но к этому надо быть готовым
3. Иногда придется заниматься неожиданными вещами, а не только основной специализацией
4. Очень легко выгореть — если не верите в стартап, лучше даже не пытаться
5. Конверсия из подач через платформы оказалась очень низкой. Почти все с кем был мэтч приходили, потому что что-то слышали про меня. И это притом, что у меня небольшой канал
6. Нетворкинг и личный бренд — супер важны
7. Наиболее вероятно, что часть с оплатой налогов и открытием ИП будет на вас
Про что еще вам интересно было бы почитать?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥28❤9🤔1👌1🌚1
После выхода API к ChatGPT появились десятки ботов/приложений, которые стучались в модельку. Сегодня захожу на сайт openai и вижу, что было релизнуто нативное приложение под iOS, которое за 2 недели уже #1 в AppStore по productivity. В русском сторе аппки нет, но зато есть Bing и куча клонов с похожими иконками. Часть из которых, кстати, тоже в 10ке топ-чарта сша 🌚
😁16👍3🔥2🤡2🌚2❤1
Forwarded from grokaem себя
SCALE ASR TO 1000 LANGUAGES
предыстория:
Так случилось, что в детстве я не выучила кабардинский, хотя на половину во мне течет горячая кавказская кровь. Одним прекрасным днем на созвоне у меня спросили смотрела ли я, что там meta выкатила с 1000 языков. Тут я решила разобраться, что они нового сделали и заодно проверить, а будет ли эта новомодная модель определять родной кабардинский. Я написала своей сестре Милане (ага, у меня сестра Милана и ей столько же лет), которая отлично говорит по-кабардински, и она записала мне 5 аудио-сообщений, которые я провалидирую в конце поста.
СТАТЬЯ
BLOG POST with video
код и туториалы по запуску
обзор на медиуме
Кратко:
- взяли 4000 языков (в мире сейчас около 7к) и собрали на них кучу религиозных текстов Библии с аудио
- сделали двуэтапный alignement на эти записи
- сделали ASR (аудио в текст) поэтапно тюнили wav2vec 2.0 относительно частоты языков
- TTS - затюнили VITS
- LID - тот же самый wav2vec, но в конце линейный на кол-о языков. Интересно, что в LID в отличии от ASR микро языки мержились. Например, у азейбарджанского есть северный и южный микро-языки. Имхо, это делает задачу не такой честной, так как многие диалекты вообще не могут понять друг друга, хотя живут через гору и входят в одну группу.
Какие интересные штучки использовали?
0️⃣Так как аудио были около 43 минут, их сначала разделили на чанки в 15 секунд, где речь склеили и поставили SCALABLE FORCED ALIGNMENT. Штука, которая должна соотнести, где речь на аудио. Это особенно сложно (имхо) для агглютинативных языков, так как одно слово может быть очень длинным. Этот scalable forced alignement у них состоит из двух этапов: forced alignment, который взяли на ускоренном Viterbi алгоритме от акустической модели, натренированной на FLEURS и Common Voice + доп. обучение на отфильтрованных чистых семлах, которые получили из разницы forced alignment и greedy search.
1️⃣ Сами тексты были еще допом почищены, добавили токен * чтобы убрать из текстов первые названия, если они не произносились и числа. Хотя тут конечно есть вопросы, потому что в некоторых языках числа это аффиксы, ну да ладно.
2️⃣ Для ASR взяли старый добрый WAV2VEC 2.0. НО добавили LSAH - language-specific adapters к каждому языку в трансформер между блоками. Каждый из них обучается под конкретный язык + после идет файнтюнинг на specific vocab. Адаптеры - это интересная техника тюнинга моделей по статье [будет отдельный пост] Это безусловно добавляет параметров, но и улучшает качество.
Также само обучение, все параметры и валидацию очень подробно описывают, так мне понравилась их
3️⃣ tri-stage schedule тренировка: warm up 10% of updates, 40% constant, final 50% decayed.
Авторы замечают, что скейлинг on over ten times the number of languages of XLS-R повышает качество на low-resource языка, но дропает на популярные. Было бы связно-лингвистически обучиться тогда на языковых группах, ну да ладно.
Сама статья примечательна именно тем, как собрали датасет (я плохо искала и не нашла ссылку на него) и что это действительно возможно заскейлиться на 4к языков хотя бы на LID. Надеюсь, что это станет еще более большим движением и endangered языки будут поддерживаться не только полевыми лингвистами. Тут кстати все языки и пометы использовался ли ASR, LID и TTS на них.
А теперь что там с кабардинским?
Из топ-3 только 3 записи из 5 были распознаны как кабардинский, при этом ни в одной из записей это не топ 1 язык. Чаще путался с абхазским. Тут еще возможен bias на женскую речь, так как большинство спикеров в датасете были мужчины.
Также, я попросила своего друга из Узбекистана сказать эти же фразы. LID на всех из них верно отметил узбекский в топ-1. ASR у них сейчас через hf не работает, так что чекним позже))
#grokaem_audio
предыстория:
Так случилось, что в детстве я не выучила кабардинский, хотя на половину во мне течет горячая кавказская кровь. Одним прекрасным днем на созвоне у меня спросили смотрела ли я, что там meta выкатила с 1000 языков. Тут я решила разобраться, что они нового сделали и заодно проверить, а будет ли эта новомодная модель определять родной кабардинский. Я написала своей сестре Милане (ага, у меня сестра Милана и ей столько же лет), которая отлично говорит по-кабардински, и она записала мне 5 аудио-сообщений, которые я провалидирую в конце поста.
СТАТЬЯ
BLOG POST with video
код и туториалы по запуску
обзор на медиуме
Кратко:
- взяли 4000 языков (в мире сейчас около 7к) и собрали на них кучу религиозных текстов Библии с аудио
- сделали двуэтапный alignement на эти записи
- сделали ASR (аудио в текст) поэтапно тюнили wav2vec 2.0 относительно частоты языков
- TTS - затюнили VITS
- LID - тот же самый wav2vec, но в конце линейный на кол-о языков. Интересно, что в LID в отличии от ASR микро языки мержились. Например, у азейбарджанского есть северный и южный микро-языки. Имхо, это делает задачу не такой честной, так как многие диалекты вообще не могут понять друг друга, хотя живут через гору и входят в одну группу.
Какие интересные штучки использовали?
0️⃣Так как аудио были около 43 минут, их сначала разделили на чанки в 15 секунд, где речь склеили и поставили SCALABLE FORCED ALIGNMENT. Штука, которая должна соотнести, где речь на аудио. Это особенно сложно (имхо) для агглютинативных языков, так как одно слово может быть очень длинным. Этот scalable forced alignement у них состоит из двух этапов: forced alignment, который взяли на ускоренном Viterbi алгоритме от акустической модели, натренированной на FLEURS и Common Voice + доп. обучение на отфильтрованных чистых семлах, которые получили из разницы forced alignment и greedy search.
1️⃣ Сами тексты были еще допом почищены, добавили токен * чтобы убрать из текстов первые названия, если они не произносились и числа. Хотя тут конечно есть вопросы, потому что в некоторых языках числа это аффиксы, ну да ладно.
2️⃣ Для ASR взяли старый добрый WAV2VEC 2.0. НО добавили LSAH - language-specific adapters к каждому языку в трансформер между блоками. Каждый из них обучается под конкретный язык + после идет файнтюнинг на specific vocab. Адаптеры - это интересная техника тюнинга моделей по статье [будет отдельный пост] Это безусловно добавляет параметров, но и улучшает качество.
Также само обучение, все параметры и валидацию очень подробно описывают, так мне понравилась их
3️⃣ tri-stage schedule тренировка: warm up 10% of updates, 40% constant, final 50% decayed.
Авторы замечают, что скейлинг on over ten times the number of languages of XLS-R повышает качество на low-resource языка, но дропает на популярные. Было бы связно-лингвистически обучиться тогда на языковых группах, ну да ладно.
Сама статья примечательна именно тем, как собрали датасет (я плохо искала и не нашла ссылку на него) и что это действительно возможно заскейлиться на 4к языков хотя бы на LID. Надеюсь, что это станет еще более большим движением и endangered языки будут поддерживаться не только полевыми лингвистами. Тут кстати все языки и пометы использовался ли ASR, LID и TTS на них.
А теперь что там с кабардинским?
Из топ-3 только 3 записи из 5 были распознаны как кабардинский, при этом ни в одной из записей это не топ 1 язык. Чаще путался с абхазским. Тут еще возможен bias на женскую речь, так как большинство спикеров в датасете были мужчины.
Также, я попросила своего друга из Узбекистана сказать эти же фразы. LID на всех из них верно отметил узбекский в топ-1. ASR у них сейчас через hf не работает, так что чекним позже))
#grokaem_audio
👍13❤6🔥2😁1
а вы знали, что в тг можно ставить кастомные аватарки на других людей? 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚30🤯14👍9👌6😱4🤔1