Пресидский залив – Telegram
Пресидский залив
6.29K subscribers
448 photos
53 videos
3 files
336 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
Apple наконец-то одобрили билд и у нас час назад случился релиз с распознаванием качества произношения для английского и испанского языков, его уже можно купить в апсторе. Позже напишу подробнее про модель — помню, что интерес к этому был :) в частности, про различные походы к сжатию/портированию/запуску из swift и как уместить phone-level asr модель в 10 мб. Можете нас поздравить :)
#daily
🎉64❤‍🔥6🤔1
Когда езжу в сапсане/летаю на самолёте, обычно смотрю фильмы или читаю статьи, поэтому меня часто принимают за студентку)
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
👍20
Иногда я менторю дипломы, мы с Дашей весной доделывали ее магистерский диплом в вышке по денойзерам, а теперь она в команде главных душнил рок-звезд российского диплернинга. Мне очень понравилась ее статья про стажировку и то, как из hr уйти в speech processing 😎
#daily
❤‍🔥20👍51🔥1
☕️ утренняя порция стабильности в AR 🤌🏻
как обычно все начинается с принтов на футболках, но мир постепенно движется к крутой онлайн-примерке и кастомизации
#news
👍15👏2
Зачем мне этот Premium подумала я и отключила подписку, а потом Telegram мало того что не дал мне отправить разбор на новую статью openai, который я писала, так еще и удалил черновик.... 😭
так что премиум я купила, а вот пост придется писать с самого начала 😢
#daily
🤡23😢8😱4😁1
⚡️ open close openai расщедрились и релизнули свой трансформер для voice tech задач в opensource!

Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎

Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные слова иногда нехорошие 🙃 то есть можно дофайнтюнить энкодер, а дальше поставить что угодно — от классификатора до voice conversion.

Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻‍♀️

В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляции или kaggle-соревнований.

Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚

Подробнее читать тут
#tech
❤‍🔥11🔥6👍32
Пока летела, написала техническую статью про то, как работает движок скоринга акцента в VocApp.io 🌚
спойлер: g2p, хитрый asr и немного эвристик
p.s. найдете любые ошибки, пишите, я буду признательна)

https://medium.com/@zueva.nn/how-we-developed-pronunciation-scoring-engine-in-vocapp-80c702068e64
🔥20👍51👎1🎉1
а вот и причина оформить наконец-то армянский номер подъехала 😅
говорят openai выложили dalle-2, так что можно поиграться (счастливчикам с нерусскими номерами)

го картинки в комменты, кто сможет зайти, а я завтра может наконец дойду до армянского мтс'а🙃
👍8😁5
Я в Ереване до 16 октября, кто тоже здесь и хотел бы встретиться за чашечкой армянского чая пообсуждать визы/стартапы/нейронки?)
чатик: https://news.1rj.ru/str/+0y1FAkyUPLFhMjMy
🔥 Интересное применение voice conversion для генерации параллельного датасета в задаче accent reduction с InterSpeech!

🌚 Если вы когда-нибудь смотрели видео на ютубе с разбором статей от non-native speakers, вы понимаете, как важна эта задача

🧐 Нет параллельных данных с одним и тем же голосом (same pitch, timbre), но с разными акцентами. Иными словами, у нас нет явных таргетов.

💡Давайте нагенерим данные с таргетами сами!

Пусть есть Andy, у которого american english accent и Rishu, у которого hindi english accent и мы хотим процеснуть речь Rishu в american accent. Без ограничения общности, можно взять любой акцент (например наоборот работать с речью Andy в hindi accent) или вообще другой язык, главное, найти акцентированные данные. Тогда чтобы собрать полный пайплайн, нам нужно сделать 2 шага:

⚙️ Voice conversion step. Возьмем any-to-any vc. Хотим модифицировать речь Andy так, чтобы pronunciation pattern и просодика остались оригинальными, а pitrch и timbre стали как у Rishu. После этого шага у нас будут пары с голосом Rishu, но уже с двумя разными акцентами

Авторы берут ARCTIC corpus и L2-ARCTIC Hindi-accented corpus. В этих датасетах 4 человека с американским акцентом и 4 человека с индийским произносят одни и те же фразы. По схеме с Rishu, сгенерируем при помощи vc пары с разными акцентами для всех фраз

⚙️ Accent conversion step. Обучим AC пайплайн, который берет на вход hindi-акцентированную речь и выдает речь того же человека, но с американским акцентом. Архитектура seq2seq, где в качестве энкодера берется wav2vec2.0 и в качестве декодера tacotron2.

Вокодер в статье — WaveGlow, но можно взять что-то помоднее. Например тот же hifi-gan, а вместо wav2vec2.0 попробовать hubert 🙃

p.s. если вы сейчас выбираете тему для диплома, думаю эта статья — неплохой вариант. Код для VQMIVC выложен, а второй шаг является компиляцией трех существующих репозиториев: предобученный wav2vec2.0, tacotron2, и какой-нибудь предобученный вокодер, по статье это WaveGlow
офлайн демка
#tech
👍9🔥51
Хотите подборку идей для дипломов по DL?
Anonymous Poll
89%
Да 🔥
11%
Нет/не актуально 🫠
🔥9
Наткнулась на интересную онлайн тулзу для раскрашивания фоток. Моя прическа — классический пример абьюза cv моделек (поэтому на мне например никогда не тестировали битмоджи, зато вот системы распознавания речи на моем голосе почти всегда выдают идеальный результат 😅). Диффузный palette с колоризацией справился вполне неплохо, только цвет глаз не угадал)
Подробнее про модель
Новость нашла тут
го играться)
👍14🔥51🥰1
открываешь ишьюсы, а там вот такие мемы 🌚
делитесь своими находками тоже
дисклеймер: это не про мой код)))
😁24
Forwarded from мнк сторис
Сейчас нахожусь на финальном этапе работы над получением О1 визы в США, и это рекомендательные письма от 3-5 признанных в индустрии людей. Очень важно написать их максимально “американским” английским с восхвалением всего и вся, поэтому адвокаты отдают их на аутсорс профессиональным журналистам. В итоге получил письма на высокопарном “новостном” языке, привожу несколько отрывков:

“The foregoing serves to cement my view that Mr. Rychkov is a professional of uncommon talents and of truly extraordinary ability. He is undoubtedly in the top 1% of software engineers globally. I strongly encourage USCIS to approve his visa petition”

“I believe that his continued work in his areas of endeavor will continue to yield tremendous benefit to the industry and to any projects that he may engage with his extraordinary ability in the future”

“Making company’s systems work and produce apps that allow high quality audio creation, output and editing, that is user friendly is a hugely complex task that requires software engineering skill of the highest order coupled with expert-level knowledge of all of audio and video technologies. This is exactly what Mr. Rychkov brings to the table and this is why he is not only supremely qualified for the position of Head of iOS Engineering, but he is likely the sole adequate candidate for the job”

Ребята прочитали моё резюме, нашли кучу фактов о компаниях и мне. В общем, проделали довольно серьезный ресерч. По идее у консула будет всего несколько минут для прочтения писем, надеюсь, это сыграет важную роль в решении.

P.S 1% of software engineers globally 🤪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17😁8🔥4
мои рекомендательные письма по О-1 обещают закончить в конце следующей недели) интересно, насколько они будут отличаться от того, что написали для мнк сториз (мы делаем у одних юристов) 🌚
🕊9🔥3👍2
одна очень полезная строчка в путешествиях 🌚
sudo sysctl -w net.inet.ip.ttl=65
👍32🤔3🌚21🕊1
периодически смотрю число цитирований по своей первой и единственной статье) раньше там были тоже статьи про hatespeech, а теперь вот какая интересная папира нарисовалась 🌚 читать я ее пожалуй не буду...
🌚20👏3🤯2😁1
Когда я 4 года назад выбирала тему бакалаврского диплома, у меня была красивая идея.
Моя бабушка была доктором филологических наук и рассказывала, что одна из ее учениц еще в 90х сделала примерно следующее: была гипотеза, что роман "Тихий Дон" написал не Шолохов, а неизвестный белый офицер. Студентка вручную искала "особенности стиля" в романе "Тихий Дон" и в других произведениях Шолохова.

У меня была идея — что если с помощью моделей попробовать построить эмбеддинг стиля Шолохова и автора "Тихого Дона" как например здесь? Даже была курсовая работа на 3 курсе примерно по этой теме. Но в начале февраля 4 курса я поняла, что не вывезу дописать хорошо диплом по этой теме из-за фултайм работы ВКонтакте и переехала на тему semi-supervised asr for low-recourse languages (каковым тогда был русский язык) с которой тогда много работала.

Если бы меня спросили сейчас, какую тему диплома я бы взяла, это было бы однозначно что-то интригующее и необычное. То, что было бы утвердительным ответом на вопрос от моих друзей "а можно ли через нейронку ... ?" На мой взгляд, это еще и помогает лучше понять связь между техническим и не_техническим миром, а именно научиться переводить с "обычного" языка на "математический" язык. В случае с Шолоховым это (например) проверка similarity для эмбеддингов (и поиск наилучшего способа эти эмбеддинги построить).

Остается только продумать новизну и актуальность 🤓

А какую тему хотели бы взять вы?)

ps а если кто-то решится взять эту тему в качестве диплома, пишите мне, я готова помочь наработками
👍183🔥2
Аугментации, которые я заслужила сегодня в турецком госпитале 😄
вообще я довольно много думала о том, как круто было бы подружить всякие кибер аугментации человеческого тела с нейронками.

У меня была идея сделать когда-нибудь потом роборуку, которая управляется датчиком, подсоединенным к мозгу. Оказалось, что, увы, считывать сигналы без хирургического вмешательства очень сложно из-за огромного числа помех. Поэтому современные обручи, которые можно было купить на алиэкспрессе, могут сгодиться для медитаций (снижение активности) но никак не для классификации команд или тем более распознавания речи.
Однако, такая мечта у меня есть, когда-нибудь вернуться к этой теме и изучить ее подробнее) а пока хочу поделиться интересной находкой, авторы стараются сделать в гараже дешевые роборуки, которые доступны для широкой аудитории
👍12