На прошлой неделе Snap объявил о закрытии Zenly, а уже сегодня приложение стало баговать 🌚
upd: в Калугу отправляет не только зенли, но и у другие приложения, оказывается
#news
upd: в Калугу отправляет не только зенли, но и у другие приложения, оказывается
#news
😁5😢5😱1
Пресидский залив
Как это бывает в стартапах — несколько дней назад мы решили сделать фриз на работу в одном из проектов до лучших времен (инвестиций). До сих пор для меня это был самый денежный проект, а жить я люблю в достатке, поэтому примерно в пятницу я начала искать новую…
Эпопея с работой спустя полтора месяца поисков закончена! 🥳 скоро расскажу подробнее в отдельном посте, это будет интересный войстех проект, который поможет мне с O-1 и переездом в штаты. По ощущениям за это время я разослала около 20-25 раз свое резюме и побеседовала с огромным количеством людей из разных стран через знакомых знакомых.
А вот немного статистики про платформы:
1. из workatstartups ко мне не пришел никто из ~10 поданных заявок
2. из angellist тоже 0 из 5 поданных заявок
3. builtinla — тоже 0 из 5🥲
Также я прошлась по заявкам в LinkedIn, одна из рекрутеров сказала, что я недостаточно синьор, вторые прислали тестовое задание, в котором надо было руками написать свертки и поделать линал, но дальше тоже ничего не произошло.
Также мне написали рекрутеры/CEO из нескольких стартапов сами, но там по разным причинам ничего не вышло (чаще всего из-за отсутствия юр лица в Америке). В итоге, CEO проекта с которым все сложилось, тоже написал мне сам и предложил созвониться.
Какой вывод я сделала — если планируете работать в стартапах, нужно вкладываться в развитие селф-бренда, чтобы о вас что-то слышали в комьюнити. Будь то 500+ connections в LinkedIn, 600 подписчиков в тг-канале или что-то еще 🌚
#hiring
А вот немного статистики про платформы:
1. из workatstartups ко мне не пришел никто из ~10 поданных заявок
2. из angellist тоже 0 из 5 поданных заявок
3. builtinla — тоже 0 из 5🥲
Также я прошлась по заявкам в LinkedIn, одна из рекрутеров сказала, что я недостаточно синьор, вторые прислали тестовое задание, в котором надо было руками написать свертки и поделать линал, но дальше тоже ничего не произошло.
Также мне написали рекрутеры/CEO из нескольких стартапов сами, но там по разным причинам ничего не вышло (чаще всего из-за отсутствия юр лица в Америке). В итоге, CEO проекта с которым все сложилось, тоже написал мне сам и предложил созвониться.
Какой вывод я сделала — если планируете работать в стартапах, нужно вкладываться в развитие селф-бренда, чтобы о вас что-то слышали в комьюнити. Будь то 500+ connections в LinkedIn, 600 подписчиков в тг-канале или что-то еще 🌚
#hiring
🎉42👍4🐳3🔥1
Кстати, еще хочу рассказать про HR проект Luna Park с которыми я тоже немного поработала — правда, через них найти работу не вышло, так как на момент подачи среди доступных вакансий не было voice позиций, а мне для О-1 заявки нужна была работа именно со звуком. Возможно, кому-то это поможет с поисками :)
#hiring
#hiring
Hrlunapark
Luna Park HR Agency
HR agency, where techies recruit techies
👍13
Пост вечерней prompt-инженерии от stability-ai.
Поиграться с моделькой, которая берет на вход исходное изображение и prompt можно тут. Затянула меня эта демка на час, дальше лимит кончился. Может, оно и к лучшему 🙃
P.S. если хотите более близкие к исходным изображения, понижайте guidance_scale и ставьте prompt_strength ~ 0.7.
#tech
Поиграться с моделькой, которая берет на вход исходное изображение и prompt можно тут. Затянула меня эта демка на час, дальше лимит кончился. Может, оно и к лучшему 🙃
P.S. если хотите более близкие к исходным изображения, понижайте guidance_scale и ставьте prompt_strength ~ 0.7.
#tech
👍11
Apple наконец-то одобрили билд и у нас час назад случился релиз с распознаванием качества произношения для английского и испанского языков, его уже можно купить в апсторе. Позже напишу подробнее про модель — помню, что интерес к этому был :) в частности, про различные походы к сжатию/портированию/запуску из swift и как уместить phone-level asr модель в 10 мб. Можете нас поздравить :)
#daily
#daily
🎉64❤🔥6🤔1
Когда езжу в сапсане/летаю на самолёте, обычно смотрю фильмы или читаю статьи, поэтому меня часто принимают за студентку)
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
👍20
Иногда я менторю дипломы, мы с Дашей весной доделывали ее магистерский диплом в вышке по денойзерам, а теперь она в команде главных душнил рок-звезд российского диплернинга. Мне очень понравилась ее статья про стажировку и то, как из hr уйти в speech processing 😎
#daily
#daily
vc.ru
Как я попала в ряды рок-звёзд российского дип лёрнинга — ВКонтакте на vc.ru
История бывшего стажёра «ВКонтакте»
❤🔥20👍5❤1🔥1
⚡️ open close openai расщедрились и релизнули свой трансформер для voice tech задач в opensource!
Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎
Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные словаиногда нехорошие 🙃 то есть можно дофайнтюнить энкодер, а дальше поставить что угодно — от классификатора до voice conversion.
Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻♀️
В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляцииили kaggle-соревнований.
Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚
Подробнее читать тут
#tech
Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎
Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные слова
Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻♀️
В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляции
Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚
Подробнее читать тут
#tech
❤🔥11🔥6👍3❤2
Посты в этом канале…
Anonymous Poll
11%
Слишком сложные 🤯 пиши проще
18%
Слишком простые 🌚 пиши сложнее
71%
Все топ, оставь как есть 😎
👍9
Пока летела, написала техническую статью про то, как работает движок скоринга акцента в VocApp.io 🌚
спойлер: g2p, хитрый asr и немного эвристик
p.s. найдете любые ошибки, пишите, я буду признательна)
https://medium.com/@zueva.nn/how-we-developed-pronunciation-scoring-engine-in-vocapp-80c702068e64
спойлер: g2p, хитрый asr и немного эвристик
p.s. найдете любые ошибки, пишите, я буду признательна)
https://medium.com/@zueva.nn/how-we-developed-pronunciation-scoring-engine-in-vocapp-80c702068e64
Medium
How we developed pronunciation scoring engine in VocApp
Last autumn we came up with a challenging idea to create an on-device pronunciation scoring system. And now we are happy to announce that…
🔥20👍5❤1👎1🎉1
а вот и причина оформить наконец-то армянский номер подъехала 😅
говорят openai выложили dalle-2, так что можно поиграться (счастливчикам с нерусскими номерами)
го картинки в комменты, кто сможет зайти, а я завтра может наконец дойду до армянского мтс'а🙃
говорят openai выложили dalle-2, так что можно поиграться (счастливчикам с нерусскими номерами)
го картинки в комменты, кто сможет зайти, а я завтра может наконец дойду до армянского мтс'а🙃
👍8😁5
Я в Ереване до 16 октября, кто тоже здесь и хотел бы встретиться за чашечкой армянского чая пообсуждать визы/стартапы/нейронки?)
чатик: https://news.1rj.ru/str/+0y1FAkyUPLFhMjMy
чатик: https://news.1rj.ru/str/+0y1FAkyUPLFhMjMy
🔥 Интересное применение voice conversion для генерации параллельного датасета в задаче accent reduction с InterSpeech!
🌚 Если вы когда-нибудь смотрели видео на ютубе с разбором статей от non-native speakers, вы понимаете, как важна эта задача
🧐 Нет параллельных данных с одним и тем же голосом (same pitch, timbre), но с разными акцентами. Иными словами, у нас нет явных таргетов.
💡Давайте нагенерим данные с таргетами сами!
Пусть есть Andy, у которого american english accent и Rishu, у которого hindi english accent и мы хотим процеснуть речь Rishu в american accent. Без ограничения общности, можно взять любой акцент (например наоборот работать с речью Andy в hindi accent) или вообще другой язык, главное, найти акцентированные данные. Тогда чтобы собрать полный пайплайн, нам нужно сделать 2 шага:
⚙️ Voice conversion step. Возьмем any-to-any vc. Хотим модифицировать речь Andy так, чтобы pronunciation pattern и просодика остались оригинальными, а pitrch и timbre стали как у Rishu. После этого шага у нас будут пары с голосом Rishu, но уже с двумя разными акцентами
Авторы берут ARCTIC corpus и L2-ARCTIC Hindi-accented corpus. В этих датасетах 4 человека с американским акцентом и 4 человека с индийским произносят одни и те же фразы. По схеме с Rishu, сгенерируем при помощи vc пары с разными акцентами для всех фраз
⚙️ Accent conversion step. Обучим AC пайплайн, который берет на вход hindi-акцентированную речь и выдает речь того же человека, но с американским акцентом. Архитектура seq2seq, где в качестве энкодера берется wav2vec2.0 и в качестве декодера tacotron2.
Вокодер в статье — WaveGlow, но можно взять что-то помоднее. Например тот же hifi-gan, а вместо wav2vec2.0 попробовать hubert 🙃
p.s. если вы сейчас выбираете тему для диплома, думаю эта статья — неплохой вариант. Код для VQMIVC выложен, а второй шаг является компиляцией трех существующих репозиториев: предобученный wav2vec2.0, tacotron2, и какой-нибудь предобученный вокодер, по статье это WaveGlow
офлайн демка
#tech
🌚 Если вы когда-нибудь смотрели видео на ютубе с разбором статей от non-native speakers, вы понимаете, как важна эта задача
🧐 Нет параллельных данных с одним и тем же голосом (same pitch, timbre), но с разными акцентами. Иными словами, у нас нет явных таргетов.
💡Давайте нагенерим данные с таргетами сами!
Пусть есть Andy, у которого american english accent и Rishu, у которого hindi english accent и мы хотим процеснуть речь Rishu в american accent. Без ограничения общности, можно взять любой акцент (например наоборот работать с речью Andy в hindi accent) или вообще другой язык, главное, найти акцентированные данные. Тогда чтобы собрать полный пайплайн, нам нужно сделать 2 шага:
⚙️ Voice conversion step. Возьмем any-to-any vc. Хотим модифицировать речь Andy так, чтобы pronunciation pattern и просодика остались оригинальными, а pitrch и timbre стали как у Rishu. После этого шага у нас будут пары с голосом Rishu, но уже с двумя разными акцентами
Авторы берут ARCTIC corpus и L2-ARCTIC Hindi-accented corpus. В этих датасетах 4 человека с американским акцентом и 4 человека с индийским произносят одни и те же фразы. По схеме с Rishu, сгенерируем при помощи vc пары с разными акцентами для всех фраз
⚙️ Accent conversion step. Обучим AC пайплайн, который берет на вход hindi-акцентированную речь и выдает речь того же человека, но с американским акцентом. Архитектура seq2seq, где в качестве энкодера берется wav2vec2.0 и в качестве декодера tacotron2.
Вокодер в статье — WaveGlow, но можно взять что-то помоднее. Например тот же hifi-gan, а вместо wav2vec2.0 попробовать hubert 🙃
p.s. если вы сейчас выбираете тему для диплома, думаю эта статья — неплохой вариант. Код для VQMIVC выложен, а второй шаг является компиляцией трех существующих репозиториев: предобученный wav2vec2.0, tacotron2, и какой-нибудь предобученный вокодер, по статье это WaveGlow
офлайн демка
#tech
👍9🔥5❤1
🔥9
Наткнулась на интересную онлайн тулзу для раскрашивания фоток. Моя прическа — классический пример абьюза cv моделек (поэтому на мне например никогда не тестировали битмоджи, зато вот системы распознавания речи на моем голосе почти всегда выдают идеальный результат 😅). Диффузный palette с колоризацией справился вполне неплохо, только цвет глаз не угадал)
Подробнее про модель
Новость нашла тут
го играться)
Подробнее про модель
Новость нашла тут
го играться)
👍14🔥5❤1🥰1