demo.wav
466.9 KB
можно убирать акцент, а можно его добавлять 🌚
обратила внимание некоторое время назад на соты в any-to-one voice conversion и собрала небольшую демку в голос LJ-женщины с возможностью записать прямо из колаба свой голос. Больше всего понравилось кормить ей русскую речь и слушать красивый акцент 😄
#tech
обратила внимание некоторое время назад на соты в any-to-one voice conversion и собрала небольшую демку в голос LJ-женщины с возможностью записать прямо из колаба свой голос. Больше всего понравилось кормить ей русскую речь и слушать красивый акцент 😄
#tech
👍2😁1
к слову, RIP мои 75 TB на драйве. Сегодня-таки заблочили аккаунт. Хуже всего, что Google Cloud API и календарь сгорели тоже — я как-то про это забыла.
#daily
#daily
😢25😱5
происходил ли кринж у вас на собеседованиях? 🌚 пожалуй, моя самая кринжовая ситуация это на вопрос "what language do you prefer?" ответить человеку с похожей на славянскую фамилией "russian"
#daily
#daily
🥴35👍1
Forwarded from Темыч in NLP World.
Кажется что последнюю неделю захватили новости про Stable Diffusion и бесконечные демки с его применением. Одно из которых — AI fashion. В треде Karen X. Cheng смогла примерить несколько образов за 7 секундное видео с помощью комбинации Dalle-2, EbSynth и DAIN. Выглядит красиво и необычно.
Тред: https://twitter.com/karenxcheng/status/1564626773001719813?s=21&t=ZetBEuHBcXPqaxXP3LhmHA
Тред: https://twitter.com/karenxcheng/status/1564626773001719813?s=21&t=ZetBEuHBcXPqaxXP3LhmHA
👍4
очень интересная демка) собиралась сама про нее написать, но Артем меня опередил 😄
#daily
#daily
😁3🌚1
10000000_5379183562162289_1856090431948873174_n.gif
10.7 MB
Интересный проект meta* про классификацию слов по ЭЭГ мозга. Пока что про чтение мыслей и прочий киберпанк говорить рано, но рисерчеры репортят 0.73 top-10 accuracy.
Внутричерепные датчики работают уже сейчас достаточно хорошо, но серьезный челендж это считывать сигнал без хирургического вмешательства — он получается очень шумным. Любопытно, что за основу взяли старый добрый wav2vec2.0. Круто!
* — читать с vpn 🌚
#news
Внутричерепные датчики работают уже сейчас достаточно хорошо, но серьезный челендж это считывать сигнал без хирургического вмешательства — он получается очень шумным. Любопытно, что за основу взяли старый добрый wav2vec2.0. Круто!
* — читать с vpn 🌚
#news
👍15
Вижу как популярные сми пишут, что модель меты читает мысли и ошибается в 27% случаев. Но при этом в заголовках не уточняется, что это не распознавание речи, а классификация на 800 слов, и точность берётся по топ-10, а не топ-1 🌚
#daily
#daily
🤡31
На прошлой неделе Snap объявил о закрытии Zenly, а уже сегодня приложение стало баговать 🌚
upd: в Калугу отправляет не только зенли, но и у другие приложения, оказывается
#news
upd: в Калугу отправляет не только зенли, но и у другие приложения, оказывается
#news
😁5😢5😱1
Пресидский залив
Как это бывает в стартапах — несколько дней назад мы решили сделать фриз на работу в одном из проектов до лучших времен (инвестиций). До сих пор для меня это был самый денежный проект, а жить я люблю в достатке, поэтому примерно в пятницу я начала искать новую…
Эпопея с работой спустя полтора месяца поисков закончена! 🥳 скоро расскажу подробнее в отдельном посте, это будет интересный войстех проект, который поможет мне с O-1 и переездом в штаты. По ощущениям за это время я разослала около 20-25 раз свое резюме и побеседовала с огромным количеством людей из разных стран через знакомых знакомых.
А вот немного статистики про платформы:
1. из workatstartups ко мне не пришел никто из ~10 поданных заявок
2. из angellist тоже 0 из 5 поданных заявок
3. builtinla — тоже 0 из 5🥲
Также я прошлась по заявкам в LinkedIn, одна из рекрутеров сказала, что я недостаточно синьор, вторые прислали тестовое задание, в котором надо было руками написать свертки и поделать линал, но дальше тоже ничего не произошло.
Также мне написали рекрутеры/CEO из нескольких стартапов сами, но там по разным причинам ничего не вышло (чаще всего из-за отсутствия юр лица в Америке). В итоге, CEO проекта с которым все сложилось, тоже написал мне сам и предложил созвониться.
Какой вывод я сделала — если планируете работать в стартапах, нужно вкладываться в развитие селф-бренда, чтобы о вас что-то слышали в комьюнити. Будь то 500+ connections в LinkedIn, 600 подписчиков в тг-канале или что-то еще 🌚
#hiring
А вот немного статистики про платформы:
1. из workatstartups ко мне не пришел никто из ~10 поданных заявок
2. из angellist тоже 0 из 5 поданных заявок
3. builtinla — тоже 0 из 5🥲
Также я прошлась по заявкам в LinkedIn, одна из рекрутеров сказала, что я недостаточно синьор, вторые прислали тестовое задание, в котором надо было руками написать свертки и поделать линал, но дальше тоже ничего не произошло.
Также мне написали рекрутеры/CEO из нескольких стартапов сами, но там по разным причинам ничего не вышло (чаще всего из-за отсутствия юр лица в Америке). В итоге, CEO проекта с которым все сложилось, тоже написал мне сам и предложил созвониться.
Какой вывод я сделала — если планируете работать в стартапах, нужно вкладываться в развитие селф-бренда, чтобы о вас что-то слышали в комьюнити. Будь то 500+ connections в LinkedIn, 600 подписчиков в тг-канале или что-то еще 🌚
#hiring
🎉42👍4🐳3🔥1
Кстати, еще хочу рассказать про HR проект Luna Park с которыми я тоже немного поработала — правда, через них найти работу не вышло, так как на момент подачи среди доступных вакансий не было voice позиций, а мне для О-1 заявки нужна была работа именно со звуком. Возможно, кому-то это поможет с поисками :)
#hiring
#hiring
Hrlunapark
Luna Park HR Agency
HR agency, where techies recruit techies
👍13
Пост вечерней prompt-инженерии от stability-ai.
Поиграться с моделькой, которая берет на вход исходное изображение и prompt можно тут. Затянула меня эта демка на час, дальше лимит кончился. Может, оно и к лучшему 🙃
P.S. если хотите более близкие к исходным изображения, понижайте guidance_scale и ставьте prompt_strength ~ 0.7.
#tech
Поиграться с моделькой, которая берет на вход исходное изображение и prompt можно тут. Затянула меня эта демка на час, дальше лимит кончился. Может, оно и к лучшему 🙃
P.S. если хотите более близкие к исходным изображения, понижайте guidance_scale и ставьте prompt_strength ~ 0.7.
#tech
👍11
Apple наконец-то одобрили билд и у нас час назад случился релиз с распознаванием качества произношения для английского и испанского языков, его уже можно купить в апсторе. Позже напишу подробнее про модель — помню, что интерес к этому был :) в частности, про различные походы к сжатию/портированию/запуску из swift и как уместить phone-level asr модель в 10 мб. Можете нас поздравить :)
#daily
#daily
🎉64❤🔥6🤔1
Когда езжу в сапсане/летаю на самолёте, обычно смотрю фильмы или читаю статьи, поэтому меня часто принимают за студентку)
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
👍20
Иногда я менторю дипломы, мы с Дашей весной доделывали ее магистерский диплом в вышке по денойзерам, а теперь она в команде главных душнил рок-звезд российского диплернинга. Мне очень понравилась ее статья про стажировку и то, как из hr уйти в speech processing 😎
#daily
#daily
vc.ru
Как я попала в ряды рок-звёзд российского дип лёрнинга — ВКонтакте на vc.ru
История бывшего стажёра «ВКонтакте»
❤🔥20👍5❤1🔥1
⚡️ open close openai расщедрились и релизнули свой трансформер для voice tech задач в opensource!
Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎
Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные словаиногда нехорошие 🙃 то есть можно дофайнтюнить энкодер, а дальше поставить что угодно — от классификатора до voice conversion.
Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻♀️
В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляцииили kaggle-соревнований.
Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚
Подробнее читать тут
#tech
Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎
Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные слова
Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻♀️
В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляции
Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚
Подробнее читать тут
#tech
❤🔥11🔥6👍3❤2
Посты в этом канале…
Anonymous Poll
11%
Слишком сложные 🤯 пиши проще
18%
Слишком простые 🌚 пиши сложнее
71%
Все топ, оставь как есть 😎
👍9
Пока летела, написала техническую статью про то, как работает движок скоринга акцента в VocApp.io 🌚
спойлер: g2p, хитрый asr и немного эвристик
p.s. найдете любые ошибки, пишите, я буду признательна)
https://medium.com/@zueva.nn/how-we-developed-pronunciation-scoring-engine-in-vocapp-80c702068e64
спойлер: g2p, хитрый asr и немного эвристик
p.s. найдете любые ошибки, пишите, я буду признательна)
https://medium.com/@zueva.nn/how-we-developed-pronunciation-scoring-engine-in-vocapp-80c702068e64
Medium
How we developed pronunciation scoring engine in VocApp
Last autumn we came up with a challenging idea to create an on-device pronunciation scoring system. And now we are happy to announce that…
🔥20👍5❤1👎1🎉1