Пресидский залив – Telegram
Пресидский залив
6.3K subscribers
449 photos
53 videos
4 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Запустили ивент в сторе, скоро релизимся 🎉
#daily
🔥26👏5👎1🎉1
demo.wav
466.9 KB
можно убирать акцент, а можно его добавлять 🌚
обратила внимание некоторое время назад на соты в any-to-one voice conversion и собрала небольшую демку в голос LJ-женщины с возможностью записать прямо из колаба свой голос. Больше всего понравилось кормить ей русскую речь и слушать красивый акцент 😄
#tech
👍2😁1
к слову, RIP мои 75 TB на драйве. Сегодня-таки заблочили аккаунт. Хуже всего, что Google Cloud API и календарь сгорели тоже — я как-то про это забыла.
#daily
😢25😱5
происходил ли кринж у вас на собеседованиях? 🌚 пожалуй, моя самая кринжовая ситуация это на вопрос "what language do you prefer?" ответить человеку с похожей на славянскую фамилией "russian"
#daily
🥴35👍1
Forwarded from Темыч in NLP World.
Кажется что последнюю неделю захватили новости про Stable Diffusion и бесконечные демки с его применением. Одно из которых — AI fashion. В треде Karen X. Cheng смогла примерить несколько образов за 7 секундное видео с помощью комбинации Dalle-2, EbSynth и DAIN. Выглядит красиво и необычно.

Тред: https://twitter.com/karenxcheng/status/1564626773001719813?s=21&t=ZetBEuHBcXPqaxXP3LhmHA
👍4
очень интересная демка) собиралась сама про нее написать, но Артем меня опередил 😄
#daily
😁3🌚1
10000000_5379183562162289_1856090431948873174_n.gif
10.7 MB
Интересный проект meta* про классификацию слов по ЭЭГ мозга. Пока что про чтение мыслей и прочий киберпанк говорить рано, но рисерчеры репортят 0.73 top-10 accuracy.
Внутричерепные датчики работают уже сейчас достаточно хорошо, но серьезный челендж это считывать сигнал без хирургического вмешательства — он получается очень шумным. Любопытно, что за основу взяли старый добрый wav2vec2.0. Круто!
* — читать с vpn 🌚
#news
👍15
Вижу как популярные сми пишут, что модель меты читает мысли и ошибается в 27% случаев. Но при этом в заголовках не уточняется, что это не распознавание речи, а классификация на 800 слов, и точность берётся по топ-10, а не топ-1 🌚
#daily
🤡31
На прошлой неделе Snap объявил о закрытии Zenly, а уже сегодня приложение стало баговать 🌚

upd: в Калугу отправляет не только зенли, но и у другие приложения, оказывается
#news
😁5😢5😱1
Пользуетесь Zenly?
Anonymous Poll
22%
Yes
78%
No
Пресидский залив
Как это бывает в стартапах — несколько дней назад мы решили сделать фриз на работу в одном из проектов до лучших времен (инвестиций). До сих пор для меня это был самый денежный проект, а жить я люблю в достатке, поэтому примерно в пятницу я начала искать новую…
Эпопея с работой спустя полтора месяца поисков закончена! 🥳 скоро расскажу подробнее в отдельном посте, это будет интересный войстех проект, который поможет мне с O-1 и переездом в штаты. По ощущениям за это время я разослала около 20-25 раз свое резюме и побеседовала с огромным количеством людей из разных стран через знакомых знакомых.
А вот немного статистики про платформы:
1. из workatstartups ко мне не пришел никто из ~10 поданных заявок
2. из angellist тоже 0 из 5 поданных заявок
3. builtinla — тоже 0 из 5🥲

Также я прошлась по заявкам в LinkedIn, одна из рекрутеров сказала, что я недостаточно синьор, вторые прислали тестовое задание, в котором надо было руками написать свертки и поделать линал, но дальше тоже ничего не произошло.
Также мне написали рекрутеры/CEO из нескольких стартапов сами, но там по разным причинам ничего не вышло (чаще всего из-за отсутствия юр лица в Америке). В итоге, CEO проекта с которым все сложилось, тоже написал мне сам и предложил созвониться.

Какой вывод я сделала — если планируете работать в стартапах, нужно вкладываться в развитие селф-бренда, чтобы о вас что-то слышали в комьюнити. Будь то 500+ connections в LinkedIn, 600 подписчиков в тг-канале или что-то еще 🌚
#hiring
🎉42👍4🐳3🔥1
Кстати, еще хочу рассказать про HR проект Luna Park с которыми я тоже немного поработала — правда, через них найти работу не вышло, так как на момент подачи среди доступных вакансий не было voice позиций, а мне для О-1 заявки нужна была работа именно со звуком. Возможно, кому-то это поможет с поисками :)
#hiring
👍13
Пост вечерней prompt-инженерии от stability-ai.
Поиграться с моделькой, которая берет на вход исходное изображение и prompt можно тут. Затянула меня эта демка на час, дальше лимит кончился. Может, оно и к лучшему 🙃

P.S. если хотите более близкие к исходным изображения, понижайте guidance_scale и ставьте prompt_strength ~ 0.7.
#tech
👍11
Apple наконец-то одобрили билд и у нас час назад случился релиз с распознаванием качества произношения для английского и испанского языков, его уже можно купить в апсторе. Позже напишу подробнее про модель — помню, что интерес к этому был :) в частности, про различные походы к сжатию/портированию/запуску из swift и как уместить phone-level asr модель в 10 мб. Можете нас поздравить :)
#daily
🎉64❤‍🔥6🤔1
Когда езжу в сапсане/летаю на самолёте, обычно смотрю фильмы или читаю статьи, поэтому меня часто принимают за студентку)
Кстати, совсем скоро начнется очередной INTERSPEECH в Сеуле, вижу много докладов про self-supervised representations в духе wav2vec или hubert. Stay tuned!
#daily
👍20
Иногда я менторю дипломы, мы с Дашей весной доделывали ее магистерский диплом в вышке по денойзерам, а теперь она в команде главных душнил рок-звезд российского диплернинга. Мне очень понравилась ее статья про стажировку и то, как из hr уйти в speech processing 😎
#daily
❤‍🔥20👍51🔥1
☕️ утренняя порция стабильности в AR 🤌🏻
как обычно все начинается с принтов на футболках, но мир постепенно движется к крутой онлайн-примерке и кастомизации
#news
👍15👏2
Зачем мне этот Premium подумала я и отключила подписку, а потом Telegram мало того что не дал мне отправить разбор на новую статью openai, который я писала, так еще и удалил черновик.... 😭
так что премиум я купила, а вот пост придется писать с самого начала 😢
#daily
🤡23😢8😱4😁1
⚡️ open close openai расщедрились и релизнули свой трансформер для voice tech задач в opensource!

Основное — это конечно английский asr, но также и много другого, например any-to-english translation. Тут нет явного рокетсаенса, но зато есть веса, обученные на огромном датасете, которые можно скачать прямо сейчас, что как мне кажется еще лучше 😎

Почему это круто?
На мой взгляд самая интересная часть это энкодер, который можно вытащить из пайплайна и использовать как устойчивый к различным трудным данным feature extractor. Разработчики говорят, что учили модель на почти 700k данных, среди которых были очень разные примеры — и с акцентами, и с шумами, и просто музыка. Отдельная боль в ASR — это когда из бекграунд музыки распознаются рандомные слова иногда нехорошие 🙃 то есть можно дофайнтюнить энкодер, а дальше поставить что угодно — от классификатора до voice conversion.

Полная модель с декодером тоже очень интересна — особенно, если вы не делаете бенчмарк на LibriSpeech, а работаете с клиентскими данными, которые часто содержат большое число шумов, акцентов, или даже пение и музыку (откройте демку, там будет k-pop🕺🏻). Сказано, что на таких данных модель по качеству лучше на 50% — как именно подсчитали эту цифру, правда, я не нашла 💁🏻‍♀️

В репозитории есть несколько конфигураций модели, как это было с GPT-семейством, от tiny c 39M до large c 1550M параметров, которая вполне может подойти для дистилляции или kaggle-соревнований.

Кроме того, судя по демо, Whisper сразу делает расстановку знаков препинания. Base (вторая по величине модель) весит всего 140 мб, так что если убрать все ненужные части (или даже декодер), останется очень приятный размер, который вполне можно использовать на разного рода девайсах. Круто, желаю openai больше таких прикладных проектов 🌚

Подробнее читать тут
#tech
❤‍🔥11🔥6👍32