Пресидский залив – Telegram
Пресидский залив
6.29K subscribers
449 photos
53 videos
3 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
9👍5👌3
Как я попала в стартапы и что я там делала? 👨‍💻

Вопросы, которые мне задали в канале уже по крайней мере 4 раза 😅

TLDR — через знакомых. Иногда — через канал, через бывших коллег и друзей. Я всегда была очень общительным человеком, который любит выступать с докладами или просто со всеми болтать.

Осенью 2021го года когда я была тимлидом ВКонтакте — поняла, что менеджмент в бигтехе меня не особо привлекает 🙂. На тот момент мой парень уже год работал в американском стартапе который занимается музыкой, но без AI. Мне сделали интро, и ребята из стартапа мной заинтересовались. Мы созвонились, я рассказала, что умею и мы обсудили, чем я могу быть им полезна. Договорились, что я сделаю им на парт тайме легкий денойзер на девайсе и генерацию четверостишия в стиле выбранного исполнителя на беке. Мы проработали вместе примерно 4 месяца по очень приятному ценнику и у нас были идеи для будущих проектов. За это время я плотно поработала с библиотекой coremltools и swift'ом, а также стала свободнее в использовании гуглового бэкенда 😎 Однако, в январе 2022 года СЕО стартапа решил сменить вектор развития и сказал, что не хочет разрабатывать свой AI. К слову, сейчас ребята стали довольно успешно использовать нейронные API без обучения своих собственных моделек.

Во время работы с mayk.it, ко мне пришел мой друг с предложением сделать скоринг произношения на девайсе. Это был мэтч, равно как и челлендж — по сути, сделать "распознавание речи" на девайсе (а я как раз в этом прокачалась). Мы сделали движок на английском, испанском и японском языках, но в 2022м году с рекламой стало непросто. Ну, или идея оказалась не такой востребованной как мы думали. А может быть то ли еще будет — не знаю. В любом случае, активная стадия этого проекта для меня завершилась.

Я не успела начать искать работу — меня почти сразу позвал в еще один проект экс-коллега из ВКонтакте — идеей было делать компьютерное зрение для самокатов (детекция, что человек едет в разрешенном месте, а также сегментировать карту — машины, люди, и так далее). Для меня это тоже был вызов — ведь до этого я не занималась cv на практике. Тем не менее, это было интересно, я потрогала что-то принципиально отличающееся от моей основной специализации. Однако, этот проект летом 2022го тоже закончился.


Затем я искала работу — собесилась в гугл (правда, это было чуть раньше), откликнулась на всякие стартапные вакансии. Критерии были довольно жесткие — в тот момент я уже делала О1 визу и для меня было принципиальным, чтобы компания имела регистрацию в сша. И как итог 2х недель — 1 оффер на звук, но не в сша. К концу 3й недели поиска мне написал СЕО стартапа по удалению акцента в рилтайме и предложил пособеседоваться на лид инженера. В первом же сообщении — пересекались в шаде видел твой канал, готов помочь с О1. В этом стартапе я работаю с сентября на фултайме.

👀 Про текущий опыт работы в стартапах могу сказать следующее:

1. Большие ставки, большие риски. Если приходите в стартап на ранней стадии, в случае успешного экзита получите много деняк. Но куда более вероятно, увы, что стартап просто закроется
2. Из стартапа очень легко увольняют. Даже если вы перформите. В этом нет ничего страшного, но к этому надо быть готовым
3. Иногда придется заниматься неожиданными вещами, а не только основной специализацией
4. Очень легко выгореть — если не верите в стартап, лучше даже не пытаться
5. Конверсия из подач через платформы оказалась очень низкой. Почти все с кем был мэтч приходили, потому что что-то слышали про меня. И это притом, что у меня небольшой канал
6. Нетворкинг и личный бренд — супер важны
7. Наиболее вероятно, что часть с оплатой налогов и открытием ИП будет на вас

Про что еще вам интересно было бы почитать? 💻
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥289🤔1👌1🌚1
После выхода API к ChatGPT появились десятки ботов/приложений, которые стучались в модельку. Сегодня захожу на сайт openai и вижу, что было релизнуто нативное приложение под iOS, которое за 2 недели уже #1 в AppStore по productivity. В русском сторе аппки нет, но зато есть Bing и куча клонов с похожими иконками. Часть из которых, кстати, тоже в 10ке топ-чарта сша 🌚
😁16👍3🔥2🤡2🌚21
Forwarded from grokaem себя
SCALE ASR TO 1000 LANGUAGES

предыстория:
Так случилось, что в детстве я не выучила кабардинский, хотя на половину во мне течет горячая кавказская кровь. Одним прекрасным днем на созвоне у меня спросили смотрела ли я, что там meta выкатила с 1000 языков. Тут я решила разобраться, что они нового сделали и заодно проверить, а будет ли эта новомодная модель определять родной кабардинский. Я написала своей сестре Милане (ага, у меня сестра Милана и ей столько же лет), которая отлично говорит по-кабардински, и она записала мне 5 аудио-сообщений, которые я провалидирую в конце поста.

СТАТЬЯ
BLOG POST with video
код и туториалы по запуску
обзор на медиуме

Кратко:
- взяли 4000 языков (в мире сейчас около 7к) и собрали на них кучу религиозных текстов Библии с аудио
- сделали двуэтапный alignement на эти записи
- сделали ASR (аудио в текст) поэтапно тюнили wav2vec 2.0 относительно частоты языков
- TTS - затюнили VITS
- LID - тот же самый wav2vec, но в конце линейный на кол-о языков. Интересно, что в LID в отличии от ASR микро языки мержились. Например, у азейбарджанского есть северный и южный микро-языки. Имхо, это делает задачу не такой честной, так как многие диалекты вообще не могут понять друг друга, хотя живут через гору и входят в одну группу.


Какие интересные штучки использовали?

0️⃣Так как аудио были около 43 минут, их сначала разделили на чанки в 15 секунд, где речь склеили и поставили SCALABLE FORCED ALIGNMENT. Штука, которая должна соотнести, где речь на аудио. Это особенно сложно (имхо) для агглютинативных языков, так как одно слово может быть очень длинным. Этот scalable forced alignement у них состоит из двух этапов: forced alignment, который взяли на ускоренном Viterbi алгоритме от акустической модели, натренированной на FLEURS и Common Voice + доп. обучение на отфильтрованных чистых семлах, которые получили из разницы forced alignment и greedy search.

1️⃣ Сами тексты были еще допом почищены, добавили токен * чтобы убрать из текстов первые названия, если они не произносились и числа. Хотя тут конечно есть вопросы, потому что в некоторых языках числа это аффиксы, ну да ладно.

2️⃣ Для ASR взяли старый добрый WAV2VEC 2.0. НО добавили LSAH - language-specific adapters к каждому языку в трансформер между блоками. Каждый из них обучается под конкретный язык + после идет файнтюнинг на specific vocab. Адаптеры - это интересная техника тюнинга моделей по статье [будет отдельный пост] Это безусловно добавляет параметров, но и улучшает качество.

Также само обучение, все параметры и валидацию очень подробно описывают, так мне понравилась их
3️⃣ tri-stage schedule тренировка: warm up 10% of updates, 40% constant, final 50% decayed.

Авторы замечают, что скейлинг on over ten times the number of languages of XLS-R повышает качество на low-resource языка, но дропает на популярные. Было бы связно-лингвистически обучиться тогда на языковых группах, ну да ладно.

Сама статья примечательна именно тем, как собрали датасет (я плохо искала и не нашла ссылку на него) и что это действительно возможно заскейлиться на 4к языков хотя бы на LID. Надеюсь, что это станет еще более большим движением и endangered языки будут поддерживаться не только полевыми лингвистами. Тут кстати все языки и пометы использовался ли ASR, LID и TTS на них.

А теперь что там с кабардинским?
Из топ-3 только 3 записи из 5 были распознаны как кабардинский, при этом ни в одной из записей это не топ 1 язык. Чаще путался с абхазским. Тут еще возможен bias на женскую речь, так как большинство спикеров в датасете были мужчины.

Также, я попросила своего друга из Узбекистана сказать эти же фразы. LID на всех из них верно отметил узбекский в топ-1. ASR у них сейчас через hf не работает, так что чекним позже))

#grokaem_audio
👍136🔥2😁1
а вы знали, что в тг можно ставить кастомные аватарки на других людей? 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚30🤯14👍9👌6😱4🤔1
🤯
Надя такая — поеду в Сингапур. Сингапур такой — а давай нам тоже расширенный пакет документов 🇸🇬
🤡45😱8😁2🙏2🥴21🤬1
👨‍💻 Собес в бигтех и стартапы — мысли интервьюера

Мое первое серьезное собеседование было на 2м курсе в Яндекс.Такси. С алгоритмами я справилась нормально, а вот мл секция была полным фиаско. После собеседования мне позвонили и сказали, что мои знания по мл “поверхностные”. Я расстроилась, но не сдалась — а сейчас, спустя 6 лет, кучу пройденных и проведенных собеседований я понимаю, что в этом нет ничего страшного.

😐 Но любое собеседование долго ассоциировалось с сильным стрессом.
Я выработала подход для себя как интервьюера. Сама, подглядела, или от противного 😂
Цель собеседования: понять, что человек уже умеет, чем занимался, готов ли учиться, как будет вести себя в стрессе. Идеально — если с собеса он уйдет довольный при любом раскладе)

🌱 Джун/мидл 🌱
Даю тестовое задание на кодинг, чтобы обсуждать на собеседовании и попутно задавать технические вопросы. В случае успешного прохождения этого этапа, человек попадает на собес. И там идем по плану:

1️⃣ Бекграунд-чек
Вопрос: есть ли релевантный опыт?
Проверить на полиграфе Прошу рассказать, чем занимался? Если опыта нет — какие пет проекты делал, чем бы хотел заняться? Почему? Попутно прикидываю план технических вопросов — использовал модель N? Поговорим про модель N. Метрики хуже, чем ожидалось? Поговорим, отражают ли метрики действительно качество алгоритма.

2️⃣ Дайв в тестовое
Вопрос: делал ли тестовое сам (понимает, что там происходит), как решает задачи?
Начинаем обсуждать решение по накиданному плану. То, что обязательно спрошу: использовал ли чужой код? (И да, само собой это норм). Использовал — почему взял из этого репозитория, а не из другого? Как работает твой алгоритм? С какими трудностями столкнулся? Как можно улучшить? А как корректно оценить результат?

3️⃣Технический вайб-чек
Вопрос: что будет происходить в нестандартных ситуациях?
Если по части 2 все чисто, переходим к финальному этапу — проблемы из реальной жизни. Тут нет правильных ответов, но важен план и размышления. И да, для роли любой синиорности ответ “пойду спрошу того кто знает если не уверен” очень хорошо. Будет ли закапываться? Будет ли молчать, если накосячил?


🌴 Синиор/лид🌴
И в корпорации, и в стартап на такую роль ожидаю человека, который в значительной мере понимает бизнес-задачи и сам принимает решения. Идеально, если человек приходит по проверенной рекомендации.

1️⃣ Бекграунд-чек
Вопрос: есть ли релевантный опыт?
Тестовое задание обычно не даю — особенно, если есть опыт работы над конкретными проектами с понятным импактом человека. Например — “делал генерацию субтитров к видео в компании N, отвечал за эффективный сбор данных и дообучение моделей”. Тоже накидываю список вопросов для дайва.

2️⃣ Дайв в опыт
Вопрос: как решает релевантные задачи?
Проваливаемся по цепочке связанных тем примерно по плану накиданных вопросов в первом пункте. Важно не столько погружаться в теоретические детали, сколько спрашивать про подходы и фреймворки. Как человек декомпозирует задачу, проецирует бизнес задачи на техническое пространство, как фиксирует успех и взаимодействует со смежными специалистами? Умеет ли делегировать?

3️⃣ Технический вайб-чек
Вопрос: что будет происходить в нестандартных ситуациях?
Как будем контролировать, что пайплайн не упадет? Что будем делать, если упадет? Выяснили, что задачу не сделать так быстро, как планировали. Что тогда? И все на конкретных примерах.
А также то, что обязательно должно быть развито у любого синьора — софт скилы. Кандидат должен быть готов к компромиссам, обсуждениям и тупым вопросам. А еще к признанию своих собственных ошибок и несению ответственности за критические компоненты.

Что происходит после собеседования? Отказы — тоже целое искусство 🌚. Самый изящный вариант отказа был мне из гугла после финального собеса — эйчар позвонил и голосом сказал, что у меня есть самое главное — софт скиллы и умение выстраивать рабочие процессы. То, что в этот раз не хватило знаний по алгоритмам (не мл) — можно развить и мне очень понравился этот ответ — закончили на хорошей ноте)

Кстати, если я вас собеседовала когда-либо, пишите в комменты 🏖
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍125👏4
Очередной визовый апдейт
Пришло еще одно письмо от консула из Белграда по О1 визе — запросили еще раз (в 3й) мое CV и заполненную форму про бекграунд. Общаюсь с юристами, снова не понимаю, что происходит...

upd: юристы говорят, что форму бекграунда действительно могут запрашивать часто. Сейчас скорее всего проверяют, что мой оффер еще актуален и ждут ли меня в сша
#O1
😱32🤡25🤯14
Друзья! Лечу сегодня в Сеул. Если кто-то из вас там, го вместе коворкать 👩🏻‍💻 также если у вас есть какие-либо рекомендации, буду рада, если поделитесь ❤️
28🔥9👍8
🎶Как не словить депрессию, пока делаешь свой SVS (text-to-singing voice synthesis)

Задача синтеза речи хорошо решена на большинстве языков. С пением все иначе — есть пара популярных репозиториев с прошлых интерспичей, но есть нюансы. Чтобы успешно завести свой svs и не разочароваться в мире нейронок и в жизни в целом я сейчас про них расскажу.

😡 SVS в 2023 году — мир китайцев, японцев и немного корейцев. Все дело в том, что нет опенсорсных датасетов на английском языке в студийном качестве, но зато есть отличный датасет opencpop с китайским женским пением, размеченный не только по тексту, но и по нотам. Есть пара API с английском языком, но это уже совсем другая история.
😌 Хорошая новость — SVS хорошо дружат с one-shot SVC моделями (можно нагенерировать данных voice conversion'ом по нескольким минутам оригинального спикера).

😡 Многие модные фреймворки из статей типа NANSY++, NaturalSpeech-2 упоминают SVS, но не является фокусом внимания авторов. Хоть они и на слуху, проблема в том, что у многих из них есть только любительские реализации, некоторые из которых не заводятся, а авторы не поддерживают работу. И если в офигенного lucidrains который пишет понятный работающий код и его работу над NaturalSpeech я верю, то единственная известная мне реализация NANSY++ не работает от слова совсем. К тому же значительная часть документации будет на китайском даже в официальных репозиториях. Как вам такое?
😌 Совет банальный — искать комьюнити вокруг моделей и смотреть на число звезд у репозитория. Например вокруг самого залайканного DiffSinger есть дискорд, где можно с англоговорящими разработчиками пообуждать как лучше разбивать английские слова на слоги и куда ставить SP/AP токены

😡 Просто текста не достаточно. Нужна информация о длительностях фонем и нотах для пения. А, значит, нужно еще 2 модели: для генерации мелодии и для предсказания длительностей фонем и других фичей (например f0, enenrgy)
😌 Самая большая боль здесь — разметка по числу фонем на каждый слог и расстановка спец символов. Но и ее не так сложно автоматизировать, благо задача в интернете популярная. В остальном разметка английского похожа на пайплайн разметки китайского: какой-нибудь алфавитный asr (не whisper, чтобы не разворачивать потом числа/сокращения и учесть все охи/вздохи, можно из nemo взять что-нибудь например) + mfa + оценка октав и нот по частоте. Много деталей, но сам пайп заводится не очень сложно. А вот с мелодией все чуть сложнее... в целом подход "найти хорошие паттерны и выбирать/комбинировать" работает неплохо или обучить легкий seq2seq. Главное, чтобы на выходе был элаймент по длительностям нот и сами ноты, которые уже можно подать на вход предиктору фонем
👍29🔥98👏3
Кто спрашивал про визу — если коротко, продвижений больших нет 🥲
Писали сенатору, сенатор обратилась в консульство, консульство ответило, что мой статус О1 в пересмотре (по какой-то причине они не получили майское уведомление о том, что ходатайство об отзыве статуса не удовлетворено и статус остается). Сейчас пытаемся через сенатора снова достучаться до консульства и узнать, почему они не получили уведомление о сохранении статуса в мае 🌚
#O1
Please open Telegram to view this post
VIEW IN TELEGRAM
😱38😢15🌚6❤‍🔥4
Прошлой осенью по сети бродил любительский проект riffusion, который умел генерировать звуки/мелодии и подражать пению, но именно подражать, без слов. Авторов начали цитировать в своих статьях бигтехи и тем самым привлекли внимание в том числе инвесторов. С тех пор riffusion подняли 4М$ и научили свою сетку не просто внятно говорить, но и здорово петь
это реально 🔥, я такого еще не видела
само собой в этот раз без статей или опенсорса 🥲
попробовать можно в том числе по русскому номеру бесплатно
🔥30👍85🤯2
Помимо работы с войс тех стартапами я развиваю свой собственный проект, а именно разрабатываю приложение, которое будет помогать покупать и выбирать одежду по личным предпочтениям и особенностям внешности пользователя нет, пока что это не онлайн примерка
если хотите мне помочь и вам интересна эта область, то пройдите небольшой опрос на 5-10 минут. Шеринг очень приветствуется 😊
👍206👏4🔥3😱3❤‍🔥2
Помните раньше надо было выбирать котов/собак чтобы убедить сайт что вы не робот? Сегодня я 10 минут потратила на то, чтобы победить капчу на airbnb с крысой и сыром 🤡
с каждым годом мне все сложнее доказать, что я человек...
😁92😱25🔥5👏3🤡3👍2
подборка классных сеток из мира audio processing 😎

1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс

2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может

3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс

4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)

5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо

6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..

7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда

8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио

9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно

10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут

пишите в комментах, что забыла 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥353👍3🤩2👏1
Тем временем у Chat-GPT появилась классная тулза в web ui в альфа-тестировании для поиска. Похоже что-то поумнее, чем моделька, которая была в Bing
🔥28🤯202👍2
Интересную модель для генерации комиксов увидела в этом посте

1. По входному промпту + стилю к каждой картинке генерируется отдельный промпт с описанием происходящего на кадре
2. К каждому кадру из комикса отдельно генерируется картинка. Промпты можно редактировать или повторно генерировать

по тому что заметила, стиль American modern работает лучше всего. Правда, из-за него в аниме появились супергеройские нотки)

Нормальная концовка атаки титанов подъехала🌚
15👍6😁4🔥2🌚2
Вчера был DevDay от openai, где представили несколько новых любопытных обновлений. Главное из них — GPT-4 Turbo! Еще более умная версия 😎

1. Размер контекста GPT-4 Turbo увеличили в 16 раз по сравнению с предыдущим. Для сравнения Сэм сказал, что это примерно 300 книжных страниц
2. В API завозят json mode аутпуты. То есть теперь не нужно будет выцеживать нужную информацию из текстового ответа, можно ее просто явно запросить
3. Знания модели не будут ограничены 2021 годом, сейчас модель знает про мир до апреля 2023го. И разработчики пообещали поддерживать модель актуальной
4. В API теперь можно будет прокидывать картинки (а не только url как было раньше), в GPT-4 turbo будет интеграция с DALLE-3. Кроме того, обещают скоро открыть Whisper v3, в котором будет еще больше языков
5. Откроют gpt-4 для файнтюнинга в экспериментальном режиме. Заверили, что на данных которые юзеры используют для дообучения они не учатся. Анонсировали b2b дообучение моделей под нужды клиента
6. Повысили лимиты токенов в минуту, сделали более приятный прайс. Если нужны еще более высокие лимиты, можно отправлять запросы
🔥21👍63
пробую генерировать с новой связкой dalle-3/gpt-4 иллюстрации для своего fashion tech приложения. Попросила давать мне менее сексуализированные образы (генерировались девушки модельной внешности в откровенных нарядах). Выдалось такое 🤯

А вообще похоже что в следующей версии мы увидим нормальные буквы
😁27🤯9🔥5👍4🤣2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Что случилось за ночь 🎪:

– Судя по слухам, из-за увольнения Сэма сотрудники OpenAI начали увольняться в ощутимом для стартапа количестве – я еще давно читал, что атмосфера в OpenAI скорее похожа на культ, то есть многие там правда ради достижения AGI и любят Сэма как лидера, так что не удивлен.

– По разным источникам, добровольные увольнения членов команды напугало борду, они согласились взять назад Сэма и ушедших, а сама борда будет распущена (и видимо, те кто ее часть – покинет компанию). Это сейчас самый актуальный слух.

– Просто забавно: CEO Microsoft когда узнал про увольнение Альтмана был «в ярости».

– Сотрудники массово лайкают твит Сэма, в котором он признается в любви к OpenAI, что частично подтверждает теорию что его взяли назад и переворот завершился ничем.

Дальше AGI-цирк ушел спать, ждем подтверждения слухов вечером по нашему.

Если все подтвердится, то это, как по мне, еще одно подтверждение теории номер 2 выше и значит, алайнеры проиграли, что вызовет очередную волну паники в медиа в стиле «ученые которые хотели безопасного AI были уволены шок читать с подпиской»
😁22👍7🤡5🤔4🤣2