Пресидский залив – Telegram
Пресидский залив
6.3K subscribers
449 photos
53 videos
4 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
В твиттере заметили, что openai выложили в сайлент режиме whisper v2. Интересно, не хотят смещать фокус внимания с chatGPT или какая мотивация?)
разбор первой версии

- The "large-v2" model is trained for more epochs with regularization and shows improved performance compared to the previous large.
- It has the same architecture as the original large model.
- When load_model("large") is called, the "large-v2" model will be loaded.
- We will soon update the paper regarding this new model.
👍122🔥1
🦄 Самый часто задаваемый вопрос от незнакомых разработчиков у меня в личке — "посоветуй курс по звуку в dl". У меня с одной стороны есть заготовленное сообщение, и начинается оно примерно так: "есть несколько хороших теоретических курсов и отдельных лекций, но лучше всего Learning by doing".
А что лучше doing если не знаком с популярными архитектурами в спиче и вообще не знаешь, куда копать? И на этот вопрос у меня нет ответа, кроме как общаться с комьюнити, следить за конференциями и каналами, идти работать.
Я решила, что хочу, чтобы этот ответ был!
У меня появилась мысль записать на новогодних праздниках несколько видео, где я расскажу про существующие на январь 2023 способы извлечения фичей из звука, архитектуры для распознавания речи и других задач, в которых у меня есть боевой опыт и способы деплоя на сервер/девайс. А также приложу ссылки бейзлайн-код для обучения/портирования, который можно будет забрать и адаптировать

Пока что это идея, я еще ничего не записывала — но я уверена, что если будет много людей, для которых этот курс полезен, мне будет проще замотивировать себя его записать 😎

❗️Этот мини-курс точно будет платным — я считаю, что любой труд должен быть оплачен. Но так как это тестовый запуск, я хочу сделать курс доступным, и сама все повторить/структурировать, то цена будет небольшая за все лекции, в зависимости от того сколько я запишу я ориентируюсь на 3-5к рублей за весь доступ ну и я оставлю вам возможность задонатить мне больше если курс зайдет))

‼️ Так что пишите, что думаете и про что вам хотелось бы узнать подробнее в рамках такого курса!
🔥75👍1211👎3
Давненько я не писала про О-1!
Тем временем мнк сторис уже получил свой статус О-1, я же финально собрала портфолио и все что мне осталось до подачи это указать физический офис моей компании — такое требование теперь предъявляется ко всем подающимся.

Хорошая новость, что офисом может быть закрепленный стол в ковокринге в штате, куда подаешься. Еще один важный момент — если компания зарегистрирована в одном штате, то нельзя без дополнительных разрешений работать из другого, поэтому и коворкинг можно арендовать только в штате, в котором зарегистрирована компания.

После того как юристы отправят мою петицию, по ускоренной процедуре мне ответят в течение двух недель, затем мне нужно будет выбрать наименее загруженное посольство и полететь туда на собеседование. Для сравнения в Ереване срок ожидания собеседования по O-1 88 дней, а в Милане всего 8.
Если все сложится — в конце января уже буду в Лос Анджелесе. Если нет — буду искать другие варианты :)
#O1
👏19🔥6😁5🙏5👍1
Пресидский залив pinned «🦄 Самый часто задаваемый вопрос от незнакомых разработчиков у меня в личке — "посоветуй курс по звуку в dl". У меня с одной стороны есть заготовленное сообщение, и начинается оно примерно так: "есть несколько хороших теоретических курсов и отдельных лекций…»
интересный факт: за поиск МЕСТА В КОВОРКИНГЕ агент в us берет себе комиссию в 100%.......
🤬20😱11👎1
что будет, если нафайнтюнить диффузию на спектрограммах? 🧐
кое-что очень любопытное! Это литерали text2music, даже с Гриффином-Лимом очень достойно
собрала на коленке вечерний колабчик, параметры надо подбирать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17
Встретимся в субботу 24.12 в coffee 3 в 12:00 на Петроградке! Поговорим про стартапы, путешествия, визы, обсудим последние новости, а еще там будут ребята из CoffeeCode :)
6🔥3
Считаю, что лучшее применение chatGPT — это писать поздравления на новый год партнерам генерация данных под ваши требования. Вот вам и промпт-инженеринг покруче unreal engine и super resolution 😎
если вдруг кто-то еще не добрался
🔥22👍5👏1
😧 Девочка: ищет в инстраграме бывшую своего парня
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру

🚀 Нашла бесплатную
тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.

Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.

Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии

🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:

1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz

Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃

Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизаций господа-студенты, ловите тему для диплома
В статье супер много примеров и схем, так что рекомендую ознакомиться 🤓
34👍8🔥6🤔1
🧩 Читаю сейчас очень любопытную книжку — "автоматическое опознавание говорящего по голосу". Самое интересное, что эта книга была издана в СССР в 1981 году и в ней в основном рассказывается, как максимально низкоуровнево выделить из речи говорящего признаки, какую-нибудь хитрую спектрограмму и по L2 посчитать, один ли человек говорит. А еще со всех сторон обложить статистикой для проверки гипотез) Кстати, идея с L2 также использовалась в работах примерно 5-7 летней давности по скорингу произношения на заранее подготовленных фразах

Ограничений само собой очень много — нет элайнмента и верификацию можно делать только по коротким словам, очень большая погрешность и на 1981 год это скорее что-то фантастическое, о чем авторы и сами говорят в конце. Однако, в этой книге очень много информации про физику и биологию звука — вплоть до того, что на "спектрограммах" авторы пытаются искать такие разладки как "заложенный нос", "картавость", "шепелявость" спикера и так далее. Очень похоже на попытку интерпретировать все, что мы делегируем нейросетям.

Для верификации голоса на "инференсе" его статистики также сравниваются со статистиками, посчитанными на записях проверяемого человека, а эти записи так и называются — экземпляры обучающей выборки 🙃
Интересно, что по мнению авторов такая верификация в будущем должна была бы использоваться в криминалистике, а совсем не для "Hey Siri where is my iphone?"
🔥31👍4👏4
Нашла интересный инструмент от Google из далекого 2020 для быстрой отрисовки схем/слайдов/постеров. Вы начинаете рисовать и дальше модель находит наиболее близкий к вашему рисунок. Никакой генерации, только ранжирование заранее нарисованных художниками иконок. Попробовала нарисовать первую схему, которая пришла в голову. Потратила на весь процесс минуты полторы.
Из минусов — не хватает грида, чтобы все было ровно.

Штука бесплатная и работает на любых устройствах. Думаю, что буду использовать в презентациях и для документаций 😎
👍21🔥32👏1
лучшая картинка в интернете сегодня
😁525👍3🤣2
Мне дали О-1!! Эпопея, которая шла с апреля, закончена!

На самом деле не закончена, так как впереди еще подача в консульство в Милане. Нормальный пост про о-1 будет завтра, а пока просто делюсь радостью 😎
🔥118🎉15👍7😍7🐳2
Вчера я получила статус О-1А — это неимиграционная виза, которая позволяет работать и жить в штатах 🥳

Подробнее про начало процесса я рассказывала в этом посте.
Прошлой весной стало понятно, что я больше не смогу работать по русскому ИП и пора переезжать из Питера. Я рассматривала разные варианты стран для переезда и поняла, что мне важно следующее:

🌞 Должно быть много солнца
🎤 Нейтивы говорят на английском как на основном
🖥 Вокруг будет много людей из моей индустрии

Выбор пал на Калифорнию, я созвонилась с юристами и начала собирать портфолио

💼 Портфолио собирается под 8 критериев из которых для одобрения нужно соответствовать трем. В критериях есть упоминаемость вас и ваших продуктов в СМИ, публикации, зарплата и другие. Все это подкрепляется прямыми доказательствами — сертификаты, справки, ссылки и косвенными доказательствами — рекомендательные письма от разных важных людей. Самое сложное было получить различные сертификаты с мероприятий, которые были много лет назад 😅

✍🏻 После сбора портфолио юристы уходят вместе с журналистами примерно на месяц писать рекомендательные письма для ваших рефералов. Желательно, чтобы рефералы были из штатов и из вашей рабочей сферы. Затем вы их подписываете и отправляете юристам

Казалось бы, всего 2 пункта на подготовку кейса — но у меня ушло на это где-то 5 месяцев 🥶

🤌🏻 После того как кейс подготовлен можно заплатить 500$ за долгое рассмотрение или 3000$ за быстрое. По регламенту быстрого рассмотрения ответ должен прийти в течение 2х недель, но мне вообще пришел на 6й день. Сколько идет долгое — 🤷🏻‍♀️ Есть специальный сайт, на котором можно проверять статус петиции

🏃‍♀️ Затем нужно поехать в консульство, выбрать можно любое, но лучше лояльное и не с огромной очередью. Проверять длину очереди кстати можно на этом сайте. Лояльность — посмотреть чаты, спросить ваших юристов. Мне сказали что Италия очень лояльная, а Казахстан (Астана) очень нелояльный. В Милане сейчас очередь 1 день, а в Ереване 88 дней... Если человек уже был в штатах ему могут одобрить без очного интервью, иначе нужно прийти и доказать, что статус был получен честно и по окончании визы человек покинет юса (я сейчас на этом этапе)

🍀 Как только визу вклеили в паспорт, можно ехать.

О-1А привязана к конкретному оферу (если вы не открываете свою компанию) поэтому не получится сначала получить визу, а потом найти работу. Ее можно потом менять, но нужно уведомлять об этом органы власти

🧐 Когда стоит делать визу О-1А?
Если вы синиор и выше, вы выступаете/публикуетесь и у вас есть оффер в американскую компанию/стартап, эта виза скорее всего для вас работает
Посмотрите критерии и оцените свои силы. Вам не нужно быть супер гением, нужно вспомнить все свои достижения и разложить по полочкам критериям. Помимо прочего мне очень помогло, что я ездила на европейские хакатоны и много участвовала в разных мерояприятиях в качестве судьи/ментора. Как разложите — можно тестово созвониться с проверенными юристами, и если они берутся за ваш кейс, то значит шансы хорошие

to be continued...

#O1
41🔥15👍10🕊4🎉3
😎 Трюки в запросах к ChatGPT

Через несколько месяцев после релиза каждый раз в твиттере появляются особо заинтересованные пользователи, которые находят разные лайфхаки, как сделать выход из модели более крутым.
Помните, как для text2image генерации были разные трюки с prompts в духе unreal engine, 3d, superresolution и так далее? Есть даже сайт с промптами для генерации картинок. В этом посте собраны трюки разной степени очевидности, с помощью которых можно заставить ChatGPT вести себя так, как вам хочется.

🎈Grammarly нового поколения 🤩
improve the following message "...".
Вставляете например ваше сообщение бизнес партнерам, которое собирались отправить. Отлично работает на английском языке, на русском выглядит немного коряво и повторяет шаблоны из английского. Например "as the reminder" дословно будет "в качестве напоминания" что по-русски звучит немного криво на мой взгляд

🎈Переводчик юридических документов.
translate into law English "...".
Перевод с русского работает хорошо, и термины подставляются вполне точно

🎈Генерация данных для обучения — chatGPT хорошо понимает запросы к формату. Например "сгенерируй мне телефонный диалог где пытаются продать новый тип сока в формате А: B:"

Так я использовала chatGPT для своих целей, но потом нашла очень любопытный репозиторий с промптами — там содержатся рецепты как сделать так, чтобы модель выполняла роль кого вам захочется.

Например, мне очень понравилось, как модель объясняет что такое "вероятность" в роли "учителя математики". Много примеров, но везде выделяется общий шаблон задания контекста:

I want you to act as a ___. I will provide some ___ , and it will be your job to ___. This could include providing ___, ___. My first request is "___"

И дальше уже можно просто писать запросы, контекст сохранится 🤌🏻
🔥30👍6🕊1
эх, жаль уже не прикрепить к предыдущему посту!
Вышеупомянутый репозиторий уже настолько разлетелся оказывается, что автор фандрейзит на книгу 😂
😁18🤣2
Посмотрите, как Boston Dynamics флексят своих Атласом — антропоморфным роботом, который помогает на стройке носить предметы разной степени тяжести и еще по ходу дела паркурит 🏄🏼
В 10-минутном видео по верхам рассказываются ключевые моменты. Парочка спойлеров:

⚙️ При помощи камер (в том числе на depth estimation) и других датчиков, робот оценивает объем необходимых усилий, чтобы поднять предметы разной тяжести — у нас это автоматически делает организм и если попытаться подойти к тяжелой штанге "не подготовленным", то поднять ее очевидно не получится 🙃

⚙️ Показывают, как сперва весь процесс моделируется на компьютере. В частности, как разрабатываются все эти немыслимые флипы в конце видео

⚙️ Кроме того, очень важно не только суметь поднять, но и не сломать то, что уже взял. Я вспомнила относительную свежую статью меты по этой теме, где робота учили брать куриные яйца таким образом, чтобы они не треснули

⚙️ Применение робота — в опасных зонах, например в местах стихийных бедствий или на сложных строительных объектах 🦺

Ну а если лень смотреть полностью, то можно просто кайфануть с короткого видео, которое уже разбежалось по каналам
👍8🔥3🌚1
Зачем париться с О-1, диплернингом и стартапами, если можно просто поехать кушать в Дубай и получать за это деньги 🤡
🤡43😁16👍3🔥3🌭2🤔1