NEW BOT Телеграм, страница

Пресидский залив

В твиттере заметили, что openai выложили в сайлент режиме whisper v2. Интересно, не хотят смещать фокус внимания с chatGPT или какая мотивация?)
разбор первой версии

- The "large-v2" model is trained for more epochs with regularization and shows improved performance compared to the previous large.
- It has the same architecture as the original large model.
- When load_model("large") is called, the "large-v2" model will be loaded.
- We will soon update the paper regarding this new model.

👍12❤2🔥1

1.62K viewsNadia ズエバ, edited 18:24

Пресидский залив

🦄 Самый часто задаваемый вопрос от незнакомых разработчиков у меня в личке — "посоветуй курс по звуку в dl". У меня с одной стороны есть заготовленное сообщение, и начинается оно примерно так: "есть несколько хороших теоретических курсов и отдельных лекций, но лучше всего Learning by doing".
А что лучше doing если не знаком с популярными архитектурами в спиче и вообще не знаешь, куда копать? И на этот вопрос у меня нет ответа, кроме как общаться с комьюнити, следить за конференциями и каналами, ~~идти работать~~.
Я решила, что хочу, чтобы этот ответ был!
У меня появилась мысль записать на новогодних праздниках несколько видео, где я расскажу про существующие на январь 2023 способы извлечения фичей из звука, архитектуры для распознавания речи и других задач, в которых у меня есть боевой опыт и способы деплоя на сервер/девайс. А также приложу ссылки бейзлайн-код для обучения/портирования, который можно будет забрать и адаптировать

Пока что это идея, я еще ничего не записывала — но я уверена, что если будет много людей, для которых этот курс полезен, мне будет проще замотивировать себя его записать 😎

❗️Этот мини-курс точно будет платным — я считаю, что любой труд должен быть оплачен. Но так как это тестовый запуск, я хочу сделать курс доступным, и сама все повторить/структурировать, то цена будет небольшая за все лекции, в зависимости от того сколько я запишу я ориентируюсь на 3-5к рублей за весь доступ ~~ну и я оставлю вам возможность задонатить мне больше если курс зайдет))~~

‼️ Так что пишите, что думаете и про что вам хотелось бы узнать подробнее в рамках такого курса!

🔥75👍12❤11👎3

1.87K viewsNadia ズエバ, edited 12:57

Пресидский залив

Давненько я не писала про О-1!
Тем временем мнк сторис уже получил свой статус О-1, я же финально собрала портфолио и все что мне осталось до подачи это указать физический офис моей компании — такое требование теперь предъявляется ко всем подающимся.

Хорошая новость, что офисом может быть закрепленный стол в ковокринге в штате, куда подаешься. Еще один важный момент — если компания зарегистрирована в одном штате, то нельзя без дополнительных разрешений работать из другого, поэтому и коворкинг можно арендовать только в штате, в котором зарегистрирована компания.

После того как юристы отправят мою петицию, по ускоренной процедуре мне ответят в течение двух недель, затем мне нужно будет выбрать наименее загруженное посольство и полететь туда на собеседование. Для сравнения в Ереване срок ожидания собеседования по O-1 88 дней, а в Милане всего 8.
Если все сложится — в конце января уже буду в Лос Анджелесе. Если нет — буду искать другие варианты :)
#O1

👏19🔥6😁5🙏5👍1

2.84K viewsNadia ズエバ, edited 08:27

Пресидский залив

Пресидский залив pinned «🦄 Самый часто задаваемый вопрос от незнакомых разработчиков у меня в личке — "посоветуй курс по звуку в dl". У меня с одной стороны есть заготовленное сообщение, и начинается оно примерно так: "есть несколько хороших теоретических курсов и отдельных лекций…»

08:35

Пресидский залив

интересный факт: за поиск МЕСТА В КОВОРКИНГЕ агент в us берет себе комиссию в 100%.......

🤬20😱11👎1

2.04K viewsNadia ズエバ, 19:21

Пресидский залив

что будет, если нафайнтюнить диффузию на спектрограммах? 🧐
кое-что очень любопытное! Это литерали text2music, даже с Гриффином-Лимом очень достойно
собрала на коленке вечерний колабчик, параметры надо подбирать

Please open Telegram to view this post

VIEW IN TELEGRAM

www.producer.ai

Producer.ai | AI Music Agent

Create the music you imagine. Producer.ai is a generative AI instrument for creating, remixing, and sharing studio-quality songs from simple prompts. Swap stems, extend tracks, and personalize your sound effortlessly.

🔥17

2.37K viewsNadia ズエバ, 18:34

Пресидский залив

Встретимся в субботу 24.12 в coffee 3 в 12:00 на Петроградке! Поговорим про стартапы, путешествия, визы, обсудим последние новости, а еще там будут ребята из CoffeeCode :)

❤6🔥3

1.97K viewsNadia ズエバ, edited 10:57

Пресидский залив

Считаю, что лучшее применение chatGPT — это ~~писать поздравления на новый год партнерам~~ генерация данных под ваши требования. Вот вам и промпт-инженеринг покруче unreal engine и super resolution 😎
если вдруг кто-то еще не добрался

🔥22👍5👏1

1.59K viewsNadia ズエバ, edited 19:02

Пресидский залив

😧 Девочка: ищет в инстраграме бывшую своего парня
😎 Женщина: ищет через scholar диссер разработчика Adobe, чтобы узнать архитектуру

🚀 Нашла бесплатную тулзу studio speech enhancement от adobe research и она реально классно работает. Если посмотреть на мелспеки, то видно, что звук стал глубже и фоновых шумов действительно стало меньше.

Модель отрабатывает достаточно долго и точно не годится для рилтайма — значит скорее всего внутри что-то рекуррентное и довольно крупное. Мне стало интересно раскопать, что именно.

Достаточно быстро я нашла на скаляре, что статей со словами studio/adobe/enhancement за 2021+ год не особо много и везде фигурировала Jiaqi Su — PhD из Принстона с этой же темой диссера из adobe research, дальше среди ее недавних работ выделилась и статья с IEEE воркшопа, которая, скорее всего, и является основой технологии

🧩 В чем суть архитектуры?
Внутри wav2wav Hifi-GAN-2. Авторы выделили три критерия "студийности" и их улучшают: зашумленность, реверберация и балансировка эквалайзера. В архитектуре выделяются три компоненты:

1. RNN, которая предсказывает по raw signal (инпут по дефолту 16kHz) MFCC фичи для чистого сигнала
2. WaveNet, который берет на вход raw signal и предсказанные MFCC фичи из первой сетки и предсказывает raw signal в 16kHz
3. Апсемплер в 48 kHz

Данные генерили традиционно — портили хорошие через доступные шумы и скрипты из DAPS/ACE Challenge/etc. В начале статьи авторы вспоминают модели постарше вроде DEMUCS, PoCoNet, обученные на шумах и датасетах из DNS Challenge, где многие данные в 16kHz и что студийки там при всем желании не получится 🙃

Отличие от оригинального Hifi-GANа заключается как раз в первом пункте — сетке, которая считает акустические фичи по шумному инпуту. По мнению авторов, эта модификация значительно улучшает качество звука на выходе.
Большой минус архитектуры — скорость работы, много пространства для оптимизаций ~~господа-студенты, ловите тему для диплома~~
В статье супер много примеров и схем, так что рекомендую ознакомиться 🤓

❤34👍8🔥6🤔1

5.33K viewsNadia ズエバ, 17:23

Пресидский залив

🧩 Читаю сейчас очень любопытную книжку — "автоматическое опознавание говорящего по голосу". Самое интересное, что эта книга была издана в СССР в 1981 году и в ней в основном рассказывается, как максимально низкоуровнево выделить из речи говорящего признаки, какую-нибудь хитрую спектрограмму и по L2 посчитать, один ли человек говорит. А еще со всех сторон обложить статистикой для проверки гипотез) Кстати, идея с L2 также использовалась в работах примерно 5-7 летней давности по скорингу произношения на заранее подготовленных фразах

Ограничений само собой очень много — нет элайнмента и верификацию можно делать только по коротким словам, очень большая погрешность и на 1981 год это скорее что-то фантастическое, о чем авторы и сами говорят в конце. Однако, в этой книге очень много информации про физику и биологию звука — вплоть до того, что на "спектрограммах" авторы пытаются искать такие разладки как "заложенный нос", "картавость", "шепелявость" спикера и так далее. Очень похоже на попытку интерпретировать все, что мы делегируем нейросетям.

Для верификации голоса на "инференсе" его статистики также сравниваются со статистиками, посчитанными на записях проверяемого человека, а эти записи так и называются — экземпляры обучающей выборки 🙃
Интересно, что по мнению авторов такая верификация в будущем должна была бы использоваться в криминалистике, а совсем не для "Hey Siri where is my iphone?"

🔥31👍4👏4

2.36K viewsNadia ズエバ, 13:00

Пресидский залив

Нашла интересный инструмент от Google из далекого 2020 для быстрой отрисовки схем/слайдов/постеров. Вы начинаете рисовать и дальше модель находит наиболее близкий к вашему рисунок. Никакой генерации, только ранжирование заранее нарисованных художниками иконок. Попробовала нарисовать первую схему, которая пришла в голову. Потратила на весь процесс минуты полторы.
Из минусов — не хватает грида, чтобы все было ровно.

Штука бесплатная и работает на любых устройствах. Думаю, что буду использовать в презентациях и для документаций 😎

👍21🔥3❤2👏1

2.36K viewsNadia ズエバ, edited 20:00

Пресидский залив

лучшая картинка в интернете сегодня

😁52❤5👍3🤣2

2.22K viewsNadia ズエバ, 16:54

Пресидский залив

Мне дали О-1!! Эпопея, которая шла с апреля, закончена!
—
На самом деле не закончена, так как впереди еще подача в консульство в Милане. Нормальный пост про о-1 будет завтра, а пока просто делюсь радостью 😎

🔥118🎉15👍7😍7🐳2

1.86K viewsNadia ズエバ, edited 18:22

Пресидский залив

Вчера я получила статус О-1А — это неимиграционная виза, которая позволяет работать и жить в штатах 🥳

Подробнее про начало процесса я рассказывала в этом посте.
Прошлой весной стало понятно, что я больше не смогу работать по русскому ИП и пора переезжать из Питера. Я рассматривала разные варианты стран для переезда и поняла, что мне важно следующее:

🌞 Должно быть много солнца
🎤 Нейтивы говорят на английском как на основном
🖥 Вокруг будет много людей из моей индустрии

Выбор пал на Калифорнию, я созвонилась с юристами и начала собирать портфолио

💼 Портфолио собирается под 8 критериев из которых для одобрения нужно соответствовать трем. В критериях есть упоминаемость вас и ваших продуктов в СМИ, публикации, зарплата и другие. Все это подкрепляется прямыми доказательствами — сертификаты, справки, ссылки и косвенными доказательствами — рекомендательные письма от разных важных людей. Самое сложное было получить различные сертификаты с мероприятий, которые были много лет назад 😅

✍🏻 После сбора портфолио юристы уходят вместе с журналистами примерно на месяц писать рекомендательные письма для ваших рефералов. Желательно, чтобы рефералы были из штатов и из вашей рабочей сферы. Затем вы их подписываете и отправляете юристам

Казалось бы, всего 2 пункта на подготовку кейса — но у меня ушло на это где-то 5 месяцев 🥶

🤌🏻 После того как кейс подготовлен можно заплатить 500$ за долгое рассмотрение или 3000$ за быстрое. По регламенту быстрого рассмотрения ответ должен прийти в течение 2х недель, но мне вообще пришел на 6й день. Сколько идет долгое — 🤷🏻‍♀️ Есть специальный сайт, на котором можно проверять статус петиции

🏃‍♀️ Затем нужно поехать в консульство, выбрать можно любое, но лучше лояльное и не с огромной очередью. Проверять длину очереди кстати можно на этом сайте. Лояльность — посмотреть чаты, спросить ваших юристов. Мне сказали что Италия очень лояльная, а Казахстан (Астана) очень нелояльный. В Милане сейчас очередь 1 день, а в Ереване 88 дней... Если человек уже был в штатах ему могут одобрить без очного интервью, иначе нужно прийти и доказать, что статус был получен честно и по окончании визы человек покинет юса (я сейчас на этом этапе)

🍀 Как только визу вклеили в паспорт, можно ехать.

О-1А привязана к конкретному оферу (если вы не открываете свою компанию) поэтому не получится сначала получить визу, а потом найти работу. Ее можно потом менять, но нужно уведомлять об этом органы власти

🧐 Когда стоит делать визу О-1А?
Если вы синиор и выше, вы выступаете/публикуетесь и у вас есть оффер в американскую компанию/стартап, эта виза скорее всего для вас работает
Посмотрите критерии и оцените свои силы. Вам не нужно быть супер гением, нужно вспомнить все свои достижения и разложить по ~~полочкам~~ критериям. Помимо прочего мне очень помогло, что я ездила на европейские хакатоны и много участвовала в разных мерояприятиях в качестве судьи/ментора. Как разложите — можно тестово созвониться с проверенными юристами, и если они берутся за ваш кейс, то значит шансы хорошие

to be continued...

#O1

❤41🔥15👍10🕊4🎉3

5.18K viewsNadia ズエバ, edited 18:19

Пресидский залив

😎 Трюки в запросах к ChatGPT

Через несколько месяцев после релиза каждый раз в твиттере появляются особо заинтересованные пользователи, которые находят разные лайфхаки, как сделать выход из модели более крутым.
Помните, как для text2image генерации были разные трюки с prompts в духе unreal engine, 3d, superresolution и так далее? Есть даже сайт с промптами для генерации картинок. В этом посте собраны трюки разной степени очевидности, с помощью которых можно заставить ChatGPT вести себя так, как вам хочется.

🎈Grammarly нового поколения 🤩
improve the following message "...".
Вставляете например ваше сообщение бизнес партнерам, которое собирались отправить. Отлично работает на английском языке, на русском выглядит немного коряво и повторяет шаблоны из английского. Например "as the reminder" дословно будет "в качестве напоминания" что по-русски звучит немного криво на мой взгляд

🎈Переводчик юридических документов.
translate into law English "...".
Перевод с русского работает хорошо, и термины подставляются вполне точно

🎈Генерация данных для обучения — chatGPT хорошо понимает запросы к формату. Например "сгенерируй мне телефонный диалог где пытаются продать новый тип сока в формате А: B:"

Так я использовала chatGPT для своих целей, но потом нашла очень любопытный репозиторий с промптами — там содержатся рецепты как сделать так, чтобы модель выполняла роль кого вам захочется.

Например, мне очень понравилось, как модель объясняет что такое "вероятность" в роли "учителя математики". Много примеров, но везде выделяется общий шаблон задания контекста:

I want you to act as a ___. I will provide some ___ , and it will be your job to ___. This could include providing ___, ___. My first request is "___"

И дальше уже можно просто писать запросы, контекст сохранится 🤌🏻

🔥30👍6🕊1

1.86K viewsNadia ズエバ, edited 19:21

Пресидский залив

эх, жаль уже не прикрепить к предыдущему посту!
Вышеупомянутый репозиторий уже настолько разлетелся оказывается, что автор фандрейзит на книгу 😂

😁18🤣2

1.55K viewsNadia ズエバ, edited 19:32

Пресидский залив

Посмотрите, как Boston Dynamics флексят своих Атласом — антропоморфным роботом, который помогает на стройке носить предметы разной степени тяжести и еще по ходу дела паркурит 🏄🏼
В 10-минутном видео по верхам рассказываются ключевые моменты. Парочка спойлеров:

⚙️ При помощи камер (в том числе на depth estimation) и других датчиков, робот оценивает объем необходимых усилий, чтобы поднять предметы разной тяжести — у нас это автоматически делает организм и если попытаться подойти к тяжелой штанге "не подготовленным", то поднять ее очевидно не получится 🙃

⚙️ Показывают, как сперва весь процесс моделируется на компьютере. В частности, как разрабатываются все эти немыслимые флипы в конце видео

⚙️ Кроме того, очень важно не только суметь поднять, но и не сломать то, что уже взял. Я вспомнила относительную свежую статью меты по этой теме, где робота учили брать куриные яйца таким образом, чтобы они не треснули

⚙️ Применение робота — в опасных зонах, например в местах стихийных бедствий или на сложных строительных объектах 🦺

Ну а если лень смотреть полностью, то можно просто кайфануть с короткого видео, которое уже разбежалось по каналам

YouTube

Inside the Lab: Taking Atlas From Sim to Scaffold

How does Atlas recognize and interact with objects? How do we develop new Atlas behaviors? Why is manipulation important for the future of robotics?

Join our team in the Atlas lab to discover the answers to these questions and more. Learn more about how…

👍8🔥3🌚1

1.77K viewsNadia ズエバ, edited 18:14

Пресидский залив

Зачем париться с О-1, диплернингом и стартапами, если можно просто поехать кушать в Дубай и получать за это деньги 🤡

🤡43😁16👍3🔥3🌭2🤔1

1.86K viewsNadia ズエバ, 09:22

About

Blog

Apps

Platform