NEW BOT Телеграм, страница

Пресидский залив

Какие аудиоформаты теряют данные?

Anonymous Poll

49%

🌚4👍1

313 voters1.5K viewsNadia ズエバ, 18:24

Пресидский залив

🎶 Битрейт, семпл рейт, глубина звука и потери

Давно была мысль написать про аудиоформаты и кодеки, потому что при сборе данных это отдельная боль. Микрофоны плохого качества, телефония и даже просто формат очень важны для нормального обучения модели.

⚙️ Кодеки — это функции, которые сжимают данные для передачи и распаковывают их по прибытии. Скорость их работы измеряется в килобитах, обрабатываемых в секунду, известная как битрейт (кбит/с). Причем это число варьируется даже в пределах одного формата. Как правило, более низкий битрейт означает меньший размер файла, но это также означает, что при сжатии теряется больше данных.

Другими важными характеристиками являются частота дискретизации (sampling rate) и битовая глубина (bit depth). Частота дискретизации — это количество отсчетов амплитуды сигнала в секунду (популярные значения — 16 kHz, 22.05 kHz, 44,1 kHz, 48 kHz). Битовая глубина относится к количеству битов на сэмпл — чем выше это число, тем насыщеннее звук (обычно 12, 16, 32).

😕 Аудиоформаты с потерями (MP3, VORBIS)
Теряют данные при передаче — не распаковываются до изначального размера файла, поэтому в конечном итоге они становятся меньше, а некоторые звуковые волны теряются. Для сбора данных под обучение, музыки или кино предпочтительно не использовать форматы с потерями, потому что файлы ухудшаются при каждом экспорте.
Но для саунд-эффекта в каком-нибудь мобильном приложении или аудиосообщения этого более чем достаточно.

🤷‍♀️ Аудиоформаты без потерь (FLAC)
Эти файлы после трансмиссии распаковываются до исходного размера, сохраняют качество звука и не теряют волны. Эти файлы могут быть в несколько раз больше, чем MP3/VORBIS. Битрейт в этом случае зависит от громкости и плотности дорожки, а не от качества звука.

😎 Аудиоформаты без сжатия (PCM)
Размер таких файлов одинаков на входе и выходе. WAV это литерали WAVeform audio file, самый жирный и качественный. В отличие например от .MP3 он не особенно ограничен битрейтом или глубиной и может иметь частоту дискретизации даже 192 kHz.

Кстати, прошлой осенью у меты вышла статья про сжатие аудио. Говорят, сжимают в 10 раз сильнее чем mp3 и декодируют через нейронку почти без потерь 🌚

орнула, как FAIR (Facebook AI Research) переименовались в Fundamental AI Research 😂
#forcourse

👍16❤6🔥5🌚2

1.87K viewsNadia ズエバ, edited 18:49

Пресидский залив

жду, когда про Google vs openai/Microsoft снимут сериал на нетфликсе 🍿

😁16👍5🔥2🌚2❤‍🔥1

1.85K viewsNadia ズエバ, edited 22:13

Пресидский залив

Друзья, если вы видите рекламу в моем канале и думаете, что строительная компания «Самолет» мне платит, то это не так. Я не то что рекламу не включала, я не могу ее отключить так как с 1к подписчиков она включается автоматом…. 🤪

😁29👌9👏4🤡4👍1

1.79K viewsNadia ズエバ, 14:28

Пресидский залив

Записалась в wait list Bing/Chat GPT. Make Microsoft great again?

😁14🔥3🐳2👍1

1.76K viewsNadia ズエバ, edited 12:59

Пресидский залив

🌚 Ян ЛеКун тоже высказался по поводу развития больших языковых моделей

1. О LLM (large language models) стоит думать только как об инструменте/помощнике в написании текстов/кода/etc
2. На то, что говорит LLM не стоит слепо полагаться — это лишь подражание тому, что модель уже видела. Часто информация будет правдивой, но далеко не всегда
3. Знания модели поверхностны, мне понравилась метафора Яна про то, что "вселенная" этих моделей ограничена, дискретна и полностью наблюдаема, чего не скажешь о нашей реальности. Именно поэтому модель лучше справляется с code-related заданиями

🔥16👍4❤2

1.59K viewsNadia ズエバ, 18:43

Пресидский залив

Интересно, что буквально вчера был разговор с одним из наших инвесторов про LLM и он сказал что его 11-ти летняя дочь может начать генерировать эссе для школы через chat-gpt и его это беспокоит.
Мне кажется как раз здесь есть хороший вывод (даже два):
1. его дочь непременно набьет шишки когда столкнется с неправдоподобно сгенерированной информацией и станет (или не станет) перепроверять то, что ей сгенерировали
2. система образования должна заставлять учеников больше думать и анализировать то, что они пишут

Прикрепляю к посту мою любимую картинку и жду кучу философских дипломов про LLM в ближайшие годы

👍21❤4🔥1😁1

1.49K viewsNadia ズエバ, edited 18:46

Пресидский залив

Forwarded from мнк сторис

С опозданием возвращаюсь с историей про визу.

Интервью проходило в Белграде, я пришел последний к времени записи и ждал своей очереди около 2 часов. В окошке оказался приветливый мужчина, который спросил, как у меня дела и чем я занимаюсь. Что-то долго печатал, а потом протянул заветную бумажку. Виза на 2 года, затем можно продлить еще на год.

К сожалению, все не смогло оказаться настолько гладко, и Наде дали административный процессинг (грубо говоря, доп. проверку бекграунда). Сейчас поехали отдыхать и работать в Черногорию, ловите кадр с побережья 💻

P.S. Спасибо всем за реакции и поддержку, вы самые лучшие 😍

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥8🙏4

1.48K viewsNadia ズエバ, 11:45

Пресидский залив

Сегодня работаю вот так 🌴

❤26🔥17🌚4👍3😁3👏1

1.82K viewsNadia ズエバ, 11:45

Пресидский залив

Channel photo updated

12:10

Пресидский залив

🥱 чем занимаетесь пока учится моделька/скачиваются данные/собирается проект/etc? Опрос анонимный 😂

Anonymous Poll

17%

📚 Читаю related статьи

42%

🚗 Всегда есть параллельные задачи, которыми можно заняться

💼 Общаюсь с бизнес-партнерами

51%

☕️ Чиллю/пью кофе/ играю в приставку

27%

👻 Посмотреть ответы

😁6😱2👍1

414 voters1.9K viewsNadia ズエバ, 17:40

Пресидский залив

Прощупываю границы нейроюмора.
Если мне смешно в голос с последних двух абзацев, пора брать отпуск?

😁21🥴18👍3👏1

1.87K viewsNadia ズエバ, 15:58

Пресидский залив

новый вид газлайтинга от chatGPT: создавать ссылки на несуществующие гуглдоки и говорить что ответ там

😁36🌚3👏1

2.14K viewsNadia ズエバ, edited 16:57

Пресидский залив

уровни боли:
больно, очень больно, проснулась в 6:45 ради звонка с партнерами, а они не пришли....

😢44🤬12😁2🤣2🥰1

1.54K viewsNadia ズエバ, 08:59

Пресидский залив

🤔 сделать ASMR из записи на старый диктофон?

Гораздо приятнее потреблять контент, в котором мало robotic speech, шумов и других искажений. Однако очень много контента (старого или дешевого) уже записано и хочется продолжить его использовать.
Есть еще бьютификация голоса для блоггерского контента с нестудийных устройств.

Бьютификацию (или восстановление) можно декомпозировать на подзадачи:
⚙️ super resolution
⚙️ denoising, dereverberation
⚙️ clipping distortions

Чаще всего архитектуры решают какую-то одну задачу, но встречаются и пайплайны для multitask speech restoration. Одна из них — VoiceFixer.

VoiceFixer — предыдущая работа от создателей AudioLDM по ресторации речи. Судя по демо и колабу хорошо восстанавливаются высокие частоты по сравнению с другими решениями (см мелспеки).

Уже существуют работы, где решаются сразу несколько задач, но они страдают от переобучения на конкретные искажения. Поэтому в статье предлагается 2-stage архитектура: in_speech -> interm repr (IR); IR -> out_speech.

💡 Stage 1:
На вход приходит шумная спектрограмма, на выходе в качестве IR выступает улучшенная спектрограмма.
Сделать из шумной мел-спеки чистую при помощи ResUNet (уменьшенный UNet с residual блоками) — первый шаг пайплайна. Причем in_speech — искуственно испорченный сигнал, то есть на этом этапе есть таргетные данные — мелспеки не испорченных записей

💡Stage 2:
На вход приходит улучшенная спектрограмма, но выходе — waveform. Авторы используют TFGAN (более точный MelGAN). Думаю, пишись эта статья не полтора года назад а сейчас, там бы был Hifi 🙃

Что еще мне нравится в этой статье — во второй секции подробно расписаны все искажения и их математизация, а также большое число аналогий с тем, как человек воспринимает речь с искажениями.

Значительная проблема любого рисерча про звук, что везде используются одни и те же "статейные" датасеты — Libri, ARCTIC, VCTK, etc. И сделать с этим особо ничего не получится — на реальных задачах нужны свои собственные голденсеты. Но про это уже в другом посте.. 🙂

👍15❤3🔥1👏1🤔1

1.62K viewsNadia ズエバ, edited 12:05

Пресидский залив

тем временем я уже две недели думаю над новым названием канала и решила подключить помощь chatGPT...

Neural Venture Chick звучит очень неплохо 😄

😁29❤3👍3👎3🔥3

1.56K viewsNadia ズエバ, edited 13:14

Пресидский залив

✨ Notion добавил AI-интерфейс (без вейтлиста)
Вчера прислала подписчица, а уже сегодня меня встретил AI-онбординг в рабочем спейсе. Думаю буду использовать для генерации заголовков или перефраза.

👍15❤3🙏2🔥1

1.63K viewsNadia ズエバ, 18:30

Пресидский залив

Тем временем уже прошло 3 недели с тех пор, как меня отправили на доп проверку по налогам и доходам в белградском консульстве США. Как они сами пишут, "Unfortunately, there is no way to expedite the process, nor is there any way to predict when the process will conclude." По словам экспертов из чатов и моих юристов, если не ответили в первые 2 недели — ETA 3-4 месяца (кейс ушел в Вашингтон), но ЧИСТО ТЕОРЕТИЧЕСКИ ответить могут как завтра, так и через полгода. АОАООАОАОАААА
Так что сейчас мой горизонт планирования составляет примерно две недели: завтра я лечу из Черногории в Белград, потом в марте в Ереван. Дальше думала про Париж, но что-то в соло платить 200$ в сутки за жилье среднего качества не хочется 🤪

Что в итоге мы имеем:
1. у меня есть шенген до осени
2. у меня есть корейское разрешение на въезд
3. я рассматриваю безвизовые страны

🤗 Поэтому запрос к вам, дорогие подписчики: можете ли вы посоветовать мне какой-нибудь классный город, где можно не супер дорого потусить пару месяцев и настроить свой быт?

#O1

👍12😢6🤔1

1.71K viewsNadia ズエバ, edited 10:21

Пресидский залив

🧐

Anonymous Poll

46%

Просто тык

🤡5🌚2🌭2👍1

280 voters1.71K viewsNadia ズエバ, 11:44

Пресидский залив

Я не понимаю, почему AWS настолько удобнее и стабильнее чем гугловый клауд…

😁8👍4

1.74K viewsNadia ズエバ, 11:45

Пресидский залив

какой-то экшен произошел в моем кейсе сегодня, хоть статус и не поменялся (refused = идет процессинг). В чатах кто-то пишет "жди ответ на днях", а кто-то что это вообще ничего не значит 😅

to be continued...
#O1

😱16🌚4👍1

1.72K viewsNadia ズエバ, edited 16:03

About

Blog

Apps

Platform