Пресидский залив – Telegram
Пресидский залив
6.29K subscribers
449 photos
53 videos
3 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
Какие аудиоформаты теряют данные?
Anonymous Poll
49%
.ogg
87%
.mp3
21%
.wav
13%
.flac
58%
.m4a
🌚4👍1
🎶 Битрейт, семпл рейт, глубина звука и потери

Давно была мысль написать про аудиоформаты и кодеки, потому что при сборе данных это отдельная боль. Микрофоны плохого качества, телефония и даже просто формат очень важны для нормального обучения модели.

⚙️ Кодеки — это функции, которые сжимают данные для передачи и распаковывают их по прибытии. Скорость их работы измеряется в килобитах, обрабатываемых в секунду, известная как битрейт (кбит/с). Причем это число варьируется даже в пределах одного формата. Как правило, более низкий битрейт означает меньший размер файла, но это также означает, что при сжатии теряется больше данных.

Другими важными характеристиками являются частота дискретизации (sampling rate) и битовая глубина (bit depth). Частота дискретизации — это количество отсчетов амплитуды сигнала в секунду (популярные значения — 16 kHz, 22.05 kHz, 44,1 kHz, 48 kHz). Битовая глубина относится к количеству битов на сэмпл — чем выше это число, тем насыщеннее звук (обычно 12, 16, 32).

😕 Аудиоформаты с потерями (MP3, VORBIS)
Теряют данные при передаче — не распаковываются до изначального размера файла, поэтому в конечном итоге они становятся меньше, а некоторые звуковые волны теряются. Для сбора данных под обучение, музыки или кино предпочтительно не использовать форматы с потерями, потому что файлы ухудшаются при каждом экспорте.
Но для саунд-эффекта в каком-нибудь мобильном приложении или аудиосообщения этого более чем достаточно.

🤷‍♀️ Аудиоформаты без потерь (FLAC)
Эти файлы после трансмиссии распаковываются до исходного размера, сохраняют качество звука и не теряют волны. Эти файлы могут быть в несколько раз больше, чем MP3/VORBIS. Битрейт в этом случае зависит от громкости и плотности дорожки, а не от качества звука.

😎 Аудиоформаты без сжатия (PCM)
Размер таких файлов одинаков на входе и выходе. WAV это литерали WAVeform audio file, самый жирный и качественный. В отличие например от .MP3 он не особенно ограничен битрейтом или глубиной и может иметь частоту дискретизации даже 192 kHz.

Кстати, прошлой осенью у меты вышла статья про сжатие аудио. Говорят, сжимают в 10 раз сильнее чем mp3 и декодируют через нейронку почти без потерь 🌚

орнула, как FAIR (Facebook AI Research) переименовались в Fundamental AI Research 😂
#forcourse
👍166🔥5🌚2
жду, когда про Google vs openai/Microsoft снимут сериал на нетфликсе 🍿
😁16👍5🔥2🌚2❤‍🔥1
Друзья, если вы видите рекламу в моем канале и думаете, что строительная компания «Самолет» мне платит, то это не так. Я не то что рекламу не включала, я не могу ее отключить так как с 1к подписчиков она включается автоматом…. 🤪
😁29👌9👏4🤡4👍1
Записалась в wait list Bing/Chat GPT. Make Microsoft great again?
😁14🔥3🐳2👍1
🌚 Ян ЛеКун тоже высказался по поводу развития больших языковых моделей

1. О LLM (large language models) стоит думать только как об инструменте/помощнике в написании текстов/кода/etc
2. На то, что говорит LLM не стоит слепо полагаться — это лишь подражание тому, что модель уже видела. Часто информация будет правдивой, но далеко не всегда
3. Знания модели поверхностны, мне понравилась метафора Яна про то, что "вселенная" этих моделей ограничена, дискретна и полностью наблюдаема, чего не скажешь о нашей реальности. Именно поэтому модель лучше справляется с code-related заданиями
🔥16👍42
Интересно, что буквально вчера был разговор с одним из наших инвесторов про LLM и он сказал что его 11-ти летняя дочь может начать генерировать эссе для школы через chat-gpt и его это беспокоит.
Мне кажется как раз здесь есть хороший вывод (даже два):
1. его дочь непременно набьет шишки когда столкнется с неправдоподобно сгенерированной информацией и станет (или не станет) перепроверять то, что ей сгенерировали
2. система образования должна заставлять учеников больше думать и анализировать то, что они пишут

Прикрепляю к посту мою любимую картинку и жду кучу философских дипломов про LLM в ближайшие годы
👍214🔥1😁1
Forwarded from мнк сторис
С опозданием возвращаюсь с историей про визу.

Интервью проходило в Белграде, я пришел последний к времени записи и ждал своей очереди около 2 часов. В окошке оказался приветливый мужчина, который спросил, как у меня дела и чем я занимаюсь. Что-то долго печатал, а потом протянул заветную бумажку. Виза на 2 года, затем можно продлить еще на год.

К сожалению, все не смогло оказаться настолько гладко, и Наде дали административный процессинг (грубо говоря, доп. проверку бекграунда). Сейчас поехали отдыхать и работать в Черногорию, ловите кадр с побережья 💻

P.S. Спасибо всем за реакции и поддержку, вы самые лучшие 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥8🙏4
Сегодня работаю вот так 🌴
26🔥17🌚4👍3😁3👏1
Channel photo updated
😁6😱2👍1
Прощупываю границы нейроюмора.
Если мне смешно в голос с последних двух абзацев, пора брать отпуск?
😁21🥴18👍3👏1
новый вид газлайтинга от chatGPT: создавать ссылки на несуществующие гуглдоки и говорить что ответ там
😁36🌚3👏1
уровни боли:
больно, очень больно, проснулась в 6:45 ради звонка с партнерами, а они не пришли....
😢44🤬12😁2🤣2🥰1
🤔 сделать ASMR из записи на старый диктофон?

Гораздо приятнее потреблять контент, в котором мало robotic speech, шумов и других искажений. Однако очень много контента (старого или дешевого) уже записано и хочется продолжить его использовать.
Есть еще бьютификация голоса для блоггерского контента с нестудийных устройств.

Бьютификацию (или восстановление) можно декомпозировать на подзадачи:
⚙️ super resolution
⚙️ denoising, dereverberation
⚙️ clipping distortions

Чаще всего архитектуры решают какую-то одну задачу, но встречаются и пайплайны для multitask speech restoration. Одна из них — VoiceFixer.

VoiceFixer — предыдущая работа от создателей AudioLDM по ресторации речи. Судя по демо и колабу хорошо восстанавливаются высокие частоты по сравнению с другими решениями (см мелспеки).

Уже существуют работы, где решаются сразу несколько задач, но они страдают от переобучения на конкретные искажения. Поэтому в статье предлагается 2-stage архитектура: in_speech -> interm repr (IR); IR -> out_speech.

💡 Stage 1:
На вход приходит шумная спектрограмма, на выходе в качестве IR выступает улучшенная спектрограмма.
Сделать из шумной мел-спеки чистую при помощи ResUNet (уменьшенный UNet с residual блоками) — первый шаг пайплайна. Причем in_speech — искуственно испорченный сигнал, то есть на этом этапе есть таргетные данные — мелспеки не испорченных записей

💡Stage 2:
На вход приходит улучшенная спектрограмма, но выходе — waveform. Авторы используют TFGAN (более точный MelGAN). Думаю, пишись эта статья не полтора года назад а сейчас, там бы был Hifi 🙃

Что еще мне нравится в этой статье — во второй секции подробно расписаны все искажения и их математизация, а также большое число аналогий с тем, как человек воспринимает речь с искажениями.

Значительная проблема любого рисерча про звук, что везде используются одни и те же "статейные" датасеты — Libri, ARCTIC, VCTK, etc. И сделать с этим особо ничего не получится — на реальных задачах нужны свои собственные голденсеты. Но про это уже в другом посте.. 🙂
👍153🔥1👏1🤔1
тем временем я уже две недели думаю над новым названием канала и решила подключить помощь chatGPT...

Neural Venture Chick звучит очень неплохо 😄
😁293👍3👎3🔥3
Notion добавил AI-интерфейс (без вейтлиста)
Вчера прислала подписчица, а уже сегодня меня встретил AI-онбординг в рабочем спейсе. Думаю буду использовать для генерации заголовков или перефраза.
👍153🙏2🔥1
Тем временем уже прошло 3 недели с тех пор, как меня отправили на доп проверку по налогам и доходам в белградском консульстве США. Как они сами пишут, "Unfortunately, there is no way to expedite the process, nor is there any way to predict when the process will conclude." По словам экспертов из чатов и моих юристов, если не ответили в первые 2 недели — ETA 3-4 месяца (кейс ушел в Вашингтон), но ЧИСТО ТЕОРЕТИЧЕСКИ ответить могут как завтра, так и через полгода. АОАООАОАОАААА
Так что сейчас мой горизонт планирования составляет примерно две недели: завтра я лечу из Черногории в Белград, потом в марте в Ереван. Дальше думала про Париж, но что-то в соло платить 200$ в сутки за жилье среднего качества не хочется 🤪

Что в итоге мы имеем:
1. у меня есть шенген до осени
2. у меня есть корейское разрешение на въезд
3. я рассматриваю безвизовые страны

🤗 Поэтому запрос к вам, дорогие подписчики: можете ли вы посоветовать мне какой-нибудь классный город, где можно не супер дорого потусить пару месяцев и настроить свой быт?

#O1
👍12😢6🤔1
🧐
Anonymous Poll
30%
☁️ AWS
6%
☁️ GCP
46%
Просто тык
🤡5🌚2🌭2👍1
Я не понимаю, почему AWS настолько удобнее и стабильнее чем гугловый клауд…
😁8👍4
какой-то экшен произошел в моем кейсе сегодня, хоть статус и не поменялся (refused = идет процессинг). В чатах кто-то пишет "жди ответ на днях", а кто-то что это вообще ничего не значит 😅

to be continued...
#O1
😱16🌚4👍1