Пресидский залив – Telegram
Пресидский залив
6.29K subscribers
449 photos
53 videos
3 files
336 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
Залезла я значит куда не надо и увидела то, что не должна была видеть 😆
На самом деле все норм и статус "Refused" ставится для всех, кого зовут на собес
Собеседование послезавтра утром, держите кулачки ✊🏻
🙏42😱10🔥73🕊1
Завтра по собеседованию возможны 3 исхода:
1. 🎈красная бумажка, отказ в визе
2. 🍋 желтая бумажка, запрос доп информации или доп процессинг
3. 🍀 зеленая бумажка, сразу апрув, пара дней на вклейку визы

пока что статистика по Белграду 1 🍀 и 1 🍋
👍7🕊63
Ваши ставки
Anonymous Poll
4%
🎈
27%
🍋
69%
🍀
🙏13👌12
Итог — желтая бумажка. Хотят от меня подтверждение, что я платила налоги. Два раза переспросили мою зп сейчас и какой она была год назад. Спойлер: я платила, так что надеюсь скоро получить зеленую.
Просили рассказать про себя, по проф части вопросов у консула не возникло

Первый вопрос был в каком году я закончила школу и сколько мне лет 🤪
#O1
👍53😢122
This media is not supported in your browser
VIEW IN TELEGRAM
eto ya пишу белградскому консулу, почему я не должна была платить налоги в Сингапуре и США в 2020-2022 годах 😰

😎 технические обзоры ожидаются, как только я перестану нонстопом обновлять почту и общаться с юристами, а пока вы можете накидать мне идей, про что было бы интересно почитать 🤓
#O1
🙏165😁4👍2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧟 Учитель входит в аудиторию или CLIP CLAP LDM 🤯

Наткнулась на свежую интересную статью по text-to-audio, да еще и с публичной демкой от пяти phd из Англии — AudioLDM (да, именно то о чем вы подумали — yet another latent diffusion model но в звуке)

🌵 Что интересного?
Сделали обзор на существующие решения — среди них например DiffSound, у которого хромает лейтенси и для ее обучения авторы брали кластер V100. Именно эта модель лежит в основе статьи. Судя по всему у авторов AudioLDM не было значительного бюджета, поэтому они обошлись одной A100.

🌵 Особенности решения
1. Используют VAE энкодер, чтобы пожать размерность векторов в латентном пространстве
2. Так как в CLAP есть эмбэддинги сразу для текста и аудио, то Latent Diffusion может работать и с текстами, но обучается только на эмбэддингах аудио. Этот подход по мнению авторов лучше, чем обучение на эмбеддингах и текста, и аудио
3. Авторы пробуют различные text-guided style manipulations. Правда, демка доступна только для TTA
4. В качестве данных взяли открытые датабазы freesound и bbc sound effects

Сгенерированная дорожка довольно сильно артефачит — я была уверена что там Гриффин-Лим, но оказалось первый hifi-gan 😕

В любом случае, как и прошлогодний riffusion считаю что эта работа достойна внимания, потому что TTA с демками прям оочень мало 😎

мой запрос кстати был:"teacher's steps near the classroom before the lesson"
как вам такая озвучка? 😅
👍11👌43🕊3
столкнулась с интересной проблемой, иногда из-за моего био люди в чатах думают что я реально 23 y.o. designer from San Francisco...
😁33🤔6🌚3👍1
Какие аудиоформаты теряют данные?
Anonymous Poll
49%
.ogg
87%
.mp3
21%
.wav
13%
.flac
58%
.m4a
🌚4👍1
🎶 Битрейт, семпл рейт, глубина звука и потери

Давно была мысль написать про аудиоформаты и кодеки, потому что при сборе данных это отдельная боль. Микрофоны плохого качества, телефония и даже просто формат очень важны для нормального обучения модели.

⚙️ Кодеки — это функции, которые сжимают данные для передачи и распаковывают их по прибытии. Скорость их работы измеряется в килобитах, обрабатываемых в секунду, известная как битрейт (кбит/с). Причем это число варьируется даже в пределах одного формата. Как правило, более низкий битрейт означает меньший размер файла, но это также означает, что при сжатии теряется больше данных.

Другими важными характеристиками являются частота дискретизации (sampling rate) и битовая глубина (bit depth). Частота дискретизации — это количество отсчетов амплитуды сигнала в секунду (популярные значения — 16 kHz, 22.05 kHz, 44,1 kHz, 48 kHz). Битовая глубина относится к количеству битов на сэмпл — чем выше это число, тем насыщеннее звук (обычно 12, 16, 32).

😕 Аудиоформаты с потерями (MP3, VORBIS)
Теряют данные при передаче — не распаковываются до изначального размера файла, поэтому в конечном итоге они становятся меньше, а некоторые звуковые волны теряются. Для сбора данных под обучение, музыки или кино предпочтительно не использовать форматы с потерями, потому что файлы ухудшаются при каждом экспорте.
Но для саунд-эффекта в каком-нибудь мобильном приложении или аудиосообщения этого более чем достаточно.

🤷‍♀️ Аудиоформаты без потерь (FLAC)
Эти файлы после трансмиссии распаковываются до исходного размера, сохраняют качество звука и не теряют волны. Эти файлы могут быть в несколько раз больше, чем MP3/VORBIS. Битрейт в этом случае зависит от громкости и плотности дорожки, а не от качества звука.

😎 Аудиоформаты без сжатия (PCM)
Размер таких файлов одинаков на входе и выходе. WAV это литерали WAVeform audio file, самый жирный и качественный. В отличие например от .MP3 он не особенно ограничен битрейтом или глубиной и может иметь частоту дискретизации даже 192 kHz.

Кстати, прошлой осенью у меты вышла статья про сжатие аудио. Говорят, сжимают в 10 раз сильнее чем mp3 и декодируют через нейронку почти без потерь 🌚

орнула, как FAIR (Facebook AI Research) переименовались в Fundamental AI Research 😂
#forcourse
👍166🔥5🌚2
жду, когда про Google vs openai/Microsoft снимут сериал на нетфликсе 🍿
😁16👍5🔥2🌚2❤‍🔥1
Друзья, если вы видите рекламу в моем канале и думаете, что строительная компания «Самолет» мне платит, то это не так. Я не то что рекламу не включала, я не могу ее отключить так как с 1к подписчиков она включается автоматом…. 🤪
😁29👌9👏4🤡4👍1
Записалась в wait list Bing/Chat GPT. Make Microsoft great again?
😁14🔥3🐳2👍1
🌚 Ян ЛеКун тоже высказался по поводу развития больших языковых моделей

1. О LLM (large language models) стоит думать только как об инструменте/помощнике в написании текстов/кода/etc
2. На то, что говорит LLM не стоит слепо полагаться — это лишь подражание тому, что модель уже видела. Часто информация будет правдивой, но далеко не всегда
3. Знания модели поверхностны, мне понравилась метафора Яна про то, что "вселенная" этих моделей ограничена, дискретна и полностью наблюдаема, чего не скажешь о нашей реальности. Именно поэтому модель лучше справляется с code-related заданиями
🔥16👍42
Интересно, что буквально вчера был разговор с одним из наших инвесторов про LLM и он сказал что его 11-ти летняя дочь может начать генерировать эссе для школы через chat-gpt и его это беспокоит.
Мне кажется как раз здесь есть хороший вывод (даже два):
1. его дочь непременно набьет шишки когда столкнется с неправдоподобно сгенерированной информацией и станет (или не станет) перепроверять то, что ей сгенерировали
2. система образования должна заставлять учеников больше думать и анализировать то, что они пишут

Прикрепляю к посту мою любимую картинку и жду кучу философских дипломов про LLM в ближайшие годы
👍214🔥1😁1
Forwarded from мнк сторис
С опозданием возвращаюсь с историей про визу.

Интервью проходило в Белграде, я пришел последний к времени записи и ждал своей очереди около 2 часов. В окошке оказался приветливый мужчина, который спросил, как у меня дела и чем я занимаюсь. Что-то долго печатал, а потом протянул заветную бумажку. Виза на 2 года, затем можно продлить еще на год.

К сожалению, все не смогло оказаться настолько гладко, и Наде дали административный процессинг (грубо говоря, доп. проверку бекграунда). Сейчас поехали отдыхать и работать в Черногорию, ловите кадр с побережья 💻

P.S. Спасибо всем за реакции и поддержку, вы самые лучшие 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥8🙏4
Сегодня работаю вот так 🌴
26🔥17🌚4👍3😁3👏1
Channel photo updated
😁6😱2👍1
Прощупываю границы нейроюмора.
Если мне смешно в голос с последних двух абзацев, пора брать отпуск?
😁21🥴18👍3👏1
новый вид газлайтинга от chatGPT: создавать ссылки на несуществующие гуглдоки и говорить что ответ там
😁36🌚3👏1
уровни боли:
больно, очень больно, проснулась в 6:45 ради звонка с партнерами, а они не пришли....
😢44🤬12😁2🤣2🥰1