Пресидский залив – Telegram
Пресидский залив
6.3K subscribers
449 photos
53 videos
4 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
Очередной визовый апдейт
Пришло еще одно письмо от консула из Белграда по О1 визе — запросили еще раз (в 3й) мое CV и заполненную форму про бекграунд. Общаюсь с юристами, снова не понимаю, что происходит...

upd: юристы говорят, что форму бекграунда действительно могут запрашивать часто. Сейчас скорее всего проверяют, что мой оффер еще актуален и ждут ли меня в сша
#O1
😱32🤡25🤯14
Друзья! Лечу сегодня в Сеул. Если кто-то из вас там, го вместе коворкать 👩🏻‍💻 также если у вас есть какие-либо рекомендации, буду рада, если поделитесь ❤️
28🔥9👍8
🎶Как не словить депрессию, пока делаешь свой SVS (text-to-singing voice synthesis)

Задача синтеза речи хорошо решена на большинстве языков. С пением все иначе — есть пара популярных репозиториев с прошлых интерспичей, но есть нюансы. Чтобы успешно завести свой svs и не разочароваться в мире нейронок и в жизни в целом я сейчас про них расскажу.

😡 SVS в 2023 году — мир китайцев, японцев и немного корейцев. Все дело в том, что нет опенсорсных датасетов на английском языке в студийном качестве, но зато есть отличный датасет opencpop с китайским женским пением, размеченный не только по тексту, но и по нотам. Есть пара API с английском языком, но это уже совсем другая история.
😌 Хорошая новость — SVS хорошо дружат с one-shot SVC моделями (можно нагенерировать данных voice conversion'ом по нескольким минутам оригинального спикера).

😡 Многие модные фреймворки из статей типа NANSY++, NaturalSpeech-2 упоминают SVS, но не является фокусом внимания авторов. Хоть они и на слуху, проблема в том, что у многих из них есть только любительские реализации, некоторые из которых не заводятся, а авторы не поддерживают работу. И если в офигенного lucidrains который пишет понятный работающий код и его работу над NaturalSpeech я верю, то единственная известная мне реализация NANSY++ не работает от слова совсем. К тому же значительная часть документации будет на китайском даже в официальных репозиториях. Как вам такое?
😌 Совет банальный — искать комьюнити вокруг моделей и смотреть на число звезд у репозитория. Например вокруг самого залайканного DiffSinger есть дискорд, где можно с англоговорящими разработчиками пообуждать как лучше разбивать английские слова на слоги и куда ставить SP/AP токены

😡 Просто текста не достаточно. Нужна информация о длительностях фонем и нотах для пения. А, значит, нужно еще 2 модели: для генерации мелодии и для предсказания длительностей фонем и других фичей (например f0, enenrgy)
😌 Самая большая боль здесь — разметка по числу фонем на каждый слог и расстановка спец символов. Но и ее не так сложно автоматизировать, благо задача в интернете популярная. В остальном разметка английского похожа на пайплайн разметки китайского: какой-нибудь алфавитный asr (не whisper, чтобы не разворачивать потом числа/сокращения и учесть все охи/вздохи, можно из nemo взять что-нибудь например) + mfa + оценка октав и нот по частоте. Много деталей, но сам пайп заводится не очень сложно. А вот с мелодией все чуть сложнее... в целом подход "найти хорошие паттерны и выбирать/комбинировать" работает неплохо или обучить легкий seq2seq. Главное, чтобы на выходе был элаймент по длительностям нот и сами ноты, которые уже можно подать на вход предиктору фонем
👍29🔥98👏3
Кто спрашивал про визу — если коротко, продвижений больших нет 🥲
Писали сенатору, сенатор обратилась в консульство, консульство ответило, что мой статус О1 в пересмотре (по какой-то причине они не получили майское уведомление о том, что ходатайство об отзыве статуса не удовлетворено и статус остается). Сейчас пытаемся через сенатора снова достучаться до консульства и узнать, почему они не получили уведомление о сохранении статуса в мае 🌚
#O1
Please open Telegram to view this post
VIEW IN TELEGRAM
😱38😢15🌚6❤‍🔥4
Прошлой осенью по сети бродил любительский проект riffusion, который умел генерировать звуки/мелодии и подражать пению, но именно подражать, без слов. Авторов начали цитировать в своих статьях бигтехи и тем самым привлекли внимание в том числе инвесторов. С тех пор riffusion подняли 4М$ и научили свою сетку не просто внятно говорить, но и здорово петь
это реально 🔥, я такого еще не видела
само собой в этот раз без статей или опенсорса 🥲
попробовать можно в том числе по русскому номеру бесплатно
🔥30👍85🤯2
Помимо работы с войс тех стартапами я развиваю свой собственный проект, а именно разрабатываю приложение, которое будет помогать покупать и выбирать одежду по личным предпочтениям и особенностям внешности пользователя нет, пока что это не онлайн примерка
если хотите мне помочь и вам интересна эта область, то пройдите небольшой опрос на 5-10 минут. Шеринг очень приветствуется 😊
👍206👏4🔥3😱3❤‍🔥2
Помните раньше надо было выбирать котов/собак чтобы убедить сайт что вы не робот? Сегодня я 10 минут потратила на то, чтобы победить капчу на airbnb с крысой и сыром 🤡
с каждым годом мне все сложнее доказать, что я человек...
😁92😱25🔥5👏3🤡3👍2
подборка классных сеток из мира audio processing 😎

1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс

2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может

3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс

4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)

5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо

6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..

7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда

8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио

9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно

10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут

пишите в комментах, что забыла 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥353👍3🤩2👏1
Тем временем у Chat-GPT появилась классная тулза в web ui в альфа-тестировании для поиска. Похоже что-то поумнее, чем моделька, которая была в Bing
🔥28🤯202👍2
Интересную модель для генерации комиксов увидела в этом посте

1. По входному промпту + стилю к каждой картинке генерируется отдельный промпт с описанием происходящего на кадре
2. К каждому кадру из комикса отдельно генерируется картинка. Промпты можно редактировать или повторно генерировать

по тому что заметила, стиль American modern работает лучше всего. Правда, из-за него в аниме появились супергеройские нотки)

Нормальная концовка атаки титанов подъехала🌚
15👍6😁4🔥2🌚2
Вчера был DevDay от openai, где представили несколько новых любопытных обновлений. Главное из них — GPT-4 Turbo! Еще более умная версия 😎

1. Размер контекста GPT-4 Turbo увеличили в 16 раз по сравнению с предыдущим. Для сравнения Сэм сказал, что это примерно 300 книжных страниц
2. В API завозят json mode аутпуты. То есть теперь не нужно будет выцеживать нужную информацию из текстового ответа, можно ее просто явно запросить
3. Знания модели не будут ограничены 2021 годом, сейчас модель знает про мир до апреля 2023го. И разработчики пообещали поддерживать модель актуальной
4. В API теперь можно будет прокидывать картинки (а не только url как было раньше), в GPT-4 turbo будет интеграция с DALLE-3. Кроме того, обещают скоро открыть Whisper v3, в котором будет еще больше языков
5. Откроют gpt-4 для файнтюнинга в экспериментальном режиме. Заверили, что на данных которые юзеры используют для дообучения они не учатся. Анонсировали b2b дообучение моделей под нужды клиента
6. Повысили лимиты токенов в минуту, сделали более приятный прайс. Если нужны еще более высокие лимиты, можно отправлять запросы
🔥21👍63
пробую генерировать с новой связкой dalle-3/gpt-4 иллюстрации для своего fashion tech приложения. Попросила давать мне менее сексуализированные образы (генерировались девушки модельной внешности в откровенных нарядах). Выдалось такое 🤯

А вообще похоже что в следующей версии мы увидим нормальные буквы
😁27🤯9🔥5👍4🤣2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Что случилось за ночь 🎪:

– Судя по слухам, из-за увольнения Сэма сотрудники OpenAI начали увольняться в ощутимом для стартапа количестве – я еще давно читал, что атмосфера в OpenAI скорее похожа на культ, то есть многие там правда ради достижения AGI и любят Сэма как лидера, так что не удивлен.

– По разным источникам, добровольные увольнения членов команды напугало борду, они согласились взять назад Сэма и ушедших, а сама борда будет распущена (и видимо, те кто ее часть – покинет компанию). Это сейчас самый актуальный слух.

– Просто забавно: CEO Microsoft когда узнал про увольнение Альтмана был «в ярости».

– Сотрудники массово лайкают твит Сэма, в котором он признается в любви к OpenAI, что частично подтверждает теорию что его взяли назад и переворот завершился ничем.

Дальше AGI-цирк ушел спать, ждем подтверждения слухов вечером по нашему.

Если все подтвердится, то это, как по мне, еще одно подтверждение теории номер 2 выше и значит, алайнеры проиграли, что вызовет очередную волну паники в медиа в стиле «ученые которые хотели безопасного AI были уволены шок читать с подпиской»
😁22👍7🤡5🤔4🤣2
Я подумывала написать в канал, когда соберу первый раунд или хотя бы пройду в аксель со своим стартапом и буду тут флексить. Но потом решила, что по мере своих сил буду держать вас в курсе. Так ведь интереснее 👀

💃 Итак, с чем же я планирую покорять fashion e-commerce? 💃

🪩 Какую проблему решаем?
"Перед выходом из дома я сомневаюсь, что оделся/оделась достаточно хорошо. Я чувствую неуверенность и дискомфорт."

🪩 Как сейчас решаем проблему?
mvp: Определяем какие цвета идут человеку, какому стилю он хочет следовать, что хочет подчеркнуть/скрыть при помощи одежды, одет ли он по погоде и даем алгоритм, как быстро улучшить свой сегодняшний образ по фотке в полный рост (например: заправь рубашку, подверни штаны, накинь куртку и так далее).

Есть мысли по развитию, но будем отталкиваться от фидбека пользователей 😏

🪩 Что уже успели сделать?
Сделали лендос, залетели в тестфлайт с mvp, а также подались в YC, techstars. Скоро узнаем, зовут ли нас на собесы. Планируем выйти в стор в Q1 2024

P.S. если хотите потестить прилу - напишите "+" в комменты или мне в личку, первым 20ти пошарю ссылку на тестфлайт
UPD: пока тестирование закрываем, спасибо всем кто откликнулся!
🔥46👍126😁3🤡3
мы набрали 20 человек, пока что ограничиваем тестирование. Спасибо за такой интерес к продукту, по всем багам/предложениям пишите в комменты или мне в личку
🔥25🙏3👌3
коротко про current state виртуальной примерки 🌚

Я не очень верю в решенность этой задачи в декабре 23го по нескольким причинам:

1. Лекала и размерные сетки. Возьмите одни и те же штаны из зары в Корее и в Америке. Условный M там будет совершенно разный
2. Сложные фасоны. Думаю, что в течение года можно будет примерить очень реалистично оверсайз вещи, но ведь куда интереснее как будет выглядеть какой-нибудь слим фит
3. Неинклюзивность. Все впечатляющие демки с онлайн-примеркой сейчас на стройных и высоких. Увы, но на них всегда все хорошо сидит :) если говорить про обычных людей, то здесь все будет похуже. Гугл кстати тут сделал интересную механику - выбирать похожую по фигуре модель и смотреть, как вещь будет сидеть на ней

А вообще я рада, что так много интереса к этой теме последнее время. Потому что рынок fashion e-commerce активно растет во многом из-за генеративок и хайпа вокруг примерки 🦄

картинка взята из этого треда
🤣32👍11🔥6👏31😁1
Месяц назад все обсуждали Sama и его уход из openai, сейчас движ происходит в fashion tech вокруг продажи Farfetch (самый известный люксовый маркетплейс) южнокорейскому Coupang, который называют азиатским Амазоном. Мне стало интересно, как так вышло, что после миллиардного выхода на IPO в 2018м компания оказалась на грани банкротства в 2023м 🥲

👀 Шаги, противоречащие основной бизнес-модели
Изначально Farfetch был платформой, которая связывала покупателей с продавцами люкса, не владеющей собственными складами и производствами. После успешного выхода на IPO и пандемии, CEO решил расширять компанию, поглотив несколько других: New Guards Group (производство и дистрибуция люксового шмота) и Violet Grey (американское золотое яблоко). Инвесторы этот мув не оценили и стали задавать вопросы о целесообразности таких импульсивных покупок. Вскоре быстрый рост привел к увеличению накладных расходов без доходов

👀 Снижения спроса на люкс в 2023 году
Времена непростые, поэтому спрос на люксовые товары сильно уменьшился. В качестве ответной меры, многие платформы стали вводить скидки, что в начале 2023 немного помогло, но затем дало откат - люди ждали скидки и не покупали товары по полной цене 🙃 пострадали все, от модных домов до ритейла

👀 Разные обсуждения в СМИ
В сети давно обсуждают Farfetch с разных ракурсов. Кто-то считал, что благодаря своей технологичности и открытости к экспериментам компания придет к успеху, но многие сомневались в продаже люкса онлайн с самого начала, а когда компанию начало штормить - вылезло много нумыжеговорили. Для многих покупка люкса это экспириенс. Здесь его почти нет, но есть наценки. Поэтому обсуждения виртуальной примерки кроссовок в 2020м оказались не такими сочными и заметными

у Farfetch даже свой аксель был в Париже, куда я планировала подаваться весной. Coupang видит в партнерстве доступ к US рынку и продолжение экспериментов, так что мне очень интересно, будет ли в этом году набор или им не до того. Может, фандинг даже расширят 🌚
Please open Telegram to view this post
VIEW IN TELEGRAM
👍216🔥3🤯3🤔1
🐺 Sam уже почти как Дуров раздает советы, которые активно обсуждает твиттер 🐺
Очень неплохие, и, ожидаемо, отражающие идеологию YC startup school. Расскажу подробнее основные мысли, они хорошо делятся на 4 группы. Оригинал тут


🌟 Про вдохновение
— Стимулы (мотивации) — это сверхспособности; устанавливайте их осторожно
— Моменты вдохновения недолговечны, и жизнь проходит быстро. Не стоит бездействовать в такие моменты, важно их использовать
— Легче сделать сложное, но важное дело, чем легкое, но неважное; смелые идеи мотивируют людей
— Все начинается с оптимизма, вдохновленности, веры в себя, силы воли и нетворка

🙂 Про команду
— Помогают довести дело до конца: сплоченность команды, баланс между суетой и спокойствием и безусловная верность делу
— При найме выбирайте людей с высоким потенциалом, помимо интеллекта ищите доказательства того, что они выполнят свою работу
— Суперзвезды очень ценны, но вы должны оценивать людей по их общему влиянию на результаты
— Работа с замечательными людьми это одна из лучших частей жизни

🔜 Про концентрацию на результате
— Избавляйтесь от ненужного, концентрируйтесь на том, во что сильно верите
— Избегайте бюрократии, не позволяйте ей мешать продуктивности
— Результат важнее процесса

✏️ Про подход к работе
— Общайтесь ясно и коротко
— Итерируйтесь быстро. Ошибаться нормально
— Не боритесь с законами бизнеса, они как законы физики
— Масштабирование часто имеет удивительные свойства
— Стоит строить бизнес, который при масштабировании получает дополнительные преимущества

ну и бонус на тему ошибаться нормально
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥84👏4👌1
🪩 init commit для стартапа 🪩

мало кто рассказывает про первые месяцы жизни стартапа, и я понимаю почему - всегда хочется пофлексить, показать, какой ты офигенный фаундер. Но до флекса проекту надо еще дожить, причем кодинг - это далеко не самая трудоемкая часть. Сейчас расскажу, как это происходит у меня

1. Серьезные намерения
После того, как в сентябре я ушла из найма, я общалась с разными фаундерами, инвесторами. Фидбек у всех был очень простой - или неинтересно, или интересно, но приходи, когда будет mvp и трекшн. Тем не менее, мне очень нравилось жить на бонусы за консультации, проекты и парттайм заниматься стартапом. В конце октября встал очень понятный вопрос: либо я фултайм занимаюсь своим aesty, либо ничего из этого не получится. И тогда я отклонила 2 оффера - решилась отказаться от благ найма и попробовать сделать свое, крутое.

2. Пространство идей
Было несколько идей-кандидатов, среди которых, само собой, была и онлайн-примерка. Выяснили, что сейчас огромный запрос на персонализацию - люди не понимают, что им подходит, и часто покупают ненужное. Провели касдев с людьми из разных стран. Из интересного выяснили, что, например, японцы будут очень рады, если мы им дадим инструкцию, что им носить и как сочетать, а европейцам очень зашла идея с календариком образов и поиском по нему.

3. Общение с фаундерами, комьюнити, акселераторы.
Я удивилась, насколько все друг друга знают в стартаперском комьюнити. А еще, насколько фаундеры любят поговорить, даже если ты просто пишешь в LinkedIn и предлагаешь познакомиться. Я общалась со многими фаундерами из разных отраслей, и все советовали подаваться в топ-10 акселераторов (YC, techstars, alchemist, 500 startups, etc). На подачу ограничений нет, более того, жюри даже поощряют повторные заявки, так что вы точно ничего не теряете. Зато в процессе заполнения анкеты и записи питчей можно очень много понять про свой стартап и идею. Если пройти на собесы - получить фидбек вне зависимости от решения. Вообще, комьюнити и чужая рефлексия очень помогают. Вот, например, подборка каналов про развитие своих продуктов.

4. How far along are you?
За полтора месяца мы сделали mvp, чуть выше был пост с тестфлайтом. Сейчас допиливаем наполнение и другие фичи, в Q1 выходим в стор с подпиской, запускаем маркетинг, смотрим на отклик, и выберем куда идти дальше, есть как минимум 3 гипотезы.

Кстати, скоро будет батч на 25 новых тестеров, stay tuned! 😎
👍46🔥17👏75
Мой топ voice tech продуктов и архитектур за 2023🌟

1. Adobe Podcaster — отличная тулза для улучшения качества звуковых дорожек на английском языке. Явно архитектура не была указана, но путем дедукции мы выяснили, что же там под капотом (см ссылку)

2. Riffusion — text prompt melody generation. Первая версия появилась в декабре 22го как петпроджект с максимально простой идеей: использовать stable diffusion на спектрограммах. После хайпа за год ребята выросли и сделали свой софт для генерации небольших музыкальных открыток с музыкой и пением. Вышло очень здорово

3. CLAP — нейронка для извлечения фичей и их агрегации, которая не раз выручала меня в задачах, где нужно разделить звуковые данные по полу/качеству микрофона и так далее. Как CLIP, но в мире аудио

4. NANSY++, Natural Speech 2 и другие — большой пласт сеток для разных задач text prompt генерации голоса (причем, и клонирования, и поющего, и эмоционального)

5. разные Audio LLM — suno bark, audiocraft, llark. Разные задачи с управлением через llm от prompt-based synthesis и до audio production guidance

многие из архитектур уже выдают очень классные результаты, но являются дорогими/долгими/тяжелыми. Поэтому в следующем году ожидаю тренд на облегчение моделей, а также уменьшение числа минут/часов, необходимого например для качественного переноса голоса (как пример — RVC, которому сейчас для создания кавера с новым голосом нужно 10 минут). Кроме того, думаю, что гиганты типа apple будут больше внимания уделять звуку. Милана недавно, например, писала про voice cloning в последнем обновлении iOS.

Пишите в комментариях о сетках/продуках, про которые я забыла. И всех с наступающим! 🎉
🔥288👍5👏1🎉1
перешагнули порог в 2к подписчиков 🎉

канал начинался с обзоров на войс тех архитектуры с демо/плейграундами, сейчас я пишу и про развитие своего стартапа, и про новости из фешн теха, и все еще иногда про войс тех. Ну и про визу, когда там происходит какой-то движ...

Расскажите, про что вам было бы интересно почитать?
37🎉8👍7🔥3