Пресидский залив – Telegram
Пресидский залив
6.29K subscribers
449 photos
53 videos
3 files
337 links
Pre-seed'ский, не персидский! Я DL engineer, который хочет стать акулой бизнеса. Рассказываю про успехи и фейлы 🦈
вместе с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi)
чат: https://news.1rj.ru/str/+SvmaVb3PV6MyNGJi
@im_moonko - сотрудничество
Download Telegram
подборка классных сеток из мира audio processing 😎

1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс

2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может

3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс

4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)

5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо

6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..

7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда

8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио

9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно

10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут

пишите в комментах, что забыла 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥353👍3🤩2👏1
Тем временем у Chat-GPT появилась классная тулза в web ui в альфа-тестировании для поиска. Похоже что-то поумнее, чем моделька, которая была в Bing
🔥28🤯202👍2
Интересную модель для генерации комиксов увидела в этом посте

1. По входному промпту + стилю к каждой картинке генерируется отдельный промпт с описанием происходящего на кадре
2. К каждому кадру из комикса отдельно генерируется картинка. Промпты можно редактировать или повторно генерировать

по тому что заметила, стиль American modern работает лучше всего. Правда, из-за него в аниме появились супергеройские нотки)

Нормальная концовка атаки титанов подъехала🌚
15👍6😁4🔥2🌚2
Вчера был DevDay от openai, где представили несколько новых любопытных обновлений. Главное из них — GPT-4 Turbo! Еще более умная версия 😎

1. Размер контекста GPT-4 Turbo увеличили в 16 раз по сравнению с предыдущим. Для сравнения Сэм сказал, что это примерно 300 книжных страниц
2. В API завозят json mode аутпуты. То есть теперь не нужно будет выцеживать нужную информацию из текстового ответа, можно ее просто явно запросить
3. Знания модели не будут ограничены 2021 годом, сейчас модель знает про мир до апреля 2023го. И разработчики пообещали поддерживать модель актуальной
4. В API теперь можно будет прокидывать картинки (а не только url как было раньше), в GPT-4 turbo будет интеграция с DALLE-3. Кроме того, обещают скоро открыть Whisper v3, в котором будет еще больше языков
5. Откроют gpt-4 для файнтюнинга в экспериментальном режиме. Заверили, что на данных которые юзеры используют для дообучения они не учатся. Анонсировали b2b дообучение моделей под нужды клиента
6. Повысили лимиты токенов в минуту, сделали более приятный прайс. Если нужны еще более высокие лимиты, можно отправлять запросы
🔥21👍63
пробую генерировать с новой связкой dalle-3/gpt-4 иллюстрации для своего fashion tech приложения. Попросила давать мне менее сексуализированные образы (генерировались девушки модельной внешности в откровенных нарядах). Выдалось такое 🤯

А вообще похоже что в следующей версии мы увидим нормальные буквы
😁27🤯9🔥5👍4🤣2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Что случилось за ночь 🎪:

– Судя по слухам, из-за увольнения Сэма сотрудники OpenAI начали увольняться в ощутимом для стартапа количестве – я еще давно читал, что атмосфера в OpenAI скорее похожа на культ, то есть многие там правда ради достижения AGI и любят Сэма как лидера, так что не удивлен.

– По разным источникам, добровольные увольнения членов команды напугало борду, они согласились взять назад Сэма и ушедших, а сама борда будет распущена (и видимо, те кто ее часть – покинет компанию). Это сейчас самый актуальный слух.

– Просто забавно: CEO Microsoft когда узнал про увольнение Альтмана был «в ярости».

– Сотрудники массово лайкают твит Сэма, в котором он признается в любви к OpenAI, что частично подтверждает теорию что его взяли назад и переворот завершился ничем.

Дальше AGI-цирк ушел спать, ждем подтверждения слухов вечером по нашему.

Если все подтвердится, то это, как по мне, еще одно подтверждение теории номер 2 выше и значит, алайнеры проиграли, что вызовет очередную волну паники в медиа в стиле «ученые которые хотели безопасного AI были уволены шок читать с подпиской»
😁22👍7🤡5🤔4🤣2
Я подумывала написать в канал, когда соберу первый раунд или хотя бы пройду в аксель со своим стартапом и буду тут флексить. Но потом решила, что по мере своих сил буду держать вас в курсе. Так ведь интереснее 👀

💃 Итак, с чем же я планирую покорять fashion e-commerce? 💃

🪩 Какую проблему решаем?
"Перед выходом из дома я сомневаюсь, что оделся/оделась достаточно хорошо. Я чувствую неуверенность и дискомфорт."

🪩 Как сейчас решаем проблему?
mvp: Определяем какие цвета идут человеку, какому стилю он хочет следовать, что хочет подчеркнуть/скрыть при помощи одежды, одет ли он по погоде и даем алгоритм, как быстро улучшить свой сегодняшний образ по фотке в полный рост (например: заправь рубашку, подверни штаны, накинь куртку и так далее).

Есть мысли по развитию, но будем отталкиваться от фидбека пользователей 😏

🪩 Что уже успели сделать?
Сделали лендос, залетели в тестфлайт с mvp, а также подались в YC, techstars. Скоро узнаем, зовут ли нас на собесы. Планируем выйти в стор в Q1 2024

P.S. если хотите потестить прилу - напишите "+" в комменты или мне в личку, первым 20ти пошарю ссылку на тестфлайт
UPD: пока тестирование закрываем, спасибо всем кто откликнулся!
🔥46👍126😁3🤡3
мы набрали 20 человек, пока что ограничиваем тестирование. Спасибо за такой интерес к продукту, по всем багам/предложениям пишите в комменты или мне в личку
🔥25🙏3👌3
коротко про current state виртуальной примерки 🌚

Я не очень верю в решенность этой задачи в декабре 23го по нескольким причинам:

1. Лекала и размерные сетки. Возьмите одни и те же штаны из зары в Корее и в Америке. Условный M там будет совершенно разный
2. Сложные фасоны. Думаю, что в течение года можно будет примерить очень реалистично оверсайз вещи, но ведь куда интереснее как будет выглядеть какой-нибудь слим фит
3. Неинклюзивность. Все впечатляющие демки с онлайн-примеркой сейчас на стройных и высоких. Увы, но на них всегда все хорошо сидит :) если говорить про обычных людей, то здесь все будет похуже. Гугл кстати тут сделал интересную механику - выбирать похожую по фигуре модель и смотреть, как вещь будет сидеть на ней

А вообще я рада, что так много интереса к этой теме последнее время. Потому что рынок fashion e-commerce активно растет во многом из-за генеративок и хайпа вокруг примерки 🦄

картинка взята из этого треда
🤣32👍11🔥6👏31😁1
Месяц назад все обсуждали Sama и его уход из openai, сейчас движ происходит в fashion tech вокруг продажи Farfetch (самый известный люксовый маркетплейс) южнокорейскому Coupang, который называют азиатским Амазоном. Мне стало интересно, как так вышло, что после миллиардного выхода на IPO в 2018м компания оказалась на грани банкротства в 2023м 🥲

👀 Шаги, противоречащие основной бизнес-модели
Изначально Farfetch был платформой, которая связывала покупателей с продавцами люкса, не владеющей собственными складами и производствами. После успешного выхода на IPO и пандемии, CEO решил расширять компанию, поглотив несколько других: New Guards Group (производство и дистрибуция люксового шмота) и Violet Grey (американское золотое яблоко). Инвесторы этот мув не оценили и стали задавать вопросы о целесообразности таких импульсивных покупок. Вскоре быстрый рост привел к увеличению накладных расходов без доходов

👀 Снижения спроса на люкс в 2023 году
Времена непростые, поэтому спрос на люксовые товары сильно уменьшился. В качестве ответной меры, многие платформы стали вводить скидки, что в начале 2023 немного помогло, но затем дало откат - люди ждали скидки и не покупали товары по полной цене 🙃 пострадали все, от модных домов до ритейла

👀 Разные обсуждения в СМИ
В сети давно обсуждают Farfetch с разных ракурсов. Кто-то считал, что благодаря своей технологичности и открытости к экспериментам компания придет к успеху, но многие сомневались в продаже люкса онлайн с самого начала, а когда компанию начало штормить - вылезло много нумыжеговорили. Для многих покупка люкса это экспириенс. Здесь его почти нет, но есть наценки. Поэтому обсуждения виртуальной примерки кроссовок в 2020м оказались не такими сочными и заметными

у Farfetch даже свой аксель был в Париже, куда я планировала подаваться весной. Coupang видит в партнерстве доступ к US рынку и продолжение экспериментов, так что мне очень интересно, будет ли в этом году набор или им не до того. Может, фандинг даже расширят 🌚
Please open Telegram to view this post
VIEW IN TELEGRAM
👍216🔥3🤯3🤔1
🐺 Sam уже почти как Дуров раздает советы, которые активно обсуждает твиттер 🐺
Очень неплохие, и, ожидаемо, отражающие идеологию YC startup school. Расскажу подробнее основные мысли, они хорошо делятся на 4 группы. Оригинал тут


🌟 Про вдохновение
— Стимулы (мотивации) — это сверхспособности; устанавливайте их осторожно
— Моменты вдохновения недолговечны, и жизнь проходит быстро. Не стоит бездействовать в такие моменты, важно их использовать
— Легче сделать сложное, но важное дело, чем легкое, но неважное; смелые идеи мотивируют людей
— Все начинается с оптимизма, вдохновленности, веры в себя, силы воли и нетворка

🙂 Про команду
— Помогают довести дело до конца: сплоченность команды, баланс между суетой и спокойствием и безусловная верность делу
— При найме выбирайте людей с высоким потенциалом, помимо интеллекта ищите доказательства того, что они выполнят свою работу
— Суперзвезды очень ценны, но вы должны оценивать людей по их общему влиянию на результаты
— Работа с замечательными людьми это одна из лучших частей жизни

🔜 Про концентрацию на результате
— Избавляйтесь от ненужного, концентрируйтесь на том, во что сильно верите
— Избегайте бюрократии, не позволяйте ей мешать продуктивности
— Результат важнее процесса

✏️ Про подход к работе
— Общайтесь ясно и коротко
— Итерируйтесь быстро. Ошибаться нормально
— Не боритесь с законами бизнеса, они как законы физики
— Масштабирование часто имеет удивительные свойства
— Стоит строить бизнес, который при масштабировании получает дополнительные преимущества

ну и бонус на тему ошибаться нормально
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥84👏4👌1
🪩 init commit для стартапа 🪩

мало кто рассказывает про первые месяцы жизни стартапа, и я понимаю почему - всегда хочется пофлексить, показать, какой ты офигенный фаундер. Но до флекса проекту надо еще дожить, причем кодинг - это далеко не самая трудоемкая часть. Сейчас расскажу, как это происходит у меня

1. Серьезные намерения
После того, как в сентябре я ушла из найма, я общалась с разными фаундерами, инвесторами. Фидбек у всех был очень простой - или неинтересно, или интересно, но приходи, когда будет mvp и трекшн. Тем не менее, мне очень нравилось жить на бонусы за консультации, проекты и парттайм заниматься стартапом. В конце октября встал очень понятный вопрос: либо я фултайм занимаюсь своим aesty, либо ничего из этого не получится. И тогда я отклонила 2 оффера - решилась отказаться от благ найма и попробовать сделать свое, крутое.

2. Пространство идей
Было несколько идей-кандидатов, среди которых, само собой, была и онлайн-примерка. Выяснили, что сейчас огромный запрос на персонализацию - люди не понимают, что им подходит, и часто покупают ненужное. Провели касдев с людьми из разных стран. Из интересного выяснили, что, например, японцы будут очень рады, если мы им дадим инструкцию, что им носить и как сочетать, а европейцам очень зашла идея с календариком образов и поиском по нему.

3. Общение с фаундерами, комьюнити, акселераторы.
Я удивилась, насколько все друг друга знают в стартаперском комьюнити. А еще, насколько фаундеры любят поговорить, даже если ты просто пишешь в LinkedIn и предлагаешь познакомиться. Я общалась со многими фаундерами из разных отраслей, и все советовали подаваться в топ-10 акселераторов (YC, techstars, alchemist, 500 startups, etc). На подачу ограничений нет, более того, жюри даже поощряют повторные заявки, так что вы точно ничего не теряете. Зато в процессе заполнения анкеты и записи питчей можно очень много понять про свой стартап и идею. Если пройти на собесы - получить фидбек вне зависимости от решения. Вообще, комьюнити и чужая рефлексия очень помогают. Вот, например, подборка каналов про развитие своих продуктов.

4. How far along are you?
За полтора месяца мы сделали mvp, чуть выше был пост с тестфлайтом. Сейчас допиливаем наполнение и другие фичи, в Q1 выходим в стор с подпиской, запускаем маркетинг, смотрим на отклик, и выберем куда идти дальше, есть как минимум 3 гипотезы.

Кстати, скоро будет батч на 25 новых тестеров, stay tuned! 😎
👍46🔥17👏75
Мой топ voice tech продуктов и архитектур за 2023🌟

1. Adobe Podcaster — отличная тулза для улучшения качества звуковых дорожек на английском языке. Явно архитектура не была указана, но путем дедукции мы выяснили, что же там под капотом (см ссылку)

2. Riffusion — text prompt melody generation. Первая версия появилась в декабре 22го как петпроджект с максимально простой идеей: использовать stable diffusion на спектрограммах. После хайпа за год ребята выросли и сделали свой софт для генерации небольших музыкальных открыток с музыкой и пением. Вышло очень здорово

3. CLAP — нейронка для извлечения фичей и их агрегации, которая не раз выручала меня в задачах, где нужно разделить звуковые данные по полу/качеству микрофона и так далее. Как CLIP, но в мире аудио

4. NANSY++, Natural Speech 2 и другие — большой пласт сеток для разных задач text prompt генерации голоса (причем, и клонирования, и поющего, и эмоционального)

5. разные Audio LLM — suno bark, audiocraft, llark. Разные задачи с управлением через llm от prompt-based synthesis и до audio production guidance

многие из архитектур уже выдают очень классные результаты, но являются дорогими/долгими/тяжелыми. Поэтому в следующем году ожидаю тренд на облегчение моделей, а также уменьшение числа минут/часов, необходимого например для качественного переноса голоса (как пример — RVC, которому сейчас для создания кавера с новым голосом нужно 10 минут). Кроме того, думаю, что гиганты типа apple будут больше внимания уделять звуку. Милана недавно, например, писала про voice cloning в последнем обновлении iOS.

Пишите в комментариях о сетках/продуках, про которые я забыла. И всех с наступающим! 🎉
🔥288👍5👏1🎉1
перешагнули порог в 2к подписчиков 🎉

канал начинался с обзоров на войс тех архитектуры с демо/плейграундами, сейчас я пишу и про развитие своего стартапа, и про новости из фешн теха, и все еще иногда про войс тех. Ну и про визу, когда там происходит какой-то движ...

Расскажите, про что вам было бы интересно почитать?
37🎉8👍7🔥3
новости с полей
полируем контент 💅🙉
🤣29😁7👍6🐳4🔥3🤔2
🌟 фаундерский ивент techstars про постановку целей

Вчера в зуме была открытая встреча фаундеров с менторами (которые сами уже успешные фаундеры). Обсуждали, как ставить цели и от чего отталкиваться на ранний стадиях.

TLDR - задавайте себе вопросы, какие метрики вы оптимизируете, следите, чтобы у каждого сотрудника была конкретная зона ответственности и проверяйте, что идея питча соответствует mvp.

Тезисы
1. Технические задания должны опираться на стратегию и бизнес нужды компании. На ранних стадиях не стоит тратить на рисерч больше 2х недель
2. Бизнес нужды в свою очередь должны отталкиваться от фидбека пользователей и их нужд
2. Как понять, какой трекшн надо получить, чтобы поднять раунд? - пообщаться с инвесторами и другими фаундерами. Вообще стоит просто поддерживать связь с другими фаундерами на рынке
3. У вас должен быть запас инвестиций по крайней мере на 10 месяцев вперед
4. Chatgpt - отличный ассистент, но не заместитель. Если вы копируете текст не думая (например заполняя заявку в акселератор) это почти всегда заметно
5. Инвесторы видят линии, а не точки. Стоит показывать что вы выдаете стабильно 25k MRR, а не в одном месяце
6. Формировать четкие цели и ожидания от каждого запуска. В метриках

Успели даже коротко обсудить мой вопрос - сказали, чтобы я не делала вейтлисты. Почему так - я не успела спросить, но написала. Как ответят, расскажу)

в конце говорили про пивоты и неудачи. Много про то, что важно отдыхать и не делать ничего ночью (а я смотрела этот вебинар в полночь, хаха). Понравилась мысль - не забывать, что ваша жизнь это не только ваш стартап, у вас есть друзья, семья, интересы, другие проекты и тд.

И еще было много ссылок. Вот две, которые мне больше всего понравились:
1. хаб полезных ресурсов для фаундеров
2. подробка фаундерских комьюнити
👍269🔥5👏2🥴1
В openai появился стор с моделями от разработчиков из комьюнити под разные задачи (не только gpt, но и другие)

вот кое-что интересное:
1. VideoGPT (генерация небольших роликов)
2. Canva (ассистент для дизайна)
3. Humanize AI (переписывает сгенерированный текст в более понятный для человека формат)
4. Math solver (решает сложные математические задачи, объясняет пошагово решение. Охх, как мне этого в вузе не хватало!)

много для кодинга, но мне если честно обычной gpt-4 без файнтюнов вполне хватает) и конечно там уже несколько AI Stylist поселилось!

Обещают в Q1 выкатить монетизацию 💸
🔥21👍126💯2
Media is too big
VIEW IN TELEGRAM
осторожно, кринж
попробовала VideoGPT, он уточняет мой промпт и потом редиректит на VEED, где меня просят купить их подписку. Вот это я понимаю, customer acquisition! 😂

Не понравилось, что вместо того, чтобы взять текст из запроса к генерации, они почему-то используют для субтитров кривоватое распознавание... Да и в целом не знаю чего я ожидала от вкусного заголовка "text2video" 🥴🦄
😁15🤣10🤡4🔥21👏1
как же я люблю суммаризацию от loom для русского языка 😂
хотели бы послушать питч про лайфхейст и анимацию с короткими дверями?
😁31👍5🔥2🌚2
небольшой визовый апдейт: написали из консульства в Белграде, запросили оригиналы моих 2х одобренных петиций О1 и все документы, которые мне присылали из USCIS. Копии я отправляла им еще в мае и тогда меня заверили, что документы получены и процессинг продолжается уже по бекграунду. Сегодня буду общаться с юристами и надеюсь, что вскоре все завершится хорошо (через 3 дня, к слову, будет год с начала проверок)
🤯45🙏137👍2🔥2
ребят, а кто-то пробовал делать global talent на основе портфолио o1? 🤣
если были такие прецеденты, расскажите, пожалуйста)

upd: рекомендации юристов по global talent тоже очень приветствуются
😁29🔥5😱4👏2👍1🤔1