Сосун
Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO месяц назад. Все эти системы должны работать так:
- У меня есть ГПУ, я закачиваю на нее модель, начинаю инференс. Люди смогут посылать запросы в сеть и они будут распределяться между такими же людьми как я. Деньги которые платят за токены люди будут распределены между владельцами ГПУ
А что насчет приватности? Как я могу быть уверен что владелец ГПУ не будет читать/сохранять мои запросы?
- С этим все гладко; Современные NVIDIA GPU оснащены Trusted Execution Environment который позволяют передавать данные на гпу в зашифрованом виде, и расшифровывать их уже в VRAM, используя ключ зашитый в TPM внутри карточки. Бай дизайн прочитать ваши запросы будет невозможно. Эта штука не должна добавлять значимый оверхед к скорости инференса
Как я могу гарантировать что провайдер реально инференсит ту модель что указано? Почему он не может запустить 8b вместо 70b или вообще отвечать случайными текстами
- С этим поможет модуль Hardware Root of Trust в nvidia карточках. Оно позволяет сделать Zero Knowledge Proof того что гпу выполняет именно ту модель и с теми параметрами что заявлено. Работает это очень не тривиальным образом (и по моему мнению это все довольно жидко), но есть что есть. Так же можно использовать стандартный для крипты подход - ты замораживаешь большое число денег как залог. Очень маленькое количество генераций верефицируется другими участниками, если другие пруфят что ты обманывал сеть твой залог забирают.
Подробнее про это можно почитать тут или спросить в коментах
Неужели все настолько хорошо?
- Пока не очень понятен конкурентное преемущество этой штуки над например опенроутером. По цене токены продают очень близко к себестоимости ГПУ часа, так что оно не выйдет сильно дешевле. Демпинга засчет дешевых косьюмерских карт тоже не будет, все эти новомодные чипы есть только в H100+ карточках. Разве уж вопрос прайваси остается, но кажется что текущее законодательство пока не очень готово к подобным системам.
Если вы видите какой то классный юзкейс у этого всего буду рад прочитать в комментах
Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO месяц назад. Все эти системы должны работать так:
- У меня есть ГПУ, я закачиваю на нее модель, начинаю инференс. Люди смогут посылать запросы в сеть и они будут распределяться между такими же людьми как я. Деньги которые платят за токены люди будут распределены между владельцами ГПУ
А что насчет приватности? Как я могу быть уверен что владелец ГПУ не будет читать/сохранять мои запросы?
- С этим все гладко; Современные NVIDIA GPU оснащены Trusted Execution Environment который позволяют передавать данные на гпу в зашифрованом виде, и расшифровывать их уже в VRAM, используя ключ зашитый в TPM внутри карточки. Бай дизайн прочитать ваши запросы будет невозможно. Эта штука не должна добавлять значимый оверхед к скорости инференса
Как я могу гарантировать что провайдер реально инференсит ту модель что указано? Почему он не может запустить 8b вместо 70b или вообще отвечать случайными текстами
- С этим поможет модуль Hardware Root of Trust в nvidia карточках. Оно позволяет сделать Zero Knowledge Proof того что гпу выполняет именно ту модель и с теми параметрами что заявлено. Работает это очень не тривиальным образом (и по моему мнению это все довольно жидко), но есть что есть. Так же можно использовать стандартный для крипты подход - ты замораживаешь большое число денег как залог. Очень маленькое количество генераций верефицируется другими участниками, если другие пруфят что ты обманывал сеть твой залог забирают.
Подробнее про это можно почитать тут или спросить в коментах
Неужели все настолько хорошо?
- Пока не очень понятен конкурентное преемущество этой штуки над например опенроутером. По цене токены продают очень близко к себестоимости ГПУ часа, так что оно не выйдет сильно дешевле. Демпинга засчет дешевых косьюмерских карт тоже не будет, все эти новомодные чипы есть только в H100+ карточках. Разве уж вопрос прайваси остается, но кажется что текущее законодательство пока не очень готово к подобным системам.
Если вы видите какой то классный юзкейс у этого всего буду рад прочитать в комментах
❤16👍10😁5🤡2
ML physicist
Сосун Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO…
По итогу после 2 месяцев после запуска
1) поддерживаются 3 модели
2) баланс воркеров составляет где то 15 USD
3) 1 H100 приносит где то 1.85 TON / moth (<5 usd в месяц)
4) всего сейчас 3 клиента, 20 воркеров
Какой то school project vibe у этой штуки сильный, юзкейс совсем не понятен, ей и не пользуются.
1) поддерживаются 3 модели
2) баланс воркеров составляет где то 15 USD
3) 1 H100 приносит где то 1.85 TON / moth (<5 usd в месяц)
4) всего сейчас 3 клиента, 20 воркеров
Какой то school project vibe у этой штуки сильный, юзкейс совсем не понятен, ей и не пользуются.
🤔12🤡6❤4😁3
ByteDance выложили DreamID-V - open-source модель для face swap на видео (Twitter)
Главная проблема face swap в том что нет ground truth - когда меняешь лицо A на видео B, ты не знаешь как "правильный" результат должен выглядеть. Поэтому все предыдущие модели учились на implicit supervision (ID loss + reconstruction loss по отдельности) и результаты так себе.
DreamID решает это хитро:
1) Берут два изображения одного человека: A₁ и A₂
2) Берут изображение другого человека: B
3) Существующим фейссвапом на основе GAN - меняют лицо A₂ на B, получая псевдо-цель B̃
Теперь тройка (A₁, B̃, A₂) даёт явный ground truth: если заменить лицо на B̃ идентичностью A₁, результат должен быть A₂ (реальное фото!).
4) При этом мы не обучаемся на аутпутах старого фейссвапа (и модель бьет его по метрикам в несколько раз) - ведь наш таргет это реальное изображение A₂ - а синтетический только инпут
Потыкал - качество так себе, основная проблема в гармонизации: модель довольно топорно вклеивает лица, сразу видно что что-то не так (см. скрин). Освещение не матчится, выглядит как плохой фотошоп в некоторых кейсах (хотя иногда работает отлично)
Мне посоветовали FlashPortrait - там с этим сильно лучше. Но он на Wan 14B, а DreamID-V работает на 1.3B модельке
А 1.3B это очень мало (тем более там требуется 1 шаг диффузии благодоря турбо лоры) - такое реально запустить в realtime на обычной 4090. Так что очень скоро у нас будут дешёвые realtime дипфейки в открытом доступе
Главная проблема face swap в том что нет ground truth - когда меняешь лицо A на видео B, ты не знаешь как "правильный" результат должен выглядеть. Поэтому все предыдущие модели учились на implicit supervision (ID loss + reconstruction loss по отдельности) и результаты так себе.
DreamID решает это хитро:
1) Берут два изображения одного человека: A₁ и A₂
2) Берут изображение другого человека: B
3) Существующим фейссвапом на основе GAN - меняют лицо A₂ на B, получая псевдо-цель B̃
Теперь тройка (A₁, B̃, A₂) даёт явный ground truth: если заменить лицо на B̃ идентичностью A₁, результат должен быть A₂ (реальное фото!).
4) При этом мы не обучаемся на аутпутах старого фейссвапа (и модель бьет его по метрикам в несколько раз) - ведь наш таргет это реальное изображение A₂ - а синтетический только инпут
Потыкал - качество так себе, основная проблема в гармонизации: модель довольно топорно вклеивает лица, сразу видно что что-то не так (см. скрин). Освещение не матчится, выглядит как плохой фотошоп в некоторых кейсах (хотя иногда работает отлично)
Мне посоветовали FlashPortrait - там с этим сильно лучше. Но он на Wan 14B, а DreamID-V работает на 1.3B модельке
А 1.3B это очень мало (тем более там требуется 1 шаг диффузии благодоря турбо лоры) - такое реально запустить в realtime на обычной 4090. Так что очень скоро у нас будут дешёвые realtime дипфейки в открытом доступе
🔥5❤4🤯3👍2🥰2
За эту неделю решил максимально сильно разобраться в возможностях современных видеогенераторов (в основном WAN, так как только он опенсурс приемлемого качества)
Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)
Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)
Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.
Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)
Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)
Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.
❤4👍1🔥1
Forwarded from Naumov Blog | Леша и Gen AI
йоу! я долго молчал про то чем занимаюсь — пора исправляться.
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
🔥20❤7💩3