ML physicist – Telegram
ML physicist
2.38K subscribers
134 photos
11 videos
1 file
79 links
Download Telegram
ML physicist
Сосун Недавно Telegram прдеставили cocoon - децентрализованную сеть для инференса моделей LLM. Почти одновременно с ними (но не так громко) запустились еще 2 подобные сети - gonka.ai от Либерманов и Loyal который собрал сумашедшие 75 млн долларов на IDO…
По итогу после 2 месяцев после запуска

1) поддерживаются 3 модели
2) баланс воркеров составляет где то 15 USD
3) 1 H100 приносит где то 1.85 TON / moth (<5 usd в месяц)
4) всего сейчас 3 клиента, 20 воркеров

Какой то school project vibe у этой штуки сильный, юзкейс совсем не понятен, ей и не пользуются.
🤔12🤡64😁3
ByteDance выложили DreamID-V - open-source модель для face swap на видео (Twitter)

Главная проблема face swap в том что нет ground truth - когда меняешь лицо A на видео B, ты не знаешь как "правильный" результат должен выглядеть. Поэтому все предыдущие модели учились на implicit supervision (ID loss + reconstruction loss по отдельности) и результаты так себе.

DreamID решает это хитро:
1) Берут два изображения одного человека: A₁ и A₂
2) Берут изображение другого человека: B
3) Существующим фейссвапом на основе GAN - меняют лицо A₂ на B, получая псевдо-цель B̃
Теперь тройка (A₁, B̃, A₂) даёт явный ground truth: если заменить лицо на B̃ идентичностью A₁, результат должен быть A₂ (реальное фото!).
4) При этом мы не обучаемся на аутпутах старого фейссвапа (и модель бьет его по метрикам в несколько раз) - ведь наш таргет это реальное изображение A₂ - а синтетический только инпут

Потыкал - качество так себе, основная проблема в гармонизации: модель довольно топорно вклеивает лица, сразу видно что что-то не так (см. скрин). Освещение не матчится, выглядит как плохой фотошоп в некоторых кейсах (хотя иногда работает отлично)

Мне посоветовали FlashPortrait - там с этим сильно лучше. Но он на Wan 14B, а DreamID-V работает на 1.3B модельке

А 1.3B это очень мало (тем более там требуется 1 шаг диффузии благодоря турбо лоры) - такое реально запустить в realtime на обычной 4090. Так что очень скоро у нас будут дешёвые realtime дипфейки в открытом доступе
🔥54🤯3👍2🥰2
За эту неделю решил максимально сильно разобраться в возможностях современных видеогенераторов (в основном WAN, так как только он опенсурс приемлемого качества)

Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)

Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)

Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.
4👍1🔥1
йоу! я долго молчал про то чем занимаюсь — пора исправляться.

я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.

по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.

для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".

команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время

я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.

В общем эксайтед лютейше!
🔥207💩3