Naumov Blog | Леша и Gen AI – Telegram
Naumov Blog | Леша и Gen AI
30 subscribers
17 photos
12 videos
6 links
Йо! Я Леша - founding Gen AI Lead в Unreal Labs - мы делаем видео рекламу с помощью AI, а еще в нас проинвестировала Sequia.
Я дурею с мира генерации и обработки картинок/видео и люблю разрабоку продуктов.
www.helles.dev
x.com/hellesgrind
@aleksei_conf
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
йоу! я долго молчал про то чем занимаюсь — пора исправляться.

я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.

по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.

для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".

команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время

я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.

В общем эксайтед лютейше!
❤‍🔥3💩2🔥1
Новая моделька для модификации видео - Luma Ray3 🎬

Погонял Ray3 modify и хочу поделиться — инструмент интересный, AI слоп выдает часто но есть амбиции, тч решил собрать свои наблюдения.

три способа как я его использую:

1. свап персонажа/одежды — модифицирую первый фрейм через nano banana pro, потом скармливаю оригинальное видео как референс
2. смена фона/локации — аналогично, просто меняю сцену на первом кадре
3. чисто промптовые изменения — стилевые сдвиги, добавление эффектов and so on — без редактирования картинки вообще

сам воркфлоу:
1. Идем на сайт Luma Labs AI → Ray3 modify video
2. загружаем видос видео
3. либо модифицированный первый фрейм, либо просто промпт

мои впечатления после тестирования:
- качество — как повезёт, артефакты бывают заметные, далеко от Kling O1, Kling Motion Control или Wan Animate
- prompt-only штуки на удивление неплохо работают для фонов, персонажей, эффектов (типа "add flame effects")
- камерные эффекты бывают кинематографичные
- для более чистых свапов костюмов/персонажей/фонов советую сначала прогнать первый фрейм через nano banana

Из минусов — артефакты и нестабильность, AI слоп есть всегда, только иногда меньше, а иногда больше, тч модель ещё сырая. Но радует что на рыночке AI эдитинга видео появляется все больше моделей, конкуренция растет и разработчики шевелятся, верю что в этом году мы увидим достойный эдитинг видосов длиной до 15 сек на уровне image-editing Nano Banana Pro.
❤‍🔥1🔥1
Channel name was changed to «hellesgrind | Леша и Gen AI»
LTX-2 🎬

Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.

Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:

→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами

Скорость работы — офигенная, реально blazingly fast.


TEXT-TO-VIDEO & IMAGE-TO-VIDEO

Где попробовать: fal.ai или wavespeed.ai

Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2

Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"

Из минусов — голос пока никак не контролируется вообще.

А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291

VIDEO-TO-VIDEO

Тут интересно — три разных режима контроля:

→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight

По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.

Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai

ИТОГО

Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.

Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤‍🔥42🔥2
Channel name was changed to «Naumov Blog | Леша и Gen AI»
Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт

Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону

Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution
🔥1