Naumov Blog | Леша и Gen AI – Telegram
Naumov Blog | Леша и Gen AI
34 subscribers
17 photos
12 videos
6 links
Йо! Я Леша - founding Gen AI Lead в Unreal Labs - мы делаем видео рекламу с помощью AI, а еще в нас проинвестировала Sequia.
Я дурею с мира генерации и обработки картинок/видео и люблю разрабоку продуктов.
www.helles.dev
x.com/hellesgrind
@aleksei_conf
Download Telegram
Новая моделька для модификации видео - Luma Ray3 🎬

Погонял Ray3 modify и хочу поделиться — инструмент интересный, AI слоп выдает часто но есть амбиции, тч решил собрать свои наблюдения.

три способа как я его использую:

1. свап персонажа/одежды — модифицирую первый фрейм через nano banana pro, потом скармливаю оригинальное видео как референс
2. смена фона/локации — аналогично, просто меняю сцену на первом кадре
3. чисто промптовые изменения — стилевые сдвиги, добавление эффектов and so on — без редактирования картинки вообще

сам воркфлоу:
1. Идем на сайт Luma Labs AI → Ray3 modify video
2. загружаем видос видео
3. либо модифицированный первый фрейм, либо просто промпт

мои впечатления после тестирования:
- качество — как повезёт, артефакты бывают заметные, далеко от Kling O1, Kling Motion Control или Wan Animate
- prompt-only штуки на удивление неплохо работают для фонов, персонажей, эффектов (типа "add flame effects")
- камерные эффекты бывают кинематографичные
- для более чистых свапов костюмов/персонажей/фонов советую сначала прогнать первый фрейм через nano banana

Из минусов — артефакты и нестабильность, AI слоп есть всегда, только иногда меньше, а иногда больше, тч модель ещё сырая. Но радует что на рыночке AI эдитинга видео появляется все больше моделей, конкуренция растет и разработчики шевелятся, верю что в этом году мы увидим достойный эдитинг видосов длиной до 15 сек на уровне image-editing Nano Banana Pro.
❤‍🔥1🔥1
Channel name was changed to «hellesgrind | Леша и Gen AI»
LTX-2 🎬

Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.

Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:

→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами

Скорость работы — офигенная, реально blazingly fast.


TEXT-TO-VIDEO & IMAGE-TO-VIDEO

Где попробовать: fal.ai или wavespeed.ai

Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2

Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"

Из минусов — голос пока никак не контролируется вообще.

А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291

VIDEO-TO-VIDEO

Тут интересно — три разных режима контроля:

→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight

По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.

Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai

ИТОГО

Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.

Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤‍🔥42🔥2
Channel name was changed to «Naumov Blog | Леша и Gen AI»
Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт

Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону

Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution
🔥21