Naumov Blog | Леша и Gen AI – Telegram
Naumov Blog | Леша и Gen AI
36 subscribers
18 photos
15 videos
6 links
Йо! Я Леша - founding Gen AI Lead в Unreal Labs - мы делаем видео рекламу с помощью AI, а еще в нас проинвестировала Sequia.
Я дурею с мира генерации и обработки картинок/видео и люблю разрабоку продуктов.
www.helles.dev
x.com/hellesgrind
@aleksei_conf
Download Telegram
Channel name was changed to «hellesgrind | Леша и Gen AI»
LTX-2 🎬

Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.

Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:

→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами

Скорость работы — офигенная, реально blazingly fast.


TEXT-TO-VIDEO & IMAGE-TO-VIDEO

Где попробовать: fal.ai или wavespeed.ai

Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2

Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"

Из минусов — голос пока никак не контролируется вообще.

А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291

VIDEO-TO-VIDEO

Тут интересно — три разных режима контроля:

→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight

По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.

Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai

ИТОГО

Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.

Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤‍🔥42🔥2
Channel name was changed to «Naumov Blog | Леша и Gen AI»
Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт

Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону

Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution
🔥21
там higgsfield выкатили прикольную фичу для добавления эффектов на видео
Хоть штука кажется и очень простой, но толком не найти моделек/процессинг апи, которые добавят эффекты на видосы
Мне нрав картинка! Но цена какая-то неадекватно высокая - получается порядка нескольких $ за видосик, если делать 24 фпс. Видимо они делают nano banana обработку для каждого фрейма и сшивают в видео - отсюда и цена как крыло боинга
🔥1
мой коллега и товарищ @maxon_ans_cs на этой неделе пошарил очень крутой воркфлоу для claude code, который я протестил вчера.
Промпт ниже.
Описываем Claude таску и просим проинтервьюировать вас
После этого клод будет задавать 500 тыс вопросов, по итогу интервью просим написать план, который кормим на вход в новой сессии.

Сегодня эта штука помогла мне заваншотить очень большую фичу (хоть и ценой PR с git diff размером с штат Техас - о чем в последствии я сильно пожалел)

Промпт:

interview me in detail using the AskUserQuestionTool about literally anything: technical implementation, UI & UX, concerns, tradeoffs, etc. but make sure the questions are not obvious be very in-depth and continue interviewing me continually until it's complete, then write the spec to the file.
2🔥2