This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-2 🎬
Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.
Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:
→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами
Скорость работы — офигенная, реально blazingly fast.
TEXT-TO-VIDEO & IMAGE-TO-VIDEO
Где попробовать: fal.ai или wavespeed.ai
Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2
Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"
Из минусов — голос пока никак не контролируется вообще.
А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291
VIDEO-TO-VIDEO
Тут интересно — три разных режима контроля:
→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight
По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.
Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai
ИТОГО
Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.
Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.
Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:
→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами
Скорость работы — офигенная, реально blazingly fast.
TEXT-TO-VIDEO & IMAGE-TO-VIDEO
Где попробовать: fal.ai или wavespeed.ai
Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2
Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"
Из минусов — голос пока никак не контролируется вообще.
А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291
VIDEO-TO-VIDEO
Тут интересно — три разных режима контроля:
→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight
По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.
Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai
ИТОГО
Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.
Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤🔥4❤2🔥2
Фановая штука - персы из Stranger Things with literally me!
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт
Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону
aistudio.google.com -> выбираем nano banana pro -> грузим селфи + промпт
Просим ChatGPT написать промпты под ваши любимые серии Смешариков по этому шаблону
Make a miniature, full-body, isometric, realistic figurine of this person, wearing ABC, doing XYZ, on a white background, minimal, 4K resolution
🔥2❤1
там higgsfield выкатили прикольную фичу для добавления эффектов на видео
Хоть штука кажется и очень простой, но толком не найти моделек/процессинг апи, которые добавят эффекты на видосы
Мне нрав картинка! Но цена какая-то неадекватно высокая - получается порядка нескольких $ за видосик, если делать 24 фпс. Видимо они делают nano banana обработку для каждого фрейма и сшивают в видео - отсюда и цена как крыло боинга
Хоть штука кажется и очень простой, но толком не найти моделек/процессинг апи, которые добавят эффекты на видосы
Мне нрав картинка! Но цена какая-то неадекватно высокая - получается порядка нескольких $ за видосик, если делать 24 фпс. Видимо они делают nano banana обработку для каждого фрейма и сшивают в видео - отсюда и цена как крыло боинга
🔥1
мой коллега и товарищ @maxon_ans_cs на этой неделе пошарил очень крутой воркфлоу для claude code, который я протестил вчера.
Промпт ниже.
Описываем Claude таску и просим проинтервьюировать вас
После этого клод будет задавать 500 тыс вопросов, по итогу интервью просим написать план, который кормим на вход в новой сессии.
Сегодня эта штука помогла мне заваншотить очень большую фичу (хоть и ценой PR с git diff размером с штат Техас - о чем в последствии я сильно пожалел)
Промпт:
Промпт ниже.
Описываем Claude таску и просим проинтервьюировать вас
После этого клод будет задавать 500 тыс вопросов, по итогу интервью просим написать план, который кормим на вход в новой сессии.
Сегодня эта штука помогла мне заваншотить очень большую фичу (хоть и ценой PR с git diff размером с штат Техас - о чем в последствии я сильно пожалел)
Промпт:
interview me in detail using the AskUserQuestionTool about literally anything: technical implementation, UI & UX, concerns, tradeoffs, etc. but make sure the questions are not obvious be very in-depth and continue interviewing me continually until it's complete, then write the spec to the file.
❤2🔥2