Когда я рассказываю людям не работающим с Gen AI, что работаю с генерацией картинок и видео один из первых вопросов которые я слышу: "а где мне погонять модельки для генерации видосиков и картиночек?" и "а какие модели сейчас самые топовые?"
В общем решил собрать ключевые платформы тута - сразу скажу их совсем не так много как может показаться
fal.ai - одурительный агрегатор моделек и API провайдер, есть почти все модели которые сейчас актуальны - от генерации и обработки картинок условной Nano Banana до генерации видео Kling'ом, липсинк видео-аватаров и музяки, они дружат с всеми разрабами foundational моделек и собирают их в едином месте. Есть вкладка "explore" на которой постоянно обновляются топы новых моделей - я часто использую эту вкладку чтобы держать руку на пульсе новых релизов и быстро тестить. А если вы Engineering bro - у них очень стабильное и быстрое АПИ, делают хорошие инженеры - в общем гуд и потестить и в прод катануть потом в свой продукт. Из минусов - UI не самый френдли для non-technical.
replicate.com - аналогичная fal'у история, но они работают по модели а-ля маркетплейс - любой юзер может разместить свою модельку у них. Это порождает большое количество специфических клевых воркфлоу (типа моделька которая делает фейссвоп на gif'ке), у них также есть все текущие важные модели типа nano banana, kling, veo and so on.
Из минусов для разрабов - API у них чахлое, стабильность маленькая, скорость генерации непредсказуемая и в целом SDK более сырое. Но иногда они неизбежная необходимость тк порой там можно найти то, что в других местах не найти.
Платформы для обычных chill guys которые хотят поиграться с модельками типа nano banana, sora, veo и тд и не упарываться в непривычные инженерные интерфейсы:
higgsfield.ai/ - очень много негативного слышал что они дурят с подписками и тд, но сам лично их юзаю и пока не втыкался в проблемы
freepik.com/ - альтернатива higgsfield, есть куча всего нужного
krea.ai - офигенский мульти-тул - есть и nano banana, и генерация видео самыми нужными модельками, и даже апскейлинг видео через Topaz - рекомендую. Недавно выкатили API!
runwayml.com/ - RunWay - делает одну из лучших моделек для видеогенерации, которую полноценно можно погонять только у них, помимо этого на их платформе есть куча прикольных фичей типа "video eraser"/"expand video"/"change lighting" и тд
runcomfy.com/ - если вам хочется познать ад работы с ComfyUI один из самых простых способов познакомиться с ним это платформы вроде этой, из плюсов этой тулы - там можно строить сколь-угодно сложные мультишаговые воркфлоу, соединяющие множество моделек для пост/пре процессинга, генерации и так далее. А еще можете загуглить "comfyui workflows" и провалиться в rabbit-hole разных воркфлоу с танцующими девочками из тиктока и прочего аниме.
suno.com - если хочется погенерить музычки!
hedra.com - если хочется погенерить болтающие бошки!
Пост уже получился некоротким, а рассказать еще много о чем хочется!
В следующих сериях - что сейчас есть "лучшие" модельки и как я их нахожу!
В общем решил собрать ключевые платформы тута - сразу скажу их совсем не так много как может показаться
fal.ai - одурительный агрегатор моделек и API провайдер, есть почти все модели которые сейчас актуальны - от генерации и обработки картинок условной Nano Banana до генерации видео Kling'ом, липсинк видео-аватаров и музяки, они дружат с всеми разрабами foundational моделек и собирают их в едином месте. Есть вкладка "explore" на которой постоянно обновляются топы новых моделей - я часто использую эту вкладку чтобы держать руку на пульсе новых релизов и быстро тестить. А если вы Engineering bro - у них очень стабильное и быстрое АПИ, делают хорошие инженеры - в общем гуд и потестить и в прод катануть потом в свой продукт. Из минусов - UI не самый френдли для non-technical.
replicate.com - аналогичная fal'у история, но они работают по модели а-ля маркетплейс - любой юзер может разместить свою модельку у них. Это порождает большое количество специфических клевых воркфлоу (типа моделька которая делает фейссвоп на gif'ке), у них также есть все текущие важные модели типа nano banana, kling, veo and so on.
Из минусов для разрабов - API у них чахлое, стабильность маленькая, скорость генерации непредсказуемая и в целом SDK более сырое. Но иногда они неизбежная необходимость тк порой там можно найти то, что в других местах не найти.
Платформы для обычных chill guys которые хотят поиграться с модельками типа nano banana, sora, veo и тд и не упарываться в непривычные инженерные интерфейсы:
higgsfield.ai/ - очень много негативного слышал что они дурят с подписками и тд, но сам лично их юзаю и пока не втыкался в проблемы
freepik.com/ - альтернатива higgsfield, есть куча всего нужного
krea.ai - офигенский мульти-тул - есть и nano banana, и генерация видео самыми нужными модельками, и даже апскейлинг видео через Topaz - рекомендую. Недавно выкатили API!
runwayml.com/ - RunWay - делает одну из лучших моделек для видеогенерации, которую полноценно можно погонять только у них, помимо этого на их платформе есть куча прикольных фичей типа "video eraser"/"expand video"/"change lighting" и тд
runcomfy.com/ - если вам хочется познать ад работы с ComfyUI один из самых простых способов познакомиться с ним это платформы вроде этой, из плюсов этой тулы - там можно строить сколь-угодно сложные мультишаговые воркфлоу, соединяющие множество моделек для пост/пре процессинга, генерации и так далее. А еще можете загуглить "comfyui workflows" и провалиться в rabbit-hole разных воркфлоу с танцующими девочками из тиктока и прочего аниме.
suno.com - если хочется погенерить музычки!
hedra.com - если хочется погенерить болтающие бошки!
Пост уже получился некоротким, а рассказать еще много о чем хочется!
В следующих сериях - что сейчас есть "лучшие" модельки и как я их нахожу!
❤🔥1🔥1
Как я нахожу новые топовые модельки
1. Explore табы на агрегаторах
Регулярно чекаю Explore секции на fal.ai/explore, replicate.com/explore и wavespeed.ai — большие релизы там появляются быстро. Плюс иногда натыкаешься на мелкие но полезные тулзы типа "video remove anything". Из минусов — очень нишевые модельки туда приходят поздно, или вообще никогда.
2. Фолловлю билдеров моделей напрямую
Слежу за командами и девелоперами типа Kling, Runway, Wan Lab, @topazlabs, @bria_ai_ в X — они часто шипят мелкие sub-модели или тулзы которые живут только на их платформах или в опенсорсе. Если выглядит годно — просто юзаю их API или деплою сам на runpod.io или через fal
3. Gen-AI шаманы в X и YouTube
X и YouTube — вот где появляется реально странное и крутое. Так нахожу супер нишевые, часто опенсорсные модельки и воркфлоу которые никогда не доходят до больших API платформ. Некоторые из лучших штуковин которые я юзаю — оттуда. Лично нашел так воркфлоу для Wan Animate и Video Eraser которые по качеству в 500 раз круче чем все что находил в паблик доступе.
Примеры таких хоуми:
https://www.youtube.com/watch?v=pwA44IRI9tA
https://x.com/wildmindai
4. Сайты с ComfyUI воркфлоу
ComfyUI — это прикормка с которой как раз дуреют эти gen ai энтузиасты. И на сайтах с воркфлоу можно найти пайплайны для задач типа "сгенери этот TikTok танцующее видео но со Шреком".
Линки:
cloud.comfy.org
openart.a
5. hype.replicate.dev
Недооценённая штука! Офигенское место чтобы находить кастомные билды и опенсорсные эксперименты которые не получают шума нигде больше.
6. Hugging Face Spaces
Особенно LoRA Spaces для image моделей. Кликаешь одну, потом другую — и ты залип на уровне с рилсами.
1. Explore табы на агрегаторах
Регулярно чекаю Explore секции на fal.ai/explore, replicate.com/explore и wavespeed.ai — большие релизы там появляются быстро. Плюс иногда натыкаешься на мелкие но полезные тулзы типа "video remove anything". Из минусов — очень нишевые модельки туда приходят поздно, или вообще никогда.
2. Фолловлю билдеров моделей напрямую
Слежу за командами и девелоперами типа Kling, Runway, Wan Lab, @topazlabs, @bria_ai_ в X — они часто шипят мелкие sub-модели или тулзы которые живут только на их платформах или в опенсорсе. Если выглядит годно — просто юзаю их API или деплою сам на runpod.io или через fal
3. Gen-AI шаманы в X и YouTube
X и YouTube — вот где появляется реально странное и крутое. Так нахожу супер нишевые, часто опенсорсные модельки и воркфлоу которые никогда не доходят до больших API платформ. Некоторые из лучших штуковин которые я юзаю — оттуда. Лично нашел так воркфлоу для Wan Animate и Video Eraser которые по качеству в 500 раз круче чем все что находил в паблик доступе.
Примеры таких хоуми:
https://www.youtube.com/watch?v=pwA44IRI9tA
https://x.com/wildmindai
4. Сайты с ComfyUI воркфлоу
ComfyUI — это прикормка с которой как раз дуреют эти gen ai энтузиасты. И на сайтах с воркфлоу можно найти пайплайны для задач типа "сгенери этот TikTok танцующее видео но со Шреком".
Линки:
cloud.comfy.org
openart.a
5. hype.replicate.dev
Недооценённая штука! Офигенское место чтобы находить кастомные билды и опенсорсные эксперименты которые не получают шума нигде больше.
6. Hugging Face Spaces
Особенно LoRA Spaces для image моделей. Кликаешь одну, потом другую — и ты залип на уровне с рилсами.
❤2🔥1
йоу! я долго молчал про то чем занимаюсь — пора исправляться.
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
❤🔥3💩2🔥1
Новая моделька для модификации видео - Luma Ray3 🎬
Погонял Ray3 modify и хочу поделиться — инструмент интересный, AI слоп выдает часто но есть амбиции, тч решил собрать свои наблюдения.
три способа как я его использую:
1. свап персонажа/одежды — модифицирую первый фрейм через nano banana pro, потом скармливаю оригинальное видео как референс
2. смена фона/локации — аналогично, просто меняю сцену на первом кадре
3. чисто промптовые изменения — стилевые сдвиги, добавление эффектов and so on — без редактирования картинки вообще
сам воркфлоу:
1. Идем на сайт Luma Labs AI → Ray3 modify video
2. загружаем видос видео
3. либо модифицированный первый фрейм, либо просто промпт
мои впечатления после тестирования:
- качество — как повезёт, артефакты бывают заметные, далеко от Kling O1, Kling Motion Control или Wan Animate
- prompt-only штуки на удивление неплохо работают для фонов, персонажей, эффектов (типа "add flame effects")
- камерные эффекты бывают кинематографичные
- для более чистых свапов костюмов/персонажей/фонов советую сначала прогнать первый фрейм через nano banana
Из минусов — артефакты и нестабильность, AI слоп есть всегда, только иногда меньше, а иногда больше, тч модель ещё сырая. Но радует что на рыночке AI эдитинга видео появляется все больше моделей, конкуренция растет и разработчики шевелятся, верю что в этом году мы увидим достойный эдитинг видосов длиной до 15 сек на уровне image-editing Nano Banana Pro.
Погонял Ray3 modify и хочу поделиться — инструмент интересный, AI слоп выдает часто но есть амбиции, тч решил собрать свои наблюдения.
три способа как я его использую:
1. свап персонажа/одежды — модифицирую первый фрейм через nano banana pro, потом скармливаю оригинальное видео как референс
2. смена фона/локации — аналогично, просто меняю сцену на первом кадре
3. чисто промптовые изменения — стилевые сдвиги, добавление эффектов and so on — без редактирования картинки вообще
сам воркфлоу:
1. Идем на сайт Luma Labs AI → Ray3 modify video
2. загружаем видос видео
3. либо модифицированный первый фрейм, либо просто промпт
мои впечатления после тестирования:
- качество — как повезёт, артефакты бывают заметные, далеко от Kling O1, Kling Motion Control или Wan Animate
- prompt-only штуки на удивление неплохо работают для фонов, персонажей, эффектов (типа "add flame effects")
- камерные эффекты бывают кинематографичные
- для более чистых свапов костюмов/персонажей/фонов советую сначала прогнать первый фрейм через nano banana
Из минусов — артефакты и нестабильность, AI слоп есть всегда, только иногда меньше, а иногда больше, тч модель ещё сырая. Но радует что на рыночке AI эдитинга видео появляется все больше моделей, конкуренция растет и разработчики шевелятся, верю что в этом году мы увидим достойный эдитинг видосов длиной до 15 сек на уровне image-editing Nano Banana Pro.
❤🔥1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-2 🎬
Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.
Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:
→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами
Скорость работы — офигенная, реально blazingly fast.
TEXT-TO-VIDEO & IMAGE-TO-VIDEO
Где попробовать: fal.ai или wavespeed.ai
Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2
Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"
Из минусов — голос пока никак не контролируется вообще.
А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291
VIDEO-TO-VIDEO
Тут интересно — три разных режима контроля:
→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight
По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.
Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai
ИТОГО
Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.
Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
Всю неделю твиттер жужжит по поводу нового релиза LTX-2 — хайпа чересчур много, но моделька хоть и реально прикольная, генерит забавный слоп с высокой долей. Погонял несколько дней и хочу поделиться реальными впечатлениями.
Почему все на ушах
модель опен-сорсная, 19B параметров (15B видео + 4B аудио), и выдаёт:
→ 4K генерацию на 50 FPS
→ нативную аудио-генерацию
→ text2video, image2video И video2video с разными контролами
Скорость работы — офигенная, реально blazingly fast.
TEXT-TO-VIDEO & IMAGE-TO-VIDEO
Где попробовать: fal.ai или wavespeed.ai
Модель супер чувствительна к промптингу — если промптить плохо, генерит жуткий слоп. Тч обязательно смотреть примеры промптов на сайте LTX: ltx.io/model/ltx-2
Для речевой озвучки нужно прям в промпте писать "saying 'ВАШ ТЕКСТ СЮДА'"
Из минусов — голос пока никак не контролируется вообще.
А ещё советую чекнуть мой воркфлоу для генерации промптов: x.com/hellesgrind/status/2009555634727813291
VIDEO-TO-VIDEO
Тут интересно — три разных режима контроля:
→ Pose — меняй персонажа, фон, одежду
→ Canny — рестайл (превращай в cartoon style и тд)
→ Depth — relight
По моему опыту качество для кейсов замены персонажа хуже чем у Kling Motion — но зато разные варианты control есть, тч есть где поиграться.
Модель юзает ICLoRA для conditional control — чтобы получить хороший результат, лучше понимать как воркфлоу работает.
Проще всего запустить v2v и получить нормальный результат — через Comfy Cloud: blog.comfy.org/p/ltx-2-open-source-audio-video-ai
ИТОГО
Моделька пока не особо юзабельная в проде — качество как повезёт, артефакты сильные.
Но живость картинки порой реально впечатляет — и с такими опен-сорс релизами индустрия будет пушиться к тому, чтобы картинка уровня Sora стала стандартом среди всех модальностей: i2v, t2v и v2v.
❤🔥4❤2🔥2