Wan-S2V: Audio-Driven Cinematic Video Generation
Релиз обещанного видеогенератора, который принимает на вход картинку и звук
Архитектурно - совет экспертов ( #MoE )
Как видим, умеет работать с диалогами и пением
Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем
До появления компактных версий и обновок от Kijai 5... 4... 3...
Спасибо @iNevestenko
#image2video #audio2video #referencing #wan22
Релиз обещанного видеогенератора, который принимает на вход картинку и звук
Архитектурно - совет экспертов ( #MoE )
Как видим, умеет работать с диалогами и пением
Гитхаб
HF
Демо
Офсайт - пока не вижу его там, ждем
До появления компактных версий и обновок от Kijai 5... 4... 3...
Спасибо @iNevestenko
#image2video #audio2video #referencing #wan22
🔥15👍2❤1😁1
Nano-banana только что релизнули в Gemini 2.5 Flash
Доступно для граждан правильной страны в gemini app и Google AI Studio
Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию
Спасибо @iNevestenko
#imageediting #sota
Доступно для граждан правильной страны в gemini app и Google AI Studio
Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию
Спасибо @iNevestenko
#imageediting #sota
🔥12👍2❤1
Нейронавт | Нейросети в творчестве
WAN тизерит WAN2.2-S2V - кинематографичный генератор видео по звуку Спасибо @iNevestenko #news
Nano-banana еще днем появился в списке моделей редактирования в Krea.ai
На бесплатном тарифе недоступен
В Fal.ai тоже есть
#news
На бесплатном тарифе недоступен
В Fal.ai тоже есть
#news
👍4
Нейронавт | Нейросети в творчестве
Nano-banana только что релизнули в Gemini 2.5 Flash Доступно для граждан правильной страны в gemini app и Google AI Studio Бежим творить у кого есть доступ. Притворитесь что вы в США и ломитесь в студию Спасибо @iNevestenko #imageediting #sota
В комментах есть способ получить доступ для рисковых, через hosts
Кидайте сюда свои нанобанановые тесты и творения. Он не всемогущ, найдем его слабости и сильности
#neuronaut_art
Кидайте сюда свои нанобанановые тесты и творения. Он не всемогущ, найдем его слабости и сильности
#neuronaut_art
👍9
Нейронавт | Нейросети в творчестве
5... 4... 3...
2... 1... 0...
Wan2_2-S2V-14B_fp8_e4m3fn_scaled_KJ
Забираем Wan-S2V, 18.5 Гб
#image2video #audio2video #referencing #wan22
Wan2_2-S2V-14B_fp8_e4m3fn_scaled_KJ
Забираем Wan-S2V, 18.5 Гб
#image2video #audio2video #referencing #wan22
huggingface.co
Kijai/WanVideo_comfy_fp8_scaled at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥11😱2👍1
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
Обновилась линейка мультимодальных моделей InternVL от OpenGVlab
От 1.1B до 241B параметров
— разделяет обработку визуальной и языковой информации для оптимизации нагрузки
— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией
— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)
— конкурирует с коммерческими моделями вроде GPT-5
Веса
Гитхаб
Попробовать в чате
#vlm #agent
Обновилась линейка мультимодальных моделей InternVL от OpenGVlab
От 1.1B до 241B параметров
— разделяет обработку визуальной и языковой информации для оптимизации нагрузки
— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией
— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)
— конкурирует с коммерческими моделями вроде GPT-5
Веса
Гитхаб
Попробовать в чате
#vlm #agent
👍8❤1
lipsync-2-pro: studio-grade lipsync in minutes
Новая версия говорилки с липсинком от sync.so
Умеет клонировать голос, делает липсинк видео
В режиме Pro есть таймлиния
Бесплатного тарифа нет, но дают попробовать
Спасибо @m_franz
#lipsync #tts #text2speech #voicecloning
Новая версия говорилки с липсинком от sync.so
Умеет клонировать голос, делает липсинк видео
В режиме Pro есть таймлиния
Бесплатного тарифа нет, но дают попробовать
Спасибо @m_franz
#lipsync #tts #text2speech #voicecloning
👍10
Нейронавт | Нейросети в творчестве
lipsync-2-pro: studio-grade lipsync in minutes Новая версия говорилки с липсинком от sync.so Умеет клонировать голос, делает липсинк видео В режиме Pro есть таймлиния Бесплатного тарифа нет, но дают попробовать Спасибо @m_franz #lipsync #tts #text2speech…
This media is not supported in your browser
VIEW IN TELEGRAM
😁11
Обновки в #ComfyUI
Nano-banana via ComfyUI API Nodes!
Поддержка нанобанана через API nodes
———————————
Day-1 Support of Qwen-Image InstantX ControlNet
Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе
воркфлоу
Обновляем комфи и пользуемся
#imageediting #text2image #controlnet #workflow
Nano-banana via ComfyUI API Nodes!
Поддержка нанобанана через API nodes
———————————
Day-1 Support of Qwen-Image InstantX ControlNet
Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе
воркфлоу
Обновляем комфи и пользуемся
#imageediting #text2image #controlnet #workflow
❤4👍4
MV-RAG: Retrieval Augmented Multiview Diffusion
Метод генерации 3D по тексту, который использует 2D-изображения в качестве ориентира для модели диффузии с несколькими видами.
Сначала находит в базе подходящие референсные изображения, затем генерирует разные ракурсы.
Авторы явно пишут что модель генерирует 3D объекты, при этом показывают новые ракурсы, а не 3D. Но ставим плюсик за то что проект заточен на реализм и согласованность изображений объектов, обычно редко встречающихся в датасетах.
Код
#novelview
Метод генерации 3D по тексту, который использует 2D-изображения в качестве ориентира для модели диффузии с несколькими видами.
Сначала находит в базе подходящие референсные изображения, затем генерирует разные ракурсы.
Авторы явно пишут что модель генерирует 3D объекты, при этом показывают новые ракурсы, а не 3D. Но ставим плюсик за то что проект заточен на реализм и согласованность изображений объектов, обычно редко встречающихся в датасетах.
Код
#novelview
🔥5❤1👍1
Hermes 4
LLM на базе Llama-3.1-405B с гибридным режимом рассуждений от Nous Research
— избегает назидательности и подхалимства
— хорош в математике, программировании, STEM, логике, творческом письме и субъективных ответах
— обучен создавать валидный JSON по заданным схемам и исправлять некорректные объекты
— легче поддаётся управлению и выравниванию, имеет сниженные показатели отказа
— поддерживает вызовы функций и использование инструментов в рамках одного хода ассистента
— способен адаптироваться к дополнительным системным инструкциям, изменяя стиль, формат и подход к решению задач
— работает с разными форматами чата
— сохраняет воспоминания для использования в разных моделях
70B и 405B параметров. Есть полные и FP8 веса
Попробовать в чате - чат шикарный, с настройками, но GUI тормозной
HF
#assistant #chat
LLM на базе Llama-3.1-405B с гибридным режимом рассуждений от Nous Research
— избегает назидательности и подхалимства
— хорош в математике, программировании, STEM, логике, творческом письме и субъективных ответах
— обучен создавать валидный JSON по заданным схемам и исправлять некорректные объекты
— легче поддаётся управлению и выравниванию, имеет сниженные показатели отказа
— поддерживает вызовы функций и использование инструментов в рамках одного хода ассистента
— способен адаптироваться к дополнительным системным инструкциям, изменяя стиль, формат и подход к решению задач
— работает с разными форматами чата
— сохраняет воспоминания для использования в разных моделях
70B и 405B параметров. Есть полные и FP8 веса
Попробовать в чате - чат шикарный, с настройками, но GUI тормозной
HF
#assistant #chat
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
Новая версия оживлятора от ByteDance, снова без кода
На вход подаем картинку и аудиозапись речи. На выходе - видео
Модель использует теорию когнитивного мышления «Система 1 и Система 2», объединяя мультимодальную языковую модель и диффузионный трансформер для имитации двух режимов мышления: медленного, обдуманного планирования и быстрого, интуитивного реагирования.
— согласует анимацию с ритмом, просодией и семантическим содержанием речи
— Контроль генерации, движения камеры и конкретных действий через текстовые промпты
— Умеет создавать мультиперсонажные сцены, сам распределяет аудиодорожки
Такое добро — и только посмотреть. Это так несправедливо. Какое несчастье🤩
#lipsync #speech2video #characteranimation #portraitanimation #avatar #research
Новая версия оживлятора от ByteDance, снова без кода
На вход подаем картинку и аудиозапись речи. На выходе - видео
Модель использует теорию когнитивного мышления «Система 1 и Система 2», объединяя мультимодальную языковую модель и диффузионный трансформер для имитации двух режимов мышления: медленного, обдуманного планирования и быстрого, интуитивного реагирования.
— согласует анимацию с ритмом, просодией и семантическим содержанием речи
— Контроль генерации, движения камеры и конкретных действий через текстовые промпты
— Умеет создавать мультиперсонажные сцены, сам распределяет аудиодорожки
Такое добро — и только посмотреть. Это так несправедливо. Какое несчастье
#lipsync #speech2video #characteranimation #portraitanimation #avatar #research
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10
ComfyUI-VibeVoice
Ноды голосовой модели VibeVoice
воркфлоу
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
Ноды голосовой модели VibeVoice
воркфлоу
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
🔥11
Поделюсь рефералками
Фигню рекламировать самому было бы зашквар, делюсь тем чем доволен.
Т-мобайл. Пересел на него несколько лет назад и ни разу не пожалел. Трачу на связь вдвое меньше чем было там. Если подключитесь по моей ссылке, обещают закинуть денег на счет. А когда пополните на 500р - еще закинут вам и мне.
С экономией на связи есть нюанс, она максимальная с подпиской Pro в Т-банке. Подписка стоит 199 рублей в месяц, которые обычно покрываются кэшбеком. Ну и если закажете карту Black по моей ссылке, то и вам и мне дадут немного денег.
Вдруг кто собирался стать их клиентом — вам полезно, мне приятно.
Фигню рекламировать самому было бы зашквар, делюсь тем чем доволен.
Т-мобайл. Пересел на него несколько лет назад и ни разу не пожалел. Трачу на связь вдвое меньше чем было там. Если подключитесь по моей ссылке, обещают закинуть денег на счет. А когда пополните на 500р - еще закинут вам и мне.
С экономией на связи есть нюанс, она максимальная с подпиской Pro в Т-банке. Подписка стоит 199 рублей в месяц, которые обычно покрываются кэшбеком. Ну и если закажете карту Black по моей ссылке, то и вам и мне дадут немного денег.
Вдруг кто собирался стать их клиентом — вам полезно, мне приятно.
👍11👎9❤3
Опубликован код Uni3C - алибабаевского видеогенератора с контролем камеры и движения. Давно уже
Код
#image2video #cameracontrol #motioncontrol
Код
#image2video #cameracontrol #motioncontrol
Telegram
Нейронавт | Нейросети в творчестве
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation
Генератор видео по одной картинке от Alibaba.
С контролем камеры и движения человеков. Утверждают что именно контроль камеры и движение человеков у них лучше всех…
Генератор видео по одной картинке от Alibaba.
С контролем камеры и движения человеков. Утверждают что именно контроль камеры и движение человеков у них лучше всех…
👍10