Magma: A Foundation Model for Multimodal AI Agents
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
👍9
SANA FOR WINDOWS
Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12
Гитхаб
#text2image
Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12
Гитхаб
#text2image
🔥3👍2
Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое
В коментах ответ
Демо
#text2image #variation #slider
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое
В коментах ответ
Демо
#text2image #variation #slider
🤔3👍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
К вопросу про оцифровку актеров.
На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.
Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)
50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.
Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.
Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.
Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.
@cgevent
На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.
Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)
50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.
Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.
Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.
Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.
@cgevent
👍3🤔1
Объявляю субботнюю проверку мемов. Кто за неделю не залутал ни одного мема - для чего ты работал целую неделю?
#humor
#humor
😁37👍3👎2🤮2💩2
VideoLingo
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subnoscripts #text2speech #speech2text #tts #stt
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subnoscripts #text2speech #speech2text #tts #stt
👍8
Нейронавт | Нейросети в творчестве
CameraHMR: Aligning People with Perspective Реконструкция 3D позы и формы человека по одному изображению или видео с учетом перспективы камеры Есть 4 ключевых фактора, которые делают его точным и надежным: 1. Чтобы получить точную 3D-форму и позу, а также…
This media is not supported in your browser
VIEW IN TELEGRAM
WHAC: World-grounded Humans and Cameras
Реконструкция позы и меша человека, а также ракурса/движения камеры (трекинг) по одному монокулярному (не стерео) видео
За позу отвечает SMPLest-X
Код
#video2pose #video2mesh #videoto3d #tracking #poseestimation #humanreconstruction
Реконструкция позы и меша человека, а также ракурса/движения камеры (трекинг) по одному монокулярному (не стерео) видео
За позу отвечает SMPLest-X
Код
#video2pose #video2mesh #videoto3d #tracking #poseestimation #humanreconstruction
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
GoWithTheFlow
Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow
Веса
ComfyUI-VideoNoiseWarp
#motiontransfer #motion2video
Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow
Веса
ComfyUI-VideoNoiseWarp
#motiontransfer #motion2video
👍20🔥2
Claude 3.7 Sonnet | Claude Code
Claude 3.7 Sonnet доступен даже бесплатным пользователям
Пробуем (притворитесь что вы не в РФ)
#news #assistant
Claude 3.7 Sonnet доступен даже бесплатным пользователям
Пробуем (притворитесь что вы не в РФ)
#news #assistant
🔥15😁2👍1
SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization
Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета
У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?
Код
Демо
#personalization #text2image
Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета
У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?
Код
Демо
#personalization #text2image
👍4🔥2🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский...freq[k-1]=(2*np.pi)/(L*s)
Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров
Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)
Код - прикручено к Hunyuan, планируют прикрутить к другим моделям
#text2video
Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский...
Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров
Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)
Код - прикручено к Hunyuan, планируют прикрутить к другим моделям
#text2video
🔥8😁5👍3🎃1