Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Pikaswaps

У Pika опять новая фича

Заменяем на видео что угодно на что угодно

Попробовать

#videoediting #swap #video2video
🔥20👍4😁2
Magma: A Foundation Model for Multimodal AI Agents

Опенсорсная мультимодальная модель для агентов от Microsoft.

- понимает видео
- ориентируется в пространстве
- управляет компом и роботами

Гитхаб - код ждем

#agent #vlm
👍9
SANA FOR WINDOWS

Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12

Гитхаб

#text2image
🔥3👍2
Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое

В коментах ответ

Демо

#text2image #variation #slider
🤔3👍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
К вопросу про оцифровку актеров.

На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.

Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)

50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.

Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.

Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.

Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.


@cgevent
👍3🤔1
Объявляю субботнюю проверку мемов. Кто за неделю не залутал ни одного мема - для чего ты работал целую неделю?

#humor
😁37👍3👎2🤮2💩2
VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subnoscripts #text2speech #speech2text #tts #stt
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
GoWithTheFlow

Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow

Веса
ComfyUI-VideoNoiseWarp

#motiontransfer #motion2video
👍20🔥2
Claude 3.7 Sonnet | Claude Code

Claude 3.7 Sonnet доступен даже бесплатным пользователям

Пробуем (притворитесь что вы не в РФ)

#news #assistant
🔥15😁2👍1
SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization

Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета

У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?

Код
Демо

#personalization #text2image
👍4🔥2🎃1
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский... freq[k-1]=(2*np.pi)/(L*s)

Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров

Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)

Код - прикручено к Hunyuan, планируют прикрутить к другим моделям

#text2video
🔥8😁5👍3🎃1