NEW BOT Телеграм, страница

Magma: A Foundation Model for Multimodal AI Agents

Опенсорсная мультимодальная модель для агентов от Microsoft.

- понимает видео
- ориентируется в пространстве
- управляет компом и роботами

Гитхаб - код ждем

#agent #vlm

👍9

2.46K views18:01

Нейронавт | Нейросети в творчестве

SANA FOR WINDOWS

Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12

Гитхаб

#text2image

🔥3👍2

2.04K views08:11

Нейронавт | Нейросети в творчестве

Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое

В коментах ответ

Демо

#text2image #variation #slider

🤔3👍2

1.86K viewsedited 08:33

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

1:28

Media is too big

VIEW IN TELEGRAM

К вопросу про оцифровку актеров.

На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.

Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)

50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.

Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.

Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.

Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.

@cgevent

👍3🤔1

1.55K views10:49

Нейронавт | Нейросети в творчестве

Объявляю субботнюю проверку мемов. Кто за неделю не залутал ни одного мема - для чего ты работал целую неделю?

#humor

😁37👍3👎2🤮2💩2

2.12K views12:55

Нейронавт | Нейросети в творчестве

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subnoscripts #text2speech #speech2text #tts #stt

👍8

2.22K views08:44

Нейронавт | Нейросети в творчестве

CameraHMR: Aligning People with Perspective Реконструкция 3D позы и формы человека по одному изображению или видео с учетом перспективы камеры Есть 4 ключевых фактора, которые делают его точным и надежным: 1. Чтобы получить точную 3D-форму и позу, а также…

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

WHAC: World-grounded Humans and Cameras

Реконструкция позы и меша человека, а также ракурса/движения камеры (трекинг) по одному монокулярному (не стерео) видео

За позу отвечает SMPLest-X

Код

#video2pose #video2mesh #videoto3d #tracking #poseestimation #humanreconstruction

👍10

2.06K views09:15

Нейронавт | Нейросети в творчестве

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

GoWithTheFlow

Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow

Веса
ComfyUI-VideoNoiseWarp

#motiontransfer #motion2video

👍20🔥2

2.16K views09:48

Нейронавт | Нейросети в творчестве

1:45

This media is not supported in your browser

VIEW IN TELEGRAM

MagicQuill

Редактор изображений MagicQuill завезли в Pinokio

#imageediting

👍10🔥4

1.98K views10:13

Нейронавт | Нейросети в творчестве

Claude 3.7 Sonnet | Claude Code

Claude 3.7 Sonnet доступен даже бесплатным пользователям

Пробуем (притворитесь что вы не в РФ)

#news #assistant

🔥15😁2👍1

2K viewsedited 18:39

Нейронавт | Нейросети в творчестве

SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization

Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета

У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?

Код
Демо

#personalization #text2image

👍4🔥2🎃1

2K views09:56

Нейронавт | Нейросети в творчестве