Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.44K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Видеоагент(!!!) от Минимакс.

Минимакс, что ты делаешь, прекрати.

И да, это видеоагент, который не только генерит по промпту, а берет на вход идею и наброски, а дальше сам пишет сценарий, генерит и монтирует.

Первый этап уже в бете:
Этап 1: Готовые шаблоны видео-агентов для высококачественных креативных видеороликов. Пользователи просто следуют инструкциям и вводят промпты или изображения — одним щелчком мыши создается готовое видео. Ключевое тут - Шаблоны.

В середине лета(?) будет выпущен:
Этап 2: Полунастраиваемый видеоагент. Пользователи получают возможность редактировать любую часть процесса создания видео: от сценария до визуальных эффектов и закадрового голоса.

Далее:
Этап 3: Полностью автономный, сквозной видеоагент. Полный, интеллектуальный рабочий процесс, который превращает творческую идею в финальное видео с минимальными ручными усилиями.

Этап 1 уже в бете, посмотрите образцы шаблонов вот тут:
https://x.com/MiniMax__AI/status/1935995043430691159
(да, на твитторе можно писать целые статьи)


Что еще известно:


Отход от традиционных рабочих процессов на основе узлов(nodes). Вместо использования жестких цепочек инструментов мы используем вызов инструментов на базе LLM, что позволяет пользователям создавать полноценные видео просто с помощью описаний на естественном языке.
Полный набор инструментов для создания видео. От идеи, поиска ресурсов, раскадровки, монтажа до озвучивания — мы отобрали лучшие инструменты для каждого шага и позволили агенту самостоятельно вызывать их на нужном этапе процесса. Это обеспечивает как гибкость, так и профессиональное качество в каждом коротком видео.
Визуализированные рассуждения и рабочий процесс агента. Пользователи могут просматривать пошаговый мыслительный процесс агента в реальном времени, заглядывая в творческую логику и предлагая интуитивные точки входа для пользовательских правок и тонкой настройки.


Нейромонтаж все ближе!!!

@cgevent
👍5🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Embodied Web Agents

Веб агент во плоти
Способен взаимодействовать с физическим миром и одновременно использовать информацию из интернета. Это нужно для решения задач, которые требуют знаний и оцифрованных данных, например, приготовление по онлайн-рецептам или навигация с использованием динамических карт

Код

#agent #robot
🔥3👍2
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Разработка ByteDance.
Создаёт 3D-миры по текстовым описаниям для виртуальной реальности. Сначала формируется базовая местность, а затем добавляются объекты.

Под капотом агенты, работающие на основе визуальных языковых моделей

Код ждем

#VR #vlm #text2scene #text2world
👍9🤯64
This media is not supported in your browser
VIEW IN TELEGRAM
Minimax Lifelike Audio

Дизайн голоса - прорыв в области создания голоса:
Любой промпт, любой голос, любая эмоция
Полностью настраиваемый и многоязычный интерфейс


Речь по тексту, клонирование голоса, создание голоса. Музыку тоже может но это неточно

#voicecloning #tts #text2speech #voicedesign #text2audio #text2music
🔥10😐3👍1
Spline Path Control v2

Контроль движения сплайнами без лишнего промпинга.

Полученное движение предлагают использовать как управляющее видео для VACE

Народное творчество, сделано в DeepSeek + Google Gemini, пользуйтесь пока не сломалось и пока автор не разорился

Код
Попробовать онлайн
воркфлоу

#workflow #motioncontrol #image2video
🔥121
Media is too big
VIEW IN TELEGRAM
Virtual Community: An Open World for Humans, Robots, and Society

Cоздание интерактивных и масштабируемых симуляций открытых миров, где используются реальные географические данные и компьютерные модели для имитации жизни людей и роботов.

Давайте думать, подсказывайте как сделать-то по красоте это можно использовать?

Код

#world #robot #simulation #interacton #HRI
👍4🤔2
MultiTalk: Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

Новый липсинк. Модель для создания видео с диалогами на основе аудиозаписей.

- несколько говорящих
- до 15 секунд в 480p и 720p
- контроль персонажей текстом
- генерация мультфильмов и видео с пением и другими типами речи

Код
Веса 10 Гб
ComfyUI Kijai перед отпуском сделал
Колаб на A100

#Lipsync #potraitanimation #speech2video #comfyUI #humananimation
👍93😁2💩1