Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍5
Perplexity R1 1776

Рассуждалка без цензуры от Perplexity в опенсорсе.

Это посттрейн DeepSeek R1, да

Веса для GPU олигархов
API

Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам

Попробовать

#reasoning #assistant
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Генерация консистентного видео с заданным объектом по одному референсному изображению от ByteDance сотоварищи

Код ждем вероятность 50/50

#image2video #text2video #personalization
🔥7👍1
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Смотрите какая штука.
Попытка раскрыть творческий потенциал диффузных генераторов картинок.

Вместо поиска пользователем творческих направлений, SliderSpace автоматически обнаруживает их на основе знаний модели.

Получив промпт, например "игрушка", SliderSpace определяет ключевые визуальные вариации, о которых знает модель, и превращает их в простые слайдеры.

Прикручено к #SDXL и #Flux

Код
Демо сейчас не работает, 404

#text2image #variation #slider
11👍3🤔1
Grok 3 открыли для всех бесплатно
И пусть никто не уйдет обиженным

Пользуемся пока не закрыли

#assistant #reasoning
🔥10
Нейронавт | Нейросети в творчестве
Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…
Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ

Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее

Демо

#ALM #voicechat
1👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Pikaswaps

У Pika опять новая фича

Заменяем на видео что угодно на что угодно

Попробовать

#videoediting #swap #video2video
🔥20👍4😁2
Magma: A Foundation Model for Multimodal AI Agents

Опенсорсная мультимодальная модель для агентов от Microsoft.

- понимает видео
- ориентируется в пространстве
- управляет компом и роботами

Гитхаб - код ждем

#agent #vlm
👍9
SANA FOR WINDOWS

Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12

Гитхаб

#text2image
🔥3👍2
Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое

В коментах ответ

Демо

#text2image #variation #slider
🤔3👍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
К вопросу про оцифровку актеров.

На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.

Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)

50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.

Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.

Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.

Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.


@cgevent
👍3🤔1