NEW BOT Телеграм, страница

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Смотрите какая штука.
Попытка раскрыть творческий потенциал диффузных генераторов картинок.

Вместо поиска пользователем творческих направлений, SliderSpace автоматически обнаруживает их на основе знаний модели.

Получив промпт, например "игрушка", SliderSpace определяет ключевые визуальные вариации, о которых знает модель, и превращает их в простые слайдеры.

Прикручено к #SDXL и #Flux

Код
Демо сейчас не работает, 404

#text2image #variation #slider

❤11👍3🤔1

1.92K views08:07

Нейронавт | Нейросети в творчестве

Grok 3 открыли для всех бесплатно
И пусть никто не уйдет обиженным

Пользуемся пока не закрыли

#assistant #reasoning

🔥10

2.07K views08:33

Нейронавт | Нейросети в творчестве

Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…

Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ

Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее

Демо

#ALM #voicechat

1👍3

1.92K views09:09

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

И демоспейс релайтинга Light-A-Video тоже появился

Демо

#relighting

1❤5🤔2

2.27K views09:38

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Video Model Studio (VMS)

Интерфейс Finetrainers на gradio для тренировки видео лор в несколько кликов

Поддерживаемые модели:

LTX-Video - протестировано на инстансе A100
HunyuanVideo - теоретически должно работать из коробки с достаточной вычислительной мощностью

Код
Демо - для работы демоспейс надо скопировать и видимо взять платный GPU

Бонус - альтернатива diffusion-pipe-ui

#lora #training #finetuning #GUI

👍4❤1

3.53K viewsedited 14:34

Нейронавт | Нейросети в творчестве

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Pikaswaps

У Pika опять новая фича

Заменяем на видео что угодно на что угодно

Попробовать

#videoediting #swap #video2video

🔥20👍4😁2

12.5K viewsedited 17:06

Нейронавт | Нейросети в творчестве

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Magma: A Foundation Model for Multimodal AI Agents

Опенсорсная мультимодальная модель для агентов от Microsoft.

- понимает видео
- ориентируется в пространстве
- управляет компом и роботами

Гитхаб - код ждем

#agent #vlm

👍9

2.46K views18:01

Нейронавт | Нейросети в творчестве

SANA FOR WINDOWS

Генератор картинок Sana для Windows (в оригинальном репозитории пользователи винды сталкивались с линуксовыми зависимостями)
Нужна Cuda 12

Гитхаб

#text2image

🔥3👍2

2.04K views08:11

Нейронавт | Нейросети в творчестве

Заработал демоспейс SliderSpace
Только непонятно как работает слайдер. Он не интерактивный. А новая генерация выдает чтото совершенно новое

В коментах ответ

Демо

#text2image #variation #slider

🤔3👍2

1.86K viewsedited 08:33

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

1:28

Media is too big

VIEW IN TELEGRAM

К вопросу про оцифровку актеров.

На видео - использование Хуньянь и SkyReel для консистентных сцен с конкретным оцифрованным актером.

Из интересного:
Они сначала оцифровали актера (captured him volumetrically), а потом натренировали Хульяньскую Лору на коротких видео по 2 секунды. Как я понял, вольюметрик скан использовался именно для рендеринга таких коротких видеосов, где башка поворачивается из профиля в фас или на меньших углах(но это неточно, trained a LoRA model directly on video data, allowing us to generate sequences where a person remains consistent across shots)

50 видосов для тренировки в 100 эпох - заняли 48 часов на H100.

Пишут, что SkyReel - плохой, особенно в text2video, оттуда взяли мало шотов.

Подробности шаманство с latent upscale и другими гиковскими терминами вот тут.

Это, конечно, просто игра мышцами от kartel_ai, но оцифровка актеров мне видится примерно так.

@cgevent

👍3🤔1

1.55K views10:49

Нейронавт | Нейросети в творчестве

Объявляю субботнюю проверку мемов. Кто за неделю не залутал ни одного мема - для чего ты работал целую неделю?

#humor

😁37👍3👎2🤮2💩2

2.12K views12:55

Нейронавт | Нейросети в творчестве

0:52

This media is not supported in your browser

VIEW IN TELEGRAM

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subnoscripts #text2speech #speech2text #tts #stt

👍8

2.22K views08:44

Нейронавт | Нейросети в творчестве

CameraHMR: Aligning People with Perspective Реконструкция 3D позы и формы человека по одному изображению или видео с учетом перспективы камеры Есть 4 ключевых фактора, которые делают его точным и надежным: 1. Чтобы получить точную 3D-форму и позу, а также…

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

WHAC: World-grounded Humans and Cameras

Реконструкция позы и меша человека, а также ракурса/движения камеры (трекинг) по одному монокулярному (не стерео) видео

За позу отвечает SMPLest-X

Код

#video2pose #video2mesh #videoto3d #tracking #poseestimation #humanreconstruction

👍10

2.06K views09:15

Нейронавт | Нейросети в творчестве

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

GoWithTheFlow

Перенос движения с образца на генерацию Hunyuan видео
Неофициальные веса нетфликсовского Go with the Flow

Веса
ComfyUI-VideoNoiseWarp

#motiontransfer #motion2video

👍20🔥2

2.16K views09:48

Нейронавт | Нейросети в творчестве

1:45

This media is not supported in your browser

VIEW IN TELEGRAM

MagicQuill

Редактор изображений MagicQuill завезли в Pinokio

#imageediting

👍10🔥4

1.98K views10:13

Нейронавт | Нейросети в творчестве

Claude 3.7 Sonnet | Claude Code

Claude 3.7 Sonnet доступен даже бесплатным пользователям

Пробуем (притворитесь что вы не в РФ)

#news #assistant

🔥15😁2👍1

2K viewsedited 18:39

Нейронавт | Нейросети в творчестве

SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization

Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета

У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?

Код
Демо

#personalization #text2image

👍4🔥2🎃1

2K views09:56

Нейронавт | Нейросети в творчестве