Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
HunyuanWorld-1.0

"Первый опенсорсный генератор 3D миров, полностью совместимый с графическими пайплайнами"


Создает сцены и 360-градусные панорамы по тексту и по картинке.

В основе работы модели - алгоритм представления и генерации 3D-сцен с семантической иерархией.

В интерактивной демке панорамы на сайте проекта при попытке погулять в генерации очень быстро наталкиваешься на границу, за которую не пускают, как будто там не честное 3D, а картинка натянутая на карту глубины. Так что не вижу в чем он тут "первый", разве что в том что опенсорс. Ну да ладно, это первое впечатление.

Предлагают использовать в VR, геймдеве, физической симуляции, задачах с взаимодействием с объектами

Код
Веса
Попробовать - вход через WeChat. Я залогинился, но дальше сайт не прогружается

Спасибо @iNevestenko

#text2world #image2world #text2panorama #image2panorama #360 #text2scene #image2scene #world
👍1021😱1
Large Visual Memory Model

Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы

Возможности модели:

- хорошо классифицирует видео;

- хорошо ищет видео по запросам;

- отвечает на вопросы про видео;

- создает видео;

- ставит новые рекорды в разных тестах;

- подходит для сложных запросов, где надо накопать много информации.

Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио

Попробовать

#vlmm #assistant #chat #agent #video2text #text2video
👍101
Higgs Audio V2: Redefining Expressiveness in Audio Generation

Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI

Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval

- генерация диалогов с несколькими голосами, которые звучат натурально;

- создание длинных аудио с одним голосом;

- 24 кГц

- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;

- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий

- интерактивный перевод разговора с клонированием голоса.

- Английский, Китайский, Корейский, Немецкий

Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer

#tts #text2speech #voicecloning #dubbing #translation
👍8
Forwarded from Бурый
Наконец-то СУПЕРРРРРОЗЫГРЫШ! 🔥

Да, это легендарный розыгрыш годовой подписки на любую вашу любимую нейронку.

Победитель (№1) получит именно такой суперприз, а ещё четырём чемпионам (№2-5) я подарю месячную подписку на выбранные вами нейросети.

Условия участия элементарные:

👾 Подписаться на канал Бурый
👾 Нажать кнопку Участвовать

Победителей определит бот 12 августа.

Удачи и погнали!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion

Генератор 3D ландшафтов Земли от Alibaba

На вход можно подавать семантические карты, RGBD или вообще ничего

Хорошо справляется с генерацией огромных ландшафтов

Под капотом 3D-VAE и гауссианы

Код ждем

#landscape #segmentation2scene #RGBD2scene #gaussian
9👍2
Media is too big
VIEW IN TELEGRAM
RealEarth-Kontext Lora

И еще по ландшафтам.
Лора обученная на Google Earth
Этой лорой как-то генерят вот такие облеты

Подрезал у @cgevent

#kontext #lora
🔥84👍2
This media is not supported in your browser
VIEW IN TELEGRAM
А это пост для ваших творений. Выкладывайте, хвастайтесь

#neuronaut_art #share_art
🔥10👍42🌚1
WAN 2.2

Трансляция релиза сегодня в 15:00 по Москве (если я ничего не напутал)

Спасибо @atttashe

#news
🔥14👍2
Media is too big
VIEW IN TELEGRAM
Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA

В Snap Reserach придумали новый эффективный способ комбинировать разные концепции и объекты в одно видео без дообучения

Кода нет

#videoediting #research
👍4
Value Sign Flip for ComfyUI (Wan 2.1)

VSF нода для WAN 2.1 подъехала!
Бежим писать негативные промпты

#ComfyUI #optimization #text2video #negativeprompt
4👍4🤷‍♂2
FastWan

Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!

Реддит

#optimization #text2video #image2video
🔥3👍1
FastWan

Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!

Реддит

#optimization #text2video #image2video
👍71