Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
Волшебный 3D генератор, который всех поразил деталями. И даже дают попробовать чуть-чуть
#3d #imageto3d
Волшебный 3D генератор, который всех поразил деталями. И даже дают попробовать чуть-чуть
#3d #imageto3d
❤5👍5
DesignLab: Designing Slides Through Iterative Detection and Correction
Итеративный улучшайзер слайдов.
Смотрит на недостатки в ваших слайдах по дизайну, улучшает. И так по кругу.
Код ждем
#design
Итеративный улучшайзер слайдов.
Смотрит на недостатки в ваших слайдах по дизайну, улучшает. И так по кругу.
Код ждем
#design
👍8❤1
❤4👍1💯1
Forwarded from ᅠ
👍7🔥1
😁14❤3👍1
HunyuanWorld-1.0
Создает сцены и 360-градусные панорамы по тексту и по картинке.
В основе работы модели - алгоритм представления и генерации 3D-сцен с семантической иерархией.
В интерактивной демке панорамы на сайте проекта при попытке погулять в генерации очень быстро наталкиваешься на границу, за которую не пускают, как будто там не честное 3D, а картинка натянутая на карту глубины. Так что не вижу в чем он тут "первый", разве что в том что опенсорс. Ну да ладно, это первое впечатление.
Предлагают использовать в VR, геймдеве, физической симуляции, задачах с взаимодействием с объектами
Код
Веса
Попробовать - вход через WeChat. Я залогинился, но дальше сайт не прогружается
Спасибо @iNevestenko
#text2world #image2world #text2panorama #image2panorama #360 #text2scene #image2scene #world
"Первый опенсорсный генератор 3D миров, полностью совместимый с графическими пайплайнами"
Создает сцены и 360-градусные панорамы по тексту и по картинке.
В основе работы модели - алгоритм представления и генерации 3D-сцен с семантической иерархией.
В интерактивной демке панорамы на сайте проекта при попытке погулять в генерации очень быстро наталкиваешься на границу, за которую не пускают, как будто там не честное 3D, а картинка натянутая на карту глубины. Так что не вижу в чем он тут "первый", разве что в том что опенсорс. Ну да ладно, это первое впечатление.
Предлагают использовать в VR, геймдеве, физической симуляции, задачах с взаимодействием с объектами
Код
Веса
Попробовать - вход через WeChat. Я залогинился, но дальше сайт не прогружается
Спасибо @iNevestenko
#text2world #image2world #text2panorama #image2panorama #360 #text2scene #image2scene #world
👍10⚡2❤1😱1
Large Visual Memory Model
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
👍10❤1
Higgs Audio V2: Redefining Expressiveness in Audio Generation
Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI
Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval
- генерация диалогов с несколькими голосами, которые звучат натурально;
- создание длинных аудио с одним голосом;
- 24 кГц
- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;
- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий
- интерактивный перевод разговора с клонированием голоса.
- Английский, Китайский, Корейский, Немецкий
Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer
#tts #text2speech #voicecloning #dubbing #translation
Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI
Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval
- генерация диалогов с несколькими голосами, которые звучат натурально;
- создание длинных аудио с одним голосом;
- 24 кГц
- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;
- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий
- интерактивный перевод разговора с клонированием голоса.
- Английский, Китайский, Корейский, Немецкий
Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer
#tts #text2speech #voicecloning #dubbing #translation
👍8