Large Visual Memory Model
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
👍10❤1
Higgs Audio V2: Redefining Expressiveness in Audio Generation
Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI
Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval
- генерация диалогов с несколькими голосами, которые звучат натурально;
- создание длинных аудио с одним голосом;
- 24 кГц
- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;
- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий
- интерактивный перевод разговора с клонированием голоса.
- Английский, Китайский, Корейский, Немецкий
Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer
#tts #text2speech #voicecloning #dubbing #translation
Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI
Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval
- генерация диалогов с несколькими голосами, которые звучат натурально;
- создание длинных аудио с одним голосом;
- 24 кГц
- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;
- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий
- интерактивный перевод разговора с клонированием голоса.
- Английский, Китайский, Корейский, Немецкий
Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer
#tts #text2speech #voicecloning #dubbing #translation
👍8
Forwarded from Бурый
Наконец-то СУПЕРРРРРОЗЫГРЫШ! 🔥
Да, это легендарный розыгрыш годовой подписки на любую вашу любимую нейронку.
Победитель (№1) получит именно такой суперприз, а ещё четырём чемпионам (№2-5) я подарю месячную подписку на выбранные вами нейросети.
Условия участия элементарные:
👾 Подписаться на канал Бурый
👾 Нажать кнопку Участвовать
Победителей определит бот 12 августа.
Удачи и погнали!
Да, это легендарный розыгрыш годовой подписки на любую вашу любимую нейронку.
Победитель (№1) получит именно такой суперприз, а ещё четырём чемпионам (№2-5) я подарю месячную подписку на выбранные вами нейросети.
Условия участия элементарные:
👾 Подписаться на канал Бурый
👾 Нажать кнопку Участвовать
Победителей определит бот 12 августа.
Удачи и погнали!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
DAViD: Data-efficient and Accurate Vision Models from Synthetic Data
Модель от Microsoft, обученная на синтетическом датасете людей.
Умеет:
- глубину
- нормали
- отделяет людей от фона
Гитхаб
Jupiter / Colab
#video2normal #video2depth #segmentation #bgremoval #normal #depth
Модель от Microsoft, обученная на синтетическом датасете людей.
Умеет:
- глубину
- нормали
- отделяет людей от фона
Гитхаб
Jupiter / Colab
#video2normal #video2depth #segmentation #bgremoval #normal #depth
👍8🤔7🔥2❤1😁1
EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
Генератор 3D ландшафтов Земли от Alibaba
На вход можно подавать семантические карты, RGBD или вообще ничего
Хорошо справляется с генерацией огромных ландшафтов
Под капотом 3D-VAE и гауссианы
Код ждем
#landscape #segmentation2scene #RGBD2scene #gaussian
Генератор 3D ландшафтов Земли от Alibaba
На вход можно подавать семантические карты, RGBD или вообще ничего
Хорошо справляется с генерацией огромных ландшафтов
Под капотом 3D-VAE и гауссианы
Код ждем
#landscape #segmentation2scene #RGBD2scene #gaussian
❤9👍2
Media is too big
VIEW IN TELEGRAM
RealEarth-Kontext Lora
И еще по ландшафтам.
Лора обученная на Google Earth
Этой лорой как-то генерят вот такие облеты
Подрезал у @cgevent
#kontext #lora
И еще по ландшафтам.
Лора обученная на Google Earth
Этой лорой как-то генерят вот такие облеты
Подрезал у @cgevent
#kontext #lora
🔥8❤4👍2
🔥14👍2
Media is too big
VIEW IN TELEGRAM
Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA
В Snap Reserach придумали новый эффективный способ комбинировать разные концепции и объекты в одно видео без дообучения
Кода нет
#videoediting #research
В Snap Reserach придумали новый эффективный способ комбинировать разные концепции и объекты в одно видео без дообучения
Кода нет
#videoediting #research
👍4
Value Sign Flip for ComfyUI (Wan 2.1)
VSF нода для WAN 2.1 подъехала!
Бежим писать негативные промпты
#ComfyUI #optimization #text2video #negativeprompt
VSF нода для WAN 2.1 подъехала!
Бежим писать негативные промпты
#ComfyUI #optimization #text2video #negativeprompt
❤4👍4🤷♂2
FastWan
Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!
Реддит
#optimization #text2video #image2video
Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!
Реддит
#optimization #text2video #image2video
🔥3👍1
FastWan
Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!
Реддит
#optimization #text2video #image2video
Kijai вытряхнул лору из FastVideo и вонзил в Wan, пишут что выдает прекрасные результаты в связке с LightX2V за 2 шага!
Реддит
#optimization #text2video #image2video
👍7❤1
Rndnanthu ComfyUI Custom Nodes
Коллекция нод для колористов и VFX-художников
- log_color_conversion – Конверсия LOG/Linear/Rec.709 using LUTs (.cube)
- ColorGradingNode – Lift-Gamma-Gain, Offset/Slope color grading
- colorspacesim – Симуляция профилей камер (S-Log, V-Log, Cine etc.) + LUT auto-detect
- autogradepro – Auto exposure, contrast, ISO, temperature correction
- ColorAnalysisPlotNode – RGB Parade, Histogram, Vectorscope, False Color (experimental)
- FilmGrain – Organic, preset-based grain generation (with random seed)
- PromptGenerator – умный конструктор промптов
#ComfyUI #color
Коллекция нод для колористов и VFX-художников
- log_color_conversion – Конверсия LOG/Linear/Rec.709 using LUTs (.cube)
- ColorGradingNode – Lift-Gamma-Gain, Offset/Slope color grading
- colorspacesim – Симуляция профилей камер (S-Log, V-Log, Cine etc.) + LUT auto-detect
- autogradepro – Auto exposure, contrast, ISO, temperature correction
- ColorAnalysisPlotNode – RGB Parade, Histogram, Vectorscope, False Color (experimental)
- FilmGrain – Organic, preset-based grain generation (with random seed)
- PromptGenerator – умный конструктор промптов
#ComfyUI #color
GitHub
GitHub - rndnanthu/ComfyUI-RndNanthu
Contribute to rndnanthu/ComfyUI-RndNanthu development by creating an account on GitHub.
👍5
Blur Background / Unblur Background
Две лоры #kontext - для размытия фона и для восстановления четкости фона
Blur Background
Unblur Background
#lora
Две лоры #kontext - для размытия фона и для восстановления четкости фона
Blur Background
Unblur Background
#lora
❤6👍4