😁43❤4👍3🔥2
Media is too big
VIEW IN TELEGRAM
Qwen2.5-Max
Новая флагманская LLM от Alibaba, совет экспертов.
Превосходит DeepSeek v3 по циферкам бенча
Чат - не забудьте выбрать Qwen2.5-Max
#assistant #MOE
Новая флагманская LLM от Alibaba, совет экспертов.
Превосходит DeepSeek v3 по циферкам бенча
Чат - не забудьте выбрать Qwen2.5-Max
#assistant #MOE
🔥4
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
Нишевый оживлятор поясных портретов, негерит взаимодействие с небольшими предметами для создания видео презентатора-продажника
Код ждем
#humananimation #portraitanimation #image2video #pose2video
Нишевый оживлятор поясных портретов, негерит взаимодействие с небольшими предметами для создания видео презентатора-продажника
Код ждем
#humananimation #portraitanimation #image2video #pose2video
❤7👍2😐1
This media is not supported in your browser
VIEW IN TELEGRAM
GenXD: Generating Any 3D and 4D Scenes
Генерация 3D и 4D сцен от Университета Сингапура и Microsoft
На вход подают камеру и движения объекта (сам не понял. Видимо, видео)
Код ждем
#videoto3d #videoto4d
Генерация 3D и 4D сцен от Университета Сингапура и Microsoft
На вход подают камеру и движения объекта (сам не понял. Видимо, видео)
Код ждем
#videoto3d #videoto4d
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat: Repurposing Image Diffusion Models for Scalable 3D Gaussian Splat Generation
Генератор 3D объектов на гауссианах по картинке, по тексту. Поддерживает контроль генерации контролнетом - в примерах есть canny, depth, normals
Модель представляет собой файнтюн PixArt-Sigma-XL-2-512-MS
Код
Веса
Демо ждем
#textto3d #imageto3d #gaussian #conditioning #text2gaussian #image2gaussian
Генератор 3D объектов на гауссианах по картинке, по тексту. Поддерживает контроль генерации контролнетом - в примерах есть canny, depth, normals
Модель представляет собой файнтюн PixArt-Sigma-XL-2-512-MS
Код
Веса
Демо ждем
#textto3d #imageto3d #gaussian #conditioning #text2gaussian #image2gaussian
🔥6👍2
LLaSA: Scaling Train-Time and Test-Time Compute for LLaMA-based Speech Synthesis
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
Новая SOTA (state of the art - достижение) в клонировании голоса с контролем эмоций и ультрареалистичным звуком.
Клонирует голос с акцентом по 5-10 секундному образцу
Хотя на TTS-арене на 12 месте, но может еще рано, он еще свежий
В основе Llama 3.2
Поддерживает клонирование голоса на английском и китайском языках
Есть 1B, 3B, обещают 8B
Сайта не нашел. Есть видео от какого-то индуса с локальным запуском
Гитхаб - обучение с нууля
Демо
local-llasa-tts - для локального запуска с GUI на gradio
#voicecloning #tts #text2speech #leaderboard
👍10❤2
This media is not supported in your browser
VIEW IN TELEGRAM
T2V 01 Director
Новая версия видеогенератора от Hailuo
Основная фишка - контроль камеры.
Гайд от режиссера Мигеля Иванова
#text2video #image2video #cameracontrol
Новая версия видеогенератора от Hailuo
Основная фишка - контроль камеры.
Гайд от режиссера Мигеля Иванова
#text2video #image2video #cameracontrol
🔥17
Media is too big
VIEW IN TELEGRAM
YuE: Open Music Foundation Models for Full-Song Generation
Заявка на конкуренцию Suno в опенсорсе - китайский генератор песен.
Русского языка пока нет, есть английский, китайский, японский и корейский.
Влезает в 24ГБ VRAM
Код
Видеотуториал
#text2music #music
Заявка на конкуренцию Suno в опенсорсе - китайский генератор песен.
Русского языка пока нет, есть английский, китайский, японский и корейский.
Влезает в 24ГБ VRAM
Код
Видеотуториал
#text2music #music
❤6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
В 3D генератор Hunyuan3D-2 завезли приблуду для Блендера
Инструкция на гитхабе
#textto3d #imageto3d #blender
Инструкция на гитхабе
#textto3d #imageto3d #blender
👍13🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Riffusion FUZZ
Новая модель для генерации музыки на сервисе Riffusion
Интересная фишка - персонализация. По мере накопления ваших генераций сервис запоминает ваши предпочтения и подстраивается под вас
Умеет песни и инструментал
Есть свой генератор текстов Ghostwriter
Умеет делать музыку из вашего образца
Есть функция Remix - переработка чужой или своей генерации
На время бетатестирования все бесплатно
Демо - не знаю зачем, но здесь будет демоспейс
#text2music #music2music #audio2music
Новая модель для генерации музыки на сервисе Riffusion
Интересная фишка - персонализация. По мере накопления ваших генераций сервис запоминает ваши предпочтения и подстраивается под вас
Умеет песни и инструментал
Есть свой генератор текстов Ghostwriter
Умеет делать музыку из вашего образца
Есть функция Remix - переработка чужой или своей генерации
На время бетатестирования все бесплатно
Демо - не знаю зачем, но здесь будет демоспейс
#text2music #music2music #audio2music
❤7👍4
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA Broadcast 2.0.0
День звука на канале продолжается
Обновилась утилита рилтаймовой обработки звука и видео
По звуку:
удаляет эхо, посторонний шум, оставляя голос. наверчивает ИИ-эквалазер, приближая говномикрофоны к студийному качеству
По видео: направляет зрачки в камеру, блюрит фон, заменяет фон, удаляет шум. Релайтинг лица - подсвечивает лицо виртуальным источником.
#realtime #streaming #denoise #audioenhance #eyecontact #bgreplacement #bg #relighting #deecho
День звука на канале продолжается
Обновилась утилита рилтаймовой обработки звука и видео
По звуку:
удаляет эхо, посторонний шум, оставляя голос. наверчивает ИИ-эквалазер, приближая говномикрофоны к студийному качеству
По видео: направляет зрачки в камеру, блюрит фон, заменяет фон, удаляет шум. Релайтинг лица - подсвечивает лицо виртуальным источником.
#realtime #streaming #denoise #audioenhance #eyecontact #bgreplacement #bg #relighting #deecho
👍11🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Luma апскейл 4K
Недавно всем выдали доступ к своей модели Ray 2
А теперь вот представили видеоапскейлер для генераций
Ну и не стоит ждать от него чудес
#upscale
Недавно всем выдали доступ к своей модели Ray 2
А теперь вот представили видеоапскейлер для генераций
Ну и не стоит ждать от него чудес
#upscale
👍7🤔1