TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
Генератор звуковых эффектов. Речь и музыку не вывозит, проверил.
Зато выдает 44 КГц, до 30 секунд. На А40 на это уходит всего 3 секунды
Код
Демо
#text2audio #text2sfx #foley
Генератор звуковых эффектов. Речь и музыку не вывозит, проверил.
Зато выдает 44 КГц, до 30 секунд. На А40 на это уходит всего 3 секунды
Код
Демо
#text2audio #text2sfx #foley
👍5❤1🔥1
PERSE: Personalized 3D Generative Avatars from A Single Portrait
По одному входному портрету PERSE создает анимируемый персонализированный 3D-аватар на гауссианах с независимым редактированием различных атрибутов лица
Код ждем
#humanavatar #portraitanimation #gaussian #facialanimation
По одному входному портрету PERSE создает анимируемый персонализированный 3D-аватар на гауссианах с независимым редактированием различных атрибутов лица
Код ждем
#humanavatar #portraitanimation #gaussian #facialanimation
❤17
This media is not supported in your browser
VIEW IN TELEGRAM
ebook2audiobook v2.0.0 Beta
Конвертер электронных книг в аудиокниги обновился. Поддерживает разные форматы, клонирование голоса, 1124 языка, в том числе русский.
Но мне не понравилась голосовая модель, попозже покажу лучший вариант
Демо
#text2speech #ebook2audiobook #voicecloning
Конвертер электронных книг в аудиокниги обновился. Поддерживает разные форматы, клонирование голоса, 1124 языка, в том числе русский.
Но мне не понравилась голосовая модель, попозже покажу лучший вариант
Демо
#text2speech #ebook2audiobook #voicecloning
👀6🎃4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
Метод генерации видео одновременно с нескольких ракурсов. Демонстрационные видео сделаны в CogvideoX
Код
PS Акелла промахнулся. я про него уже писал
#text2video #multiview #cameracontrol
Метод генерации видео одновременно с нескольких ракурсов. Демонстрационные видео сделаны в CogvideoX
Код
PS Акелла промахнулся. я про него уже писал
#text2video #multiview #cameracontrol
🔥12❤1
Media is too big
VIEW IN TELEGRAM
MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision
Подгон от Microsoft. Преобразует изображение в меш через карту глубины.
На сравнении выглядит лучше конкурентов, в том числе Depth Anything 2
Код
Демо
#image2depth #video2depth #image2mesh #video2mesh
Подгон от Microsoft. Преобразует изображение в меш через карту глубины.
На сравнении выглядит лучше конкурентов, в том числе Depth Anything 2
Код
Демо
#image2depth #video2depth #image2mesh #video2mesh
🔥13❤1
Media is too big
VIEW IN TELEGRAM
Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering
Новый метод представления поверхностей с помощью сетки, покрытой слоем гауссиан разной толщины.
Этот слой, называемый "Frosting", позволяет захватывать как сложные объемные эффекты, создаваемые материалами вроде волос или травы, так и плоские поверхности. Модель создается только из RGB-изображений и может быть визуализирована в реальном времени, а также анимирована с использованием традиционных инструментов анимации
🍒Ну и вишенка: есть аддон для блендера
Код
Blender
#blender #gaussian #rendering #realtime
Новый метод представления поверхностей с помощью сетки, покрытой слоем гауссиан разной толщины.
Этот слой, называемый "Frosting", позволяет захватывать как сложные объемные эффекты, создаваемые материалами вроде волос или травы, так и плоские поверхности. Модель создается только из RGB-изображений и может быть визуализирована в реальном времени, а также анимирована с использованием традиционных инструментов анимации
🍒Ну и вишенка: есть аддон для блендера
Код
Blender
#blender #gaussian #rendering #realtime
🔥10❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Arnis: Generate any location from the real world in Minecraft
Подгон любителям Майнкрафта. Быстрое автоматическое воссоздание любого реального города в Майнкрафте
#tools #game #mapto3d
Подгон любителям Майнкрафта. Быстрое автоматическое воссоздание любого реального города в Майнкрафте
#tools #game #mapto3d
🤯14🔥5😱2👍1
superbolt.geospy.ai
Сервис определяет локацию где сделано фото.
Работает для всех только по Сан-Франциско (проверил -для SF работает)
Для остальных локаций - записаться в вейтлист
Есть API c примерами
#image2geolocation #map #location #geolocation
Сервис определяет локацию где сделано фото.
Работает для всех только по Сан-Франциско (проверил -для SF работает)
Для остальных локаций - записаться в вейтлист
Есть API c примерами
#image2geolocation #map #location #geolocation
👍2👀2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Browser-Use WebUI
Надстройка к оригинальному Browser-Use для удобного пользования.
Проект дает доступ LLM-агентам к браузеру.
Что-то вроде Computer Use, но агент имеет доступ только к браузеру
Поддерживает Gemini, OpenAI, Azure OpenAI, Anthropic, DeepSeek, Ollama и др.
[UPDATE]
Этот код теперь в официальном Browser-Use
#assistant #agent #tools
Надстройка к оригинальному Browser-Use для удобного пользования.
Проект дает доступ LLM-агентам к браузеру.
Что-то вроде Computer Use, но агент имеет доступ только к браузеру
Поддерживает Gemini, OpenAI, Azure OpenAI, Anthropic, DeepSeek, Ollama и др.
[UPDATE]
Этот код теперь в официальном Browser-Use
#assistant #agent #tools
👍6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
trellis-stable-projectorz
Сборка 3D-генератора Trellis с пониженными требованиями к памяти.
От 8 ГБ VRAM, не требует cuda toolkit, powershell, VisualStudio, админские права. Все что нужно - уже внутри.
Однокликовый установщик
#textto3d #imageto3d #3dediting #3dto3d
Сборка 3D-генератора Trellis с пониженными требованиями к памяти.
От 8 ГБ VRAM, не требует cuda toolkit, powershell, VisualStudio, админские права. Все что нужно - уже внутри.
Однокликовый установщик
#textto3d #imageto3d #3dediting #3dto3d
❤17
Browser-Use + Deepseek v3
Инструкция по настройке на китайском
А вообще Browser-Use уже включили в ai-gradio
агента можно запустить в несколько строчек кода:
#assistant #agent #tools #tutorial
Инструкция по настройке на китайском
А вообще Browser-Use уже включили в ai-gradio
агента можно запустить в несколько строчек кода:
import gradio as gr
import ai_gradio
demo = gr.load(
name='browser:gpt-4-turbo',
src=ai_gradio.registry,
noscript='Browser Agent',
denoscription='AI agent that can interact with web browsers'
).launch()
#assistant #agent #tools #tutorial
👍4❤2🤯1
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на португальском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на португальском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
👍12❤1
This media is not supported in your browser
VIEW IN TELEGRAM
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
👍15
Media is too big
VIEW IN TELEGRAM
Китайский нейроинтерфейс NeuroXess расшифровывает мысли в реальном времени. Он может не только понимать китайский язык, но и управлять роботами и взаимодействовать с ИИ.
21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.
Пациентка научилась управлять умным домом и инвалидной коляской.
#science #brain #mindreading #news
21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.
Пациентка научилась управлять умным домом и инвалидной коляской.
#science #brain #mindreading #news
👍27❤3
This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
👍8🔥4❤2
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометраж 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометраж 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
👍13❤3👎1🤡1