Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
Интерактивный видеоаватар в реальном времени (железо см ниже) от Alibaba
— поддерживает потоковую генерацию видео длиной более 10 000 секунд
— позволяет пользователям общаться с аватаром через микрофон и камеру, получая мгновенную визуальную обратную связь
— интегрируется с Qwen3-Omni для создания полностью интерактивных диалоговых агентов
— достигает 20 кадров в секунду на 5 видеокартах H800 при 4-шаговом сэмплинге
— решает проблемы деградации качества при длительной генерации (дрейф идентичности, сдвиг цветов, накопление ошибок)
Код ждем на днях
HF - там уже что-то есть но тоже ждем, ибо основная модель на 14B параметров
спасибо @m_franz
#avatar #characteranimation #realtime #streaming #humanavatar
Интерактивный видеоаватар в реальном времени (железо см ниже) от Alibaba
— поддерживает потоковую генерацию видео длиной более 10 000 секунд
— позволяет пользователям общаться с аватаром через микрофон и камеру, получая мгновенную визуальную обратную связь
— интегрируется с Qwen3-Omni для создания полностью интерактивных диалоговых агентов
— достигает 20 кадров в секунду на 5 видеокартах H800 при 4-шаговом сэмплинге
— решает проблемы деградации качества при длительной генерации (дрейф идентичности, сдвиг цветов, накопление ошибок)
Код ждем на днях
HF - там уже что-то есть но тоже ждем, ибо основная модель на 14B параметров
спасибо @m_franz
#avatar #characteranimation #realtime #streaming #humanavatar
👍6❤3
Cursor оптимизировал работу GPT 5.1 Codex Max
В связи с чем объявили к ней безлимитный доступ до 11 декабря.
Видимо, только для платных подписанов
Скачать Cursor
#coding #giveaway
В связи с чем объявили к ней безлимитный доступ до 11 декабря.
Видимо, только для платных подписанов
Скачать Cursor
#coding #giveaway
1🔥9❤1👎1
Они даже уже не скрываются
Китайская компания EngineAI (Zhòngqíng) выпустила полноразмерного робота T800
Вас слово "выпустила" не пугает? Хотя думаю, он сам вышел
В доказательство того что это не графика сняли ролик где робот избивает CEO EngineAI Чжао Тонъяна, а кругом стоят роботы, замаскированные под человеков и весело смеются
#robot #яниначтгоненамекаю
Китайская компания EngineAI (Zhòngqíng) выпустила полноразмерного робота T800
Вас слово "выпустила" не пугает? Хотя думаю, он сам вышел
В доказательство того что это не графика сняли ролик где робот избивает CEO EngineAI Чжао Тонъяна, а кругом стоят роботы, замаскированные под человеков и весело смеются
#robot #яниначтгоненамекаю
1👀8❤4🔥3😁1🍌1
Qwen3-TTS (version 2025-11-27)
Новая версия флагманской говорилки от Qwen
Добавили 49 голосов, поддержку 10 языков, в том числе русский
Улучшили способность адаптировать скорость речи и просодию в зависимости от текстового ввода, что делает речь более естественной и близкой к человеческой.
Демо HF
Демо MS
Qwen Chat - в ответе нажмите три точки, "Читать вслух"
Realtime API
Offline API
#tts #text2speech #voicecloning #realtime
Новая версия флагманской говорилки от Qwen
Добавили 49 голосов, поддержку 10 языков, в том числе русский
Улучшили способность адаптировать скорость речи и просодию в зависимости от текстового ввода, что делает речь более естественной и близкой к человеческой.
Демо HF
Демо MS
Qwen Chat - в ответе нажмите три точки, "Читать вслух"
Realtime API
Offline API
#tts #text2speech #voicecloning #realtime
🔥12❤4😱2👍1
LongCat-Image
Генератор-редактор картинок от авторов LongCat-Video
Билингвальный китайско-английский. 6B параметров
Хорошо изображает китайский текст. Тут они мимо нашей аудитории совсем. Но в остальном - мал да удал. Такое оживление ниши работы с картинками не может не радовать
LongCat-Image - генерилка
LongCat-Image-Dev - пластичная модель для файнтюна
LongCat-Image-Edit - редактор. Принимает на вход референсы. Под капотом Qwen2.5-VL
Чат: longcat.chat
Гитхаб:
https://github.com/meituan-longcat/LongCat-Image
HF:
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Dev
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
спасибо @m_franz
#imageediting #text2image #assistant
Генератор-редактор картинок от авторов LongCat-Video
Билингвальный китайско-английский. 6B параметров
Хорошо изображает китайский текст. Тут они мимо нашей аудитории совсем. Но в остальном - мал да удал. Такое оживление ниши работы с картинками не может не радовать
LongCat-Image - генерилка
LongCat-Image-Dev - пластичная модель для файнтюна
LongCat-Image-Edit - редактор. Принимает на вход референсы. Под капотом Qwen2.5-VL
Чат: longcat.chat
Гитхаб:
https://github.com/meituan-longcat/LongCat-Image
HF:
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Dev
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
спасибо @m_franz
#imageediting #text2image #assistant
👍8🔥4
Очередной инструмент от @SashaMelentev
Далее его текст
Refiner
Сдружил Photoshop и ComfyUI, что вообще-то, уже не новость. Собрал два workflow для "разгона" скетча рендера в полноценную заливку.
Первый - со шкатулкой - работает на Illustrious, это SDXL, заполняет не очень детально, но можно настроить рисование реал-тайм, а второй - с рукоятью - на Nano Banana Pro, и от него фляжка брызнет, возьмись за стул, когда будешь смотреть. Он еще и референсы утилизирует в работу.
Оба json'a здесь в комментариях. #Tools
Когда general, простые концепты делает нейросеть, работу руками нужно посвятить деланию уникальных, штучных задач.
Это приводит нас к странному парадоксу, с одной стороны нужно знать базу и техническую сторону работы, для штучной работы без этого никак, с другой - большую ценность приобретают гуманитарные знания, чтобы знать, что писать в промпте, какое желание у ИИ загадывать.
И далее. Когда всю работу будут делать роботы, то труд человека перестанет быть универсальным товаром, то есть станет штучным... роскошью то бишь.
источник
#workflow #tools #sketch2image #texturing
Далее его текст
Refiner
Сдружил Photoshop и ComfyUI, что вообще-то, уже не новость. Собрал два workflow для "разгона" скетча рендера в полноценную заливку.
Первый - со шкатулкой - работает на Illustrious, это SDXL, заполняет не очень детально, но можно настроить рисование реал-тайм, а второй - с рукоятью - на Nano Banana Pro, и от него фляжка брызнет, возьмись за стул, когда будешь смотреть. Он еще и референсы утилизирует в работу.
Оба json'a здесь в комментариях. #Tools
Когда general, простые концепты делает нейросеть, работу руками нужно посвятить деланию уникальных, штучных задач.
Это приводит нас к странному парадоксу, с одной стороны нужно знать базу и техническую сторону работы, для штучной работы без этого никак, с другой - большую ценность приобретают гуманитарные знания, чтобы знать, что писать в промпте, какое желание у ИИ загадывать.
И далее. Когда всю работу будут делать роботы, то труд человека перестанет быть универсальным товаром, то есть станет штучным... роскошью то бишь.
источник
#workflow #tools #sketch2image #texturing
❤9👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Обновление HunyuanVideo1.5
Выпустили дистиллированную модель I2V видеогенератора с разрешением 480p
Рекомендовано 8 или 12 шагов. Можно и 4 шага со снижением качества
На RTX 4090 время генерации видео от начала до конца сокращено на 75%
RTX 4090 может создать видео за 75 секунд.
#hv15 #image2video #optimization
Выпустили дистиллированную модель I2V видеогенератора с разрешением 480p
Рекомендовано 8 или 12 шагов. Можно и 4 шага со снижением качества
На RTX 4090 время генерации видео от начала до конца сокращено на 75%
RTX 4090 может создать видео за 75 секунд.
#hv15 #image2video #optimization
🔥11👍6
Media is too big
VIEW IN TELEGRAM
Light-X : Generative 4D Video Rendering with Camera and Illumination Control
Контроль камеры и освещения на видеогенерации.
Закидываем на вход видео - на выходе получаем ту же сцену с заданного ракурса и заданным освещением
Гитхаб
HF
#cameracontrol #relighting #lightcontrol #video2video #videoediting
Контроль камеры и освещения на видеогенерации.
Закидываем на вход видео - на выходе получаем ту же сцену с заданного ракурса и заданным освещением
Гитхаб
HF
#cameracontrol #relighting #lightcontrol #video2video #videoediting
🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
ИИ-дизайнер с продвинутым пониманием геометрии и эстетики на базе Qwen-2.5-VL-7B-Instruct
Код / веса ждем
#design
ИИ-дизайнер с продвинутым пониманием геометрии и эстетики на базе Qwen-2.5-VL-7B-Instruct
Код / веса ждем
#design
👍9😱5
Cервис для генерации/редактирования музыки Mozart AI тизерит какую-то обновку, назначенную на завтра.
записаться в вейтлист неизвестно чего
Предлагают скачать ваши проекты до завтра чтобы потом работать с ними на обновленной платформе.
Звучит пугающе на фоне слива Suno и Udio
#news #text2music #text2audio #music2music #audio2music #sfx #musicediting #midi #text2midi #audio2midi
записаться в вейтлист неизвестно чего
Предлагают скачать ваши проекты до завтра чтобы потом работать с ними на обновленной платформе.
Звучит пугающе на фоне слива Suno и Udio
#news #text2music #text2audio #music2music #audio2music #sfx #musicediting #midi #text2midi #audio2midi
💯4👍1😁1