Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
Метод оживления портретов по аудио, фокус на удержании идентичности от KAIST
Код ждем
#portraitanimation #characteranimation #image2video #personalization #audio2video #speech2video
Метод оживления портретов по аудио, фокус на удержании идентичности от KAIST
Код ждем
#portraitanimation #characteranimation #image2video #personalization #audio2video #speech2video
🔥9👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Game-TARS
Игровой агент от ByteDance, осваивает видеоигры и цифровые среды, используя человекоподобное восприятие и мышление
Ориентирован на унерсальность, может играть в незнакомые игры, на которые не обучался.
Выбил #SOTA на Open-world Minecraft
Гитхаб - ссылка ведет на UI-TARS
#gaming #agent
Игровой агент от ByteDance, осваивает видеоигры и цифровые среды, используя человекоподобное восприятие и мышление
Ориентирован на унерсальность, может играть в незнакомые игры, на которые не обучался.
Выбил #SOTA на Open-world Minecraft
Гитхаб - ссылка ведет на UI-TARS
#gaming #agent
❤3👍3
Че по лорам
Пара интересных лор для Qwen-Image-Edit, принесенные нашим чатиком
Qwen-Edit-2509-Multiple-angles - изменение ракурса
Relight - изменение освещения
Спасибо @m_franz @StanShumsky
#imageediting #lora #qie #novelview #relighting
Пара интересных лор для Qwen-Image-Edit, принесенные нашим чатиком
Qwen-Edit-2509-Multiple-angles - изменение ракурса
Relight - изменение освещения
Спасибо @m_franz @StanShumsky
#imageediting #lora #qie #novelview #relighting
👍25🔥4
👍2😱2🌚1
LongCat-Flash-Omni
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.кто не понял, на видео с котиком НЕ демонстрация работы модели
#voicemode #multimodal #asr #assistant
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.
#voicemode #multimodal #asr #assistant
😁7👍1
Ouro: Looped Language Models
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
👍9😁3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
URSA: Uniform Discrete Diffusion with Metric Path for Video Generation
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Соперничает с моделями типа Sora в генерации видео по тексту, используя дискретный токенизатор видео.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
👍9😁1