LongCat-Flash-Omni
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.кто не понял, на видео с котиком НЕ демонстрация работы модели
#voicemode #multimodal #asr #assistant
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.
#voicemode #multimodal #asr #assistant
😁7👍1
Ouro: Looped Language Models
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
👍9😁3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
URSA: Uniform Discrete Diffusion with Metric Path for Video Generation
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Соперничает с моделями типа Sora в генерации видео по тексту, используя дискретный токенизатор видео.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
👍9😁1
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
ИИ-программист, который работает и с кодом, и с визуалом и не требует отдельных моделей для разных задач. есть 8B и 14B
Генерирует код из текста и изображений.
Делает визуализации, анимации, интерактивные интерфейсы, редактирует веб-страницы
Базовые модели: для JanusCoder — Qwen3-{8B, 14B}, для JanusCoderV — Qwen2.5-VL-7B-Instruct и InternVL3.5-8B
Гитхаб
HF
#coding #assistant
ИИ-программист, который работает и с кодом, и с визуалом и не требует отдельных моделей для разных задач. есть 8B и 14B
Генерирует код из текста и изображений.
Делает визуализации, анимации, интерактивные интерфейсы, редактирует веб-страницы
Базовые модели: для JanusCoder — Qwen3-{8B, 14B}, для JanusCoderV — Qwen2.5-VL-7B-Instruct и InternVL3.5-8B
Гитхаб
HF
#coding #assistant
❤6🥴1
Media is too big
VIEW IN TELEGRAM
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
Модель для создания VFX по референсному видео на базе CogVideoX-5B-I2V. Переносит динамику и трансформации из эталонного видео на пользовательское изображение.
Вместо сотни отдельных эффектов на Pika и иже с ними - одна модель которая воспроизведет любой эффект.
Код ждем
#vfx #referencing #image2video
Модель для создания VFX по референсному видео на базе CogVideoX-5B-I2V. Переносит динамику и трансформации из эталонного видео на пользовательское изображение.
Вместо сотни отдельных эффектов на Pika и иже с ними - одна модель которая воспроизведет любой эффект.
Код ждем
#vfx #referencing #image2video
👍7🔥4
FIBO
Новый многообещающий генератор картинок обученный на длинных структурированных промптах в формате JSON
Можно начать с краткой идеи, а затем постепенно уточнять и дорабатывать изображение - есть Generator и Refiner
Позволяет менять отдельные параметры (например, угол камеры) без изменения остальной части сцены
Вообще понимание промпта огонь по первому тесту. Из 4 картинок человекорыб на всех идет справа налево как и требовалось
Гитхаб
HF - всего около ~27 ГБ
Демо
Демо 2
Попробовать на офсайте - можно просто в плейграунде потестить, а можно еще взять месяц триалки API но придется дать свою кредитку
ComfyUI:
Generate Node
Refine Node
#text2image #json #longprompt #imageediting #ComfyUI
Новый многообещающий генератор картинок обученный на длинных структурированных промптах в формате JSON
Можно начать с краткой идеи, а затем постепенно уточнять и дорабатывать изображение - есть Generator и Refiner
Позволяет менять отдельные параметры (например, угол камеры) без изменения остальной части сцены
Вообще понимание промпта огонь по первому тесту. Из 4 картинок человекорыб на всех идет справа налево как и требовалось
Гитхаб
HF - всего около ~27 ГБ
Демо
Демо 2
Попробовать на офсайте - можно просто в плейграунде потестить, а можно еще взять месяц триалки API но придется дать свою кредитку
ComfyUI:
Generate Node
Refine Node
#text2image #json #longprompt #imageediting #ComfyUI
🔥17👍6❤3