Че по лорам
Пара интересных лор для Qwen-Image-Edit, принесенные нашим чатиком
Qwen-Edit-2509-Multiple-angles - изменение ракурса
Relight - изменение освещения
Спасибо @m_franz @StanShumsky
#imageediting #lora #qie #novelview #relighting
Пара интересных лор для Qwen-Image-Edit, принесенные нашим чатиком
Qwen-Edit-2509-Multiple-angles - изменение ракурса
Relight - изменение освещения
Спасибо @m_franz @StanShumsky
#imageediting #lora #qie #novelview #relighting
👍25🔥4
👍2😱2🌚1
LongCat-Flash-Omni
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.кто не понял, на видео с котиком НЕ демонстрация работы модели
#voicemode #multimodal #asr #assistant
Омнимодальная голосо-языковая модель от авторов LongCat-Video, умеет вести диалог в реальном времени. Разговаривает и видит собеседника.
560B параметров, из которых 27B активных. Да, это совет экспертов #MoE
Контекст - 128K
По тестам приближается к Gemini-2.5-Flash
На офсайте по-русски понимает но голосом не говорит пока. Отвечает приятным китайским голосом. Зато потом в стенограмме видно что она вас поняла и ответила по сути. Мои реплики конечно крайне интересно интерпретировала, но свои норм отвечала. А я только и спросил умеет ли она говорить по-русски. А вот на английском прекрасно болтает.
Гитхаб
HF
Попробовать на китайском офсайте - можно войти по почте и болтать 10 минут.
Вообще у LongCat много всякого на HF лежит, посмотрите
PS.
#voicemode #multimodal #asr #assistant
😁7👍1
Ouro: Looped Language Models
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
Семейство небольших языковых моделей от ByteDance с петлевой архитектурой, которые встраивают процесс рассуждения в фазу предварительного обучения/
Генерирует подробные логические шаги, показывает отличные результаты в математике и естественных науках - при количестве параметров всего 1.4B / 2.6B. 2.6B превосходит трансформеры с 8B параметров.
На офсайте пишут что уже нашаманили интеграцию vLLm и SGLang, я не понимаю, читайте сами про API
А не превращается ли мой канал в пиар-рупор ByteDance? Пофиг, больше хороших вещей в опенсорсе - лучше
Гитхаб ждем
HF - 4 модели
#reasoning #assistant
👍9😁3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
URSA: Uniform Discrete Diffusion with Metric Path for Video Generation
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
Картинко- и видеогенератор на базе Qwen3. Модель объединяет преимущества дискретных и непрерывных подходов, сокращая разрыв в производительности между ними.
Соперничает с моделями типа Sora в генерации видео по тексту, используя дискретный токенизатор видео.
Кстати, токенизатор взяли от нвидиевского Cosmos
Умеет продлевать видео, генерить по начальному и конечному кадру.
Есть модели генерации картинок по тексту разрешением 1024*1024
И модели генерации видео разрешением 49x512x320
Негусто, но сами видеогенераторы весят около 4 ГБ
Является частью Emu3.5 как дискретная адаптация диффузии (DiDA)
Гитхаб
HF
Демо - обратите внимание на разницу между черрипиками с офсайта и генерациями из демоспейса (последние два видео). В общем, надежда на то что выстругают модельки покрупнее и поумнее
#text2image #image2video #text2video
👍9😁1