AVoCaDO: An AudioVisual Video Captioner Driven by Temporal Orchestration
Кэпшонер на базе Qwen2.5-Omni-7B, создает описание видео, учитывая как визуальную, так и аудиосоставляющую, синхронизируя их во времени
Код
HF
#captioning #VLM #video2text
Кэпшонер на базе Qwen2.5-Omni-7B, создает описание видео, учитывая как визуальную, так и аудиосоставляющую, синхронизируя их во времени
Код
HF
#captioning #VLM #video2text
👍11❤1
EPG: Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
Новая #SOTA генератор картинок в пиксельном пространстве
Код ждем
#research #text2image
Новая #SOTA генератор картинок в пиксельном пространстве
первая успешная попытка обучить консистентную модель непосредственно на изображениях высокого разрешения без использования предварительно обученных VAE или диффузионных моделей.
Код ждем
#research #text2image
👍7🔥2
MAI-Image-1
Новый картинкогенератор от Microsoft
Сейчас на 9 месте на LMArena
Очевидно, умеет изображать текст.
Делают ставку на фотореализм и скорость:
Непонятно выдадут ли код или сервис, а пока пробуем на арене. Можно выбрать Direct Chat -> mai-image-1
#text2image
Новый картинкогенератор от Microsoft
Сейчас на 9 месте на LMArena
Очевидно, умеет изображать текст.
Делают ставку на фотореализм и скорость:
MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например, отраженный свет, блики), пейзажи и многое другое. Это особенно важно по сравнению со многими более крупными и медленными моделями. Благодаря сочетанию скорости и качества пользователи могут быстрее отображать свои идеи на экране, быстро просматривать их, а затем переносить свою работу в другие инструменты для дальнейшей доработки.
Непонятно выдадут ли код или сервис, а пока пробуем на арене. Можно выбрать Direct Chat -> mai-image-1
#text2image
👍5
Нейронавт | Нейросети в творчестве
MAI-Image-1 Новый картинкогенератор от Microsoft Сейчас на 9 месте на LMArena Очевидно, умеет изображать текст. Делают ставку на фотореализм и скорость: MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например…
Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?
👍9🤷♂1
Нейронавт | Нейросети в творчестве
Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?
а вот так с их промптом получилось.
Видимо когда текст идет основным объектом тогда он лучше справляется
Видимо когда текст идет основным объектом тогда он лучше справляется
NEURONAUT written in the sand at sunset over the beach
👍13
Veo 3.1 появился на wavespeed.ai и flowith.io
Увы, платно даже если есть триалка и какието кредиты
#news #text2video #image2video
Увы, платно даже если есть триалка и какието кредиты
#news #text2video #image2video
👍2😐2
Qwen3-VL 4B / 8B
Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
huggingface.co
Qwen3-VL - a Qwen Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10