Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
😁11👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
LargeSpatialModel: End-to-end Unposed Images to Semantic 3D
Реконструкция сцены на гауссианах по двум входным изображениям. По одному уже было
LSM использует в качестве входных данных два некалиброванных изображения и в реальном времени восстанавливает световое поле, включая геометрию, внешний вид и семантику
Кодбудет в ноябре есть
Демо
#gaussian #image2scene #imageto3d #image2gaussian #realtime
Реконструкция сцены на гауссианах по двум входным изображениям. По одному уже было
LSM использует в качестве входных данных два некалиброванных изображения и в реальном времени восстанавливает световое поле, включая геометрию, внешний вид и семантику
Код
Демо
#gaussian #image2scene #imageto3d #image2gaussian #realtime
🔥8
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
Генерация музыки по видео
Кода нет/не нашел
#video2music #video2sound
Генерация музыки по видео
Кода нет/не нашел
#video2music #video2sound
🔥7
Forwarded from эйай ньюз
Google готовит к релизу Jarvis
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
🔥3👍1
Flux IP-Adapter v2 от XLabs
Вторая версия подъехала, забираем
Перед началом работы обязательно обновите ноды: x-flux-comfyui.git
Воркфлоу
@ai_xlabs
#personalization
Вторая версия подъехала, забираем
Перед началом работы обязательно обновите ноды: x-flux-comfyui.git
Воркфлоу
@ai_xlabs
#personalization
🔥9
Нейронавт | Нейросети в творчестве
LipDub ai Сервис для высококачественного липсинка, дубляжа, персонализации видео, замены диалогов на видео. Советую не мешкать и подать на бету прямо сейчас, собеседования уже расписаны до конца октября. (Да, вам назначают встречу в Google Meet) Вписаться…
Только что поболтал с представителем LipDub ai
Мне показали интерфейс, несколько кейсов, вкратце рассказали как работает.
Жду доступ чтобы поиграть
Stay tuned
Мне показали интерфейс, несколько кейсов, вкратце рассказали как работает.
Жду доступ чтобы поиграть
Stay tuned
www.lipdub.ai
LipDub AI | Realistic AI Lip Sync Video Generator
Create, translate & personalize video with the most realistic AI lip sync. Hollywood-grade quality for marketers, creators & studios.
👍5
Suno на iOS теперь доступен избранным пользователям со всего мира, то есть за пределами американского AppStore.
Это значит что скоро выдадут и простым смертным. Всем или не всем - неизвестно
#news #mobile #text2music
Это значит что скоро выдадут и простым смертным. Всем или не всем - неизвестно
#news #mobile #text2music
🤷♂5🤔1
Stable Diffusion 3.5 Medium
Объявлен релиз Stable Diffusion 3.5 Medium
Без оптимизаций прет на 10ГБ VRAM
Коммерческая и некоммерческая лицензия
Демо
Веса на HF
#SD35 #text2image
Объявлен релиз Stable Diffusion 3.5 Medium
Без оптимизаций прет на 10ГБ VRAM
Коммерческая и некоммерческая лицензия
Демо
Веса на HF
#SD35 #text2image
🔥6🤷♂1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Allegro
Опенсорсный генератор видео по тексту.
2.8B параметров
720p, без цензуры.
Прет на 9.3 GB VRAM
Уже есть в Pinokio
Демо
Веса
Гитхаб
#text2video
Опенсорсный генератор видео по тексту.
2.8B параметров
720p, без цензуры.
Прет на 9.3 GB VRAM
Уже есть в Pinokio
Демо
Веса
Гитхаб
#text2video
🔥11👍2🌭1
Media is too big
VIEW IN TELEGRAM
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
Новый метод ускорения видеодиффузии от команды Vchitect
Поддерживает Open-Sora 1.2, Open-Sora-Plan 1.1, Latte, CogvideoX-2B и Vchitect 2.0
Ждем быстрых генераций на ведущих генерилках
Код
#text2video #optimization
Новый метод ускорения видеодиффузии от команды Vchitect
Поддерживает Open-Sora 1.2, Open-Sora-Plan 1.1, Latte, CogvideoX-2B и Vchitect 2.0
Ждем быстрых генераций на ведущих генерилках
Код
#text2video #optimization
👍4😱2