Browser-Use + Deepseek v3
Инструкция по настройке на китайском
А вообще Browser-Use уже включили в ai-gradio
агента можно запустить в несколько строчек кода:
#assistant #agent #tools #tutorial
Инструкция по настройке на китайском
А вообще Browser-Use уже включили в ai-gradio
агента можно запустить в несколько строчек кода:
import gradio as gr
import ai_gradio
demo = gr.load(
name='browser:gpt-4-turbo',
src=ai_gradio.registry,
noscript='Browser Agent',
denoscription='AI agent that can interact with web browsers'
).launch()
#assistant #agent #tools #tutorial
👍4❤2🤯1
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на португальском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на португальском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
👍12❤1
This media is not supported in your browser
VIEW IN TELEGRAM
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени
Код
Веса
#assistant #realtime #vlm #voicemode
👍15
Media is too big
VIEW IN TELEGRAM
Китайский нейроинтерфейс NeuroXess расшифровывает мысли в реальном времени. Он может не только понимать китайский язык, но и управлять роботами и взаимодействовать с ИИ.
21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.
Пациентка научилась управлять умным домом и инвалидной коляской.
#science #brain #mindreading #news
21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.
Пациентка научилась управлять умным домом и инвалидной коляской.
#science #brain #mindreading #news
👍27❤3
This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
👍8🔥4❤2
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометраж 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометраж 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
👍13❤3👎1🤡1
NVIDIA аносировали новое поколение видеокарт RTX 5000 серии. Новая архитектура поддерживает вычисления в FP4
И тут они заколабились с Blackforest Labs. Короче, анонсировали Lightning-Fast FLUX - быстрый флюкс в FP4
Веса выложат на HF в начале февраля
На сравнении слева FLUX.1 [dev] BF16, справа FP4
#news #text2image #optimization
И тут они заколабились с Blackforest Labs. Короче, анонсировали Lightning-Fast FLUX - быстрый флюкс в FP4
Веса выложат на HF в начале февраля
На сравнении слева FLUX.1 [dev] BF16, справа FP4
#news #text2image #optimization
👍23
Короче не верьте красивым графикам Хуанга
4090 тестировали на FP8, а 5090 на FP4, которая требует вдвое меньше видеопамяти
#news
4090 тестировали на FP8, а 5090 на FP4, которая требует вдвое меньше видеопамяти
#news
😁21😱8🤡5😭2😈1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking
Очередной трекер группы точек.
Такое может пригодиться для точных манипуляций со сложными движущимися объектами на видео
Код
#tracking #opticalflow
Очередной трекер группы точек.
Такое может пригодиться для точных манипуляций со сложными движущимися объектами на видео
Код
#tracking #opticalflow
🔥10
К истории о том что террорист, взорвавший кибертрак в опасной близости от президента США, получил рецепт бомбы от ChatGPT.
Последний день каникул, позволю себе репостнуть простыню
Последний день каникул, позволю себе репостнуть простыню