Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Browser-Use + Deepseek v3

Инструкция по настройке на китайском

А вообще Browser-Use уже включили в ai-gradio

агента можно запустить в несколько строчек кода:

import gradio as gr
import ai_gradio

demo = gr.load(
name='browser:gpt-4-turbo',
src=ai_gradio.registry,
noscript='Browser Agent',
denoscription='AI agent that can interact with web browsers'
).launch()


#assistant #agent #tools #tutorial
👍42🤯1
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на португальском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video
👍121
This media is not supported in your browser
VIEW IN TELEGRAM
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Первая мультимодальная опенсорсная LLM способная обрабатывать видео, изображения, текст и аудио в реальном времени

Код
Веса

#assistant #realtime #vlm #voicemode
👍15
Media is too big
VIEW IN TELEGRAM
Китайский нейроинтерфейс NeuroXess расшифровывает мысли в реальном времени. Он может не только понимать китайский язык, но и управлять роботами и взаимодействовать с ИИ.

21-летней женщине с эпилепсией, у которой было серьезное поражение мозга, подключили NeuroXess. Интерфейс выделил электрокортикограмму из её мозговых сигналов, на которой обучили нейросеть. В результате система декодировала мысли в речь с точностью 71%, управляла роботизированной рукой и позволяла общаться с ИИ и цифровым аватаром.

Пациентка научилась управлять умным домом и инвалидной коляской.

#science #brain #mindreading #news
👍273
SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models

Перенос макияжа с фото на фото от Alibaba

Код

#makeup
👍8😁42💩1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B

Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках

Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах

Репозиторий
Демо

#ALM #assistant #mobile
👍8🔥42
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометраж 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world
👍133👎1🤡1
NVIDIA аносировали новое поколение видеокарт RTX 5000 серии. Новая архитектура поддерживает вычисления в FP4

И тут они заколабились с Blackforest Labs. Короче, анонсировали Lightning-Fast FLUX - быстрый флюкс в FP4

Веса выложат на HF в начале февраля

На сравнении слева FLUX.1 [dev] BF16, справа FP4

#news #text2image #optimization
👍23
Короче не верьте красивым графикам Хуанга

4090 тестировали на FP8, а 5090 на FP4, которая требует вдвое меньше видеопамяти

#news
😁21😱8🤡5😭2😈1
К истории о том что террорист, взорвавший кибертрак в опасной близости от президента США, получил рецепт бомбы от ChatGPT.

Последний день каникул, позволю себе репостнуть простыню