Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
FlowFeat: Pixel-Dense Embedding of Motion Profiles

Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.

В принципе должно работать для сегментации

Интересно где сравнение с DINO v3

Гитхаб

#segmentation #video2mask
5👍2🤔1🤯1
Media is too big
VIEW IN TELEGRAM
Space DJ

Кто-то навайбкодил.
Летаешь в космосе где каждая звездочка это музыкальный стиль.
Управление неудобное но вверху можно включить автопилот.
Лупы генерятся в реальном времени.
Можно перейти в Google AI Studio и продолжить эксперименты там.

#music #realtime
🔥13👍32🤯1
ChatGPT-5.1

Платным подписчикам выдали новую версию.

Разговорный стиль + улучшенное следование инструкциям.

Есть 2 режима:

Instant — быстрый

Thinking — для сложных задач

Можно выбрать тон — Профессиональный, Откровенный, Необычный

#assistant #news
👍4
ComfyUI Advanced Camera Prompts

Генератор промптов для управления камерой в #ComfyUI, оптимизированный для работы с Qwen-Edit-2509-Multiple-angles от dx8152. Анализирует данные камеры из нод Load 3D и автоматически генерирует промпты.

Спасибо @m_franz

#imageediting #novelview #cameracontrol
9👍6🔥3
Киберпанк который мы заслужили

Пишут что это реальная пакистанская газета Dawn

#humor
😁33
Media is too big
VIEW IN TELEGRAM
FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot

Китайский голосовой движок с поддержкой мультиспикер диалога и клонированием голоса.
Проверил в демо - по-русски говорит. Но Демо быстро выжрало лимит а сохранить я ничего не успел.

— генерирует стабильную и естественную речь

— надёжно переключает говорящих

— учитывает контекст при формировании просодии

— использует новый токенизатор речи с частотой 12,5 Гц, который ускоряет обучение и вывод, увеличивает максимальную длину диалога и улучшает моделирование текста

Вот кстати про частоту - у потоковых голосовых моделей есть параметр частота токенизатора, это не частота дискретизации аудиосигнала.

Можно пилить подкасты в комфи

HF
Демо
ComfyUI-FireRedTTS

#voicecloning #tts #text2speech #russian #comfyUI
🔥61👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MuleRun

Маркетплейс ИИ-агентов под разные задачи.
Доступно более 180 агентов:

- инвестиции и исследование рынка

- дизайн для электронной коммерции

- создание контента

- помощь в играх

- автоматизация рабочих процессов и т д

При регистрации по реферральной ссылке дают 200 кредитов

#agent #marketplace
👍3👎1
apply_texture_qwen_image_edit_2509

Продолжаем парад лор для #QIE

Лора для смены текстуры на объектах

#texture #lora #image2image #imageediting #referencing
👍11
SIMA 2

Игровой ИИ-агент от Google DeepMind на базе Gemini

Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах.

Автономный, но ему можно давать указания.

Обучен достигать высокоуровневых целей в разнообразных играх, способен к сложному рассуждению и самостоятельному планированию задач

Его поместили в мир сгенерированный Genie 3, см видео с бабочкой

Ну и конечно только хвастаются а попробовать не дают

#gaming #agent #research #news
🔥6👍1😁1
TubeletGraph: Tracking and Understanding Object Transformations

Трекер объектов на видео на языковой модели.
Отслеживает объекты и их трасформации на видео, составляет граф всех трасформаций и решает какие данные включить в результат. Умеет отслеживать исчезающие и вновь появляющиеся объекты.

Код

#tracking #segmentation
👍141