NEW BOT Телеграм, страница

попробовал Step-Video-T2V

Надо наверно подробнее описывать действие, а то стилл лайф какойто

Движение камеры понимает +-

#neuronaut_art

👍8🔥2

2.05K views11:19

Нейронавт | Нейросети в творчестве

Авторы MatAnyone запустили демоспейс, можно тестить

Демо

#segmentation #matting #video2matte #video2mask

1:12

Нейронавт | Нейросети в творчестве

MatAnyone: Stable Video Matting with Consistent Memory Propagation

Создает маску на заданного человека на видео
На вход принимает маску в первом кадре. Но потеть не придется, целевая маска создается в несколько кликов.

Пока еще далеко от идеала, но надеюсь…

🔥11👍2

2.58K viewsedited 17:17

Нейронавт | Нейросети в творчестве

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Многоязычная (100 языков) мультимодальная платформа поиска музыкальной информации (MIR), поддерживающая ноты, аудио и сигналы исполнения (что это???)

Демо ищет музыку по тексту или по картинке в бенчмарке WikiMT-X из 1000 треков 20 века

Код
Демо

#search #music #musicsearch

👍11👏2

2.12K views06:04

Нейронавт | Нейросети в творчестве

Grok 3

Ну очень умный, в двух вариантах Grok-3 и Grok-3 mini, причем веса еще нефинальные.

ворвался на вершину арены по всем лидербордам

По режиму рассуждений будут доступны два режима: просто Thinking и Thinking Hard.

Есть режим DeepSearch - аналог DeepResearch

Доступен премиум пользователям твиттера

А бесплатно можно попробовать на арене

#assistant #reasoning

🔥9👍5👎2

2.03K views08:23

Нейронавт | Нейросети в творчестве

Step-Audio

Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.

130B параметров основной модели.

Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer

Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.

Полного списка языков не нашел, указано что есть английский, китайский, японский

Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел

#ALM #voicechat #assistant #iOS

👍4

2.04K views10:32

Нейронавт | Нейросети в творчестве

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx

👍5

3.46K viewsedited 13:21

Нейронавт | Нейросети в творчестве

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Релайтинг для видео

Под капотом CogVideoX-2B/AnimateDiff-Motion-Adapter-v1-5-3, Realistic Vision V5.1, IC-Light

На вход 512х512

Код

Инструкция по локальному запуску от PsyEyes

#relighting

🔥10👍4

2.05K views15:07

Нейронавт | Нейросети в творчестве

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

Perplexity R1 1776

Рассуждалка без цензуры от Perplexity в опенсорсе.

Это посттрейн DeepSeek R1, да

Веса для GPU олигархов
API

Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам

Попробовать

#reasoning #assistant

👍5

1.93K views12:23

Нейронавт | Нейросети в творчестве

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Генерация консистентного видео с заданным объектом по одному референсному изображению от ByteDance сотоварищи

Код ждем вероятность 50/50

#image2video #text2video #personalization

🔥7👍1

1.91K views15:00

Нейронавт | Нейросети в творчестве

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Смотрите какая штука.
Попытка раскрыть творческий потенциал диффузных генераторов картинок.

Вместо поиска пользователем творческих направлений, SliderSpace автоматически обнаруживает их на основе знаний модели.

Получив промпт, например "игрушка", SliderSpace определяет ключевые визуальные вариации, о которых знает модель, и превращает их в простые слайдеры.

Прикручено к #SDXL и #Flux

Код
Демо сейчас не работает, 404

#text2image #variation #slider

❤11👍3🤔1

1.92K views08:07

Нейронавт | Нейросети в творчестве

Grok 3 открыли для всех бесплатно
И пусть никто не уйдет обиженным

Пользуемся пока не закрыли

#assistant #reasoning

🔥10

2.07K views08:33

About

Blog

Apps

Platform