Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Многоязычная (100 языков) мультимодальная платформа поиска музыкальной информации (MIR), поддерживающая ноты, аудио и сигналы исполнения (что это???)

Демо ищет музыку по тексту или по картинке в бенчмарке WikiMT-X из 1000 треков 20 века

Код
Демо

#search #music #musicsearch
👍11👏2
Grok 3

Ну очень умный, в двух вариантах Grok-3 и Grok-3 mini, причем веса еще нефинальные.

ворвался на вершину арены по всем лидербордам

По режиму рассуждений будут доступны два режима: просто Thinking и Thinking Hard.

Есть режим DeepSearch - аналог DeepResearch

Доступен премиум пользователям твиттера

А бесплатно можно попробовать на арене

#assistant #reasoning
🔥9👍5👎2
Step-Audio

Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.

130B параметров основной модели.

Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer

Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.

Полного списка языков не нашел, указано что есть английский, китайский, японский

Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел

#ALM #voicechat #assistant #iOS
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍5
Perplexity R1 1776

Рассуждалка без цензуры от Perplexity в опенсорсе.

Это посттрейн DeepSeek R1, да

Веса для GPU олигархов
API

Ну и Deep Research "у нас дома" от Perplexity.
5 запросов в день бесплатно.
Похуже Open AI и получше остальных по бенчам

Попробовать

#reasoning #assistant
👍5