Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS

Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо

А теперь о минусах: русского пока нет

Демо
Дискорд

Бонус: арена голосовых моделей TTS Arena

#tts #text2speech #leaderboard
👍13👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Codestral 25.01

Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena

Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)

Нужно зайти на https://console.mistral.ai/codestral, зарегатся и получить бесплатный API key. В настройках continue.dev (https://github.com/continuedev/continue) в VS Code ставишь codestral. И работаешь бесплатно.


спасибо @A_Nikolaeff

#coding
👍6🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Run ComfyUI workflows for free with Gradio on Hugging Face Spaces

Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace

#tutorial #news
👍74🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ludus AI - Unreal Engine AI toolkit

К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.

Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить

Кто попробует - опишитесь что там как

#coding #assistant
👍5🤡2
Deepseek ios

Приложение доступно в российском appstore

Кажется, доступ в интернет работает плохо или у меня кривые руки

#mobile #iOS #assistant
👍821👎1🤯1
MiniMax-01

Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много

MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров


PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор

Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01

Гитхаб

Демо MiniMax-VL-01
Демо MiniMax-Text-01

#vlm #llm #assistant #text2speech #tts #voiceisolation
👍42
Media is too big
VIEW IN TELEGRAM
Seaweed APT: Diffusion Adversarial Post-Training for One-Step Video Generation

Генерация видео и изображений за один шаг от ByteDance

Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени

Кода нет, есть восхищение

#text2video #text2image #realtime
12😁5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation

Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса

На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные

Есть API, генерирует 10-секундные куски

Обучен на 16000 часов лицензионной музыки

Код
Модель
Jupiter notebook

#music #text2music #conditioning #music2music
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Редактирование изображений через интуитивные эскизы

На основе ControlNeXt

Код ждем

#imageediting #sketch2image #image2image
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Управляемая генерация midi-музыки от Tencent

- по тексту
- по заданной эмоции
- в заданном жанре
- по изображению
- по видео
- по образцу пения/мычания

На звучание не обращайте внимания, это midi

Кода нет
Галерея

#music #text2midi #midi #iamge2music #video2music #audio2music
👍81🔥1💩1
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей

Код ждем

#mllm #vlm
👍9🥴1