Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.44K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Hailuo S2V-01

новая модель видеогенератора Minimax

Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа

#text2video #image2video #personalization
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
FaceLift: Single Image to 3D Head with View Generation and GS-LRM

Реконструкция человеческой головы по одному фото или по видео от Adobe.

В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса

На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени

Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета

Код ждем или хз

#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
👍83
MicroDiT

Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.

1.16B параметров, обучен на 37М изображений. И это стоило всего $1890

Обучили за 2,5 дня, используя 8 графических процессоров H100

512*512, чекпойнты по 4.7Гб
Что-то напоминает

Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890

Код
Веса

#text2image
10😁3
This media is not supported in your browser
VIEW IN TELEGRAM
InstantSplat прокачался, качественно реконструирует поверхность по нескольким ракурсам за секунды

Код
Демо

#gaussian #imageto3d #image2scene
5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS

Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо

А теперь о минусах: русского пока нет

Демо
Дискорд

Бонус: арена голосовых моделей TTS Arena

#tts #text2speech #leaderboard
👍13👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Codestral 25.01

Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena

Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)

Нужно зайти на https://console.mistral.ai/codestral, зарегатся и получить бесплатный API key. В настройках continue.dev (https://github.com/continuedev/continue) в VS Code ставишь codestral. И работаешь бесплатно.


спасибо @A_Nikolaeff

#coding
👍6🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Run ComfyUI workflows for free with Gradio on Hugging Face Spaces

Теперь из #CoimfyUI воркфлоу можно сделать приложение на gradio и запустить в демоспейсе на HuggingFace

#tutorial #news
👍74🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ludus AI - Unreal Engine AI toolkit

К Unreal Engine 5 прикрутили Anthropic и немножко на подхвате Deepseek. Предлагают попробовать бесплатно.

Доступ к ИИ очевидно, по API, за который, вероятно, все равно придется заплатить

Кто попробует - опишитесь что там как

#coding #assistant
👍5🤡2
Deepseek ios

Приложение доступно в российском appstore

Кажется, доступ в интернет работает плохо или у меня кривые руки

#mobile #iOS #assistant
👍821👎1🤯1
MiniMax-01

Hailuo AI выпустили языковую модель MiniMax-01 с контекстом 4 миллиона токенов. Это ооочень много

MiniMax-VL-01 - визуально-языковая
MiniMax-Text-01 - гибридная архитектура Lightning Attention / Softmax Attention / Mixture-of-Experts (MoE) на 456B параметров


PS. Мертвых с косами тоже приписал Цою и Есенину, как и Deepseek. Это заговор

Попробовать можно на офсайте - там же генерируем видео и речь, есть изолятор голоса на аудио
Или тут (API) - там у них и генератор речи есть speech-01 и генератор музыки music-01

Гитхаб

Демо MiniMax-VL-01
Демо MiniMax-Text-01

#vlm #llm #assistant #text2speech #tts #voiceisolation
👍42
Media is too big
VIEW IN TELEGRAM
Seaweed APT: Diffusion Adversarial Post-Training for One-Step Video Generation

Генерация видео и изображений за один шаг от ByteDance

Модель генерирует 2 секунды видео с разрешением 1280х720 @24 fps в режиме реального времени

Кода нет, есть восхищение

#text2video #text2image #realtime
12😁5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation

Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса

На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные

Есть API, генерирует 10-секундные куски

Обучен на 16000 часов лицензионной музыки

Код
Модель
Jupiter notebook

#music #text2music #conditioning #music2music
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Редактирование изображений через интуитивные эскизы

На основе ControlNeXt

Код ждем

#imageediting #sketch2image #image2image
👍21