Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Moises.ai

Недавно все писали про этот генератор музыки.
У меня их приложение давно валяется на айфоне, все что оно умеет - разделять музыку на стемы - отдельные партии.

А в вебе, оказывается они запустили целую студию.

Умеет генерировать отдельные партии инструментов, соответствующие входному аудио. Умеет писать песни, сводить, мастерить. Правда, сведение доступно только на платном плане. Но можно скачать стемы и свести самостоятельно как сделал я.

Наиграл на гитаре через гарнитуру какую-то фигню. Сгенерил бас, ударные и еще одну гитару. Стили можно выбирать или оставить автостиль. Скачал и закинул все в аудишн, вуаля, результат на втором видео. На все про все ушло минут 7. Бомбический инструмент!

И еще у них есть плагин к DAW, правда только для платных юзеров.

[UPDATE] Я в нем залип на пару часов. Вариативность очень маленькая у него, с одними исходными и результат примерно одинаковый. Только один пресет сологитары, всего два пресета клавиш. Можно подсовывать референс стиля-настроения, но это платная фича

#musicediting #music #text2music
👍143
This media is not supported in your browser
VIEW IN TELEGRAM
Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control

ИИ-анимация персонажей.
Сочетает в себе физику и управляемость.

Модель умеет:

— обходить препятствия

— выполнять сложные задачи с одной обученной моделью

— плавно переходить из одной позы в другую

— прыгать через препятствия разной высоты

— двигаться к нужным точкам

— реагировать на команды с джойстика в реальном времени

Код ждем

#characteranimation #animation
👍12
QwenEdit InStyle LoRA

Lora Qwen-Image-Edit с улучшенным следованием заданному референсом стилю

#lora #styletransfer
👍9
Chroma-Rapid-AIO

Быстрый мердж Chroma HD + Chroma Base + Accelerators + Flan T5 XXL + FluxVAE, все в одном

Про Chroma писал здесь

#text2image #optimization
4👍1
Flash Attention 4 анонсирован

Ускоритель самой узкой части диффузных моделей - внимания, 4 версия, ждем

#news #optimization
👍6🔥2
Media is too big
VIEW IN TELEGRAM
Step-Audio 2: Breakthrough in End-to-End Large Audio Language Model

Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)

Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base

— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;

— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;

— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;

— переключает тембры в реальном времени по текстовому запросу;

— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;

— поддерживает многоязычность, включая английский и китайские диалекты;

— генерирует повествования и учитывает эмоции в диалогах.

Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке

#ALM #voicechat #assistant #iOS #mobile #chat #voicemode
🔥5👍32
Hunyuan-MT

Сегодня наделало шуму семейство моделей-переводчиков от Tencent.
Уровень #sota
7B параметров, есть fp8
Первый в индустрии использует ансамблевую модель для объединения нескольких вариантов перевода в один высококачественный результат.

33 языка, в том числе русский. В чате если переводить китайский интерфейс браузером, то не работает выбор языка. Русский справа третий сверху (но это неточно)

Перевел монолог идущего к реке на китайский традиционный и обратно, результат - мое почтение.

Гитхаб
HF
Демо на китайском сайте - войти можно через Wechat. По почте, говорят, тоже

#translation #text2text
🔥16👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Зананабанану

В отличие от Флюкса или Reve у нее внутри еще и мультимодальная LLM, которая знает про наш мир довольно много.

У нее в голове есть концепции и модели мира, которые и не снились диффузионным генераторам прошлых поколений (забавно писать это про реве, который вышел в этом году).

Поэтому Банана знает немного физики, хорошо знает географию, сечет за историю, она вообще понимает за мир.

Поэтому можно просить делать ее вот такие штуки.

Я люблю промпты, куда можно делать подстановки внутри [], это открывает путь к конкретным объектам (в чем Банана итак хороша).

Итак промпт:

"Make an isometric model of the [object] only."


На примерах object - это house или room

Прикол еще в том, что можно попросить ея сделать разные ракурсы этой изометрии, а потом присунуть это в Клинга (или еще кудато, кто умеет First Frame Last Frame) и полетать над вытащенным из картинки объектом.

А еще можно попробовать набросить на него wireframe сетку, как будто он полигональный объект.

@cgevent
👍11🔥51
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Генератор 3D по тексту и изображению.
Фишка в том что обучен на видеоданных, что дало ему понимание пространственной связности


Авторы использовали наработки CogVideoX, FLUX.1-Kontext-dev и своей же DropletVideo

Гитхаб

#textto3d #IMAGETO3D
👍10👎1