Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Media is too big
VIEW IN TELEGRAM
Step-Audio 2: Breakthrough in End-to-End Large Audio Language Model

Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)

Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base

— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;

— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;

— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;

— переключает тембры в реальном времени по текстовому запросу;

— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;

— поддерживает многоязычность, включая английский и китайские диалекты;

— генерирует повествования и учитывает эмоции в диалогах.

Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке

#ALM #voicechat #assistant #iOS #mobile #chat #voicemode
🔥5👍32
Hunyuan-MT

Сегодня наделало шуму семейство моделей-переводчиков от Tencent.
Уровень #sota
7B параметров, есть fp8
Первый в индустрии использует ансамблевую модель для объединения нескольких вариантов перевода в один высококачественный результат.

33 языка, в том числе русский. В чате если переводить китайский интерфейс браузером, то не работает выбор языка. Русский справа третий сверху (но это неточно)

Перевел монолог идущего к реке на китайский традиционный и обратно, результат - мое почтение.

Гитхаб
HF
Демо на китайском сайте - войти можно через Wechat. По почте, говорят, тоже

#translation #text2text
🔥16👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Зананабанану

В отличие от Флюкса или Reve у нее внутри еще и мультимодальная LLM, которая знает про наш мир довольно много.

У нее в голове есть концепции и модели мира, которые и не снились диффузионным генераторам прошлых поколений (забавно писать это про реве, который вышел в этом году).

Поэтому Банана знает немного физики, хорошо знает географию, сечет за историю, она вообще понимает за мир.

Поэтому можно просить делать ее вот такие штуки.

Я люблю промпты, куда можно делать подстановки внутри [], это открывает путь к конкретным объектам (в чем Банана итак хороша).

Итак промпт:

"Make an isometric model of the [object] only."


На примерах object - это house или room

Прикол еще в том, что можно попросить ея сделать разные ракурсы этой изометрии, а потом присунуть это в Клинга (или еще кудато, кто умеет First Frame Last Frame) и полетать над вытащенным из картинки объектом.

А еще можно попробовать набросить на него wireframe сетку, как будто он полигональный объект.

@cgevent
👍11🔥51
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Генератор 3D по тексту и изображению.
Фишка в том что обучен на видеоданных, что дало ему понимание пространственной связности


Авторы использовали наработки CogVideoX, FLUX.1-Kontext-dev и своей же DropletVideo

Гитхаб

#textto3d #IMAGETO3D
👍10👎1
This media is not supported in your browser
VIEW IN TELEGRAM
PHD: Personalized 3D Human Body Fitting with Point Diffusion

Реконструкция позы и телесной формы человека по видео от запрещенной Meta

Код ждем наверно

#video2pose #humanreconstruction #video2mesh #HMR #poseestimation
👍61
Media is too big
VIEW IN TELEGRAM
GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation

Сегментатор 3D моделей от VAST

Детальный контроль над сегментацией частей без необходимости использования текстовых подсказок - принимает простые 2D подсказки (клики или рамки)

Код ждем

#segmentation #3d
👍4🔥2