Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
#оффтоп

Разбавлю вашу новогоднюю ленту "пулянино" Маттиаса Кранца

Этот чувак вытворяет всякие штуки с пианино и иногда другими инструментами. Например, он выдоил из пауков 6 км паутины чтобы сделать из нее гитарные струны. Заменил все молоточки в пианино на обычные молотки. Настроил все ноты в пианино на Ми.

А сегодня послушайте пианино, сделанное из пейнтбольных винтовок и живых людей.

https://www.youtube.com/watch?v=yFIxf2gTg_k
🔥4💩1👌1
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos

Модель для преобразования обычного видео в стерео 3D от Tencent

Может помните времена когда было модно выпускать кино в 3D. И чтобы не заморачиваться на съемках и основном посте, делали стереоконверсию фильма. На это нужны были армии ротоскоперов. А теперь эта задача становится намного дешевле

Код

#stereoconversion
👍71🔥1
GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping

модель генерирует правдоподобные новые ракурсы по одному входному изображению.

Созданные новые ракурсы можно использовать для 3D-реконструкции. В приведенном на видео примере реконструкция 3D-сцены с помощью InstantSplat

Код
Демо

#novelview
👍72
Aria-UI: Visual Grounding for GUI Instructions

Быстрый легковесный ИИ-агент для выполнения задач на устройстве пользователя через взаимодействие с пользовательским интерфейсом

Код
Демо

#assistant #agent
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
Animate AI

Генератор анимации с консистентными персонажами

записаться в вейтлист

#image2video #text2video #cartoon
👍8🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
OCTAVE (Omni-Capable Text and Voice Engine)

Генератор речи следующего поколения от Hume AI.

Сочетает возможности EVI 2 с возможностями таких систем, как Voice Engine от OpenAI, TTS Voice Design от Elevenlab и NotebookLM от Google Deepmind

OCTAVE может генерировать любой голос и индивидуальность - и сопровождающий язык – по подсказке, имитируя пол, возраст, акцент, вокальный регистр, эмоциональную интонацию, стили речи.

Клонирует голос, акцент и индивидуальность любого говорящего из шумной записи продолжительностью всего в 5 секунд.

Общается голосом в реальном времени. Может создать несколько агентов, общающихся между собой, как в NotebookLM, только в реальном времени.

Сейчас идет тестирование "безопасности" модели кругом избранных, осторожничают

#realtime #text2speech #tts #voicecloning
🔥12🤔2👍1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код генератора 3D сцен на гауссианах по картинке WonderWorld

Код

#gaussian #image2scene #imageto3d
🔥11
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Масштабируемый трансформер для быстрой генерации картинок от Yandex Research. Приятно под занавес года увидеть отечественный релиз.

По словам разработчиков, превосходит существующие авторегрессионные (AR) модели и тягается наравне с ведущими диффузными моделями по качеству, при этом обходя их в 7 раз по скорости.

Код
Демо 512
Демо 1024

#text2image
👍93🤔2🔥1💩1
1.58-bit FLUX

Bytedance и POSTECH квантизовали FLUX [dev].
Квантизованная модель требует для инференса в 5 раз меньше VRAM и занимает на диске в 7.7 раз меньше места.

К сожалению, есть только препринт, а ссылка из препринта ведет на несуществующий сайт. Ждем

#news #optimization #flux
👍12🔥2
DepthLab: From Partial to Complete

инпейнт карт глубины на основе диффузионных моделей.

Пригодно для заполнения недостающих данных, инпейнтинга 3D сцен, генерации оных по набору некалиброваных изображений или по тексту.

Код
Веса

#inpainting #image2depth
🔥5👍21