Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Масштабируемый трансформер для быстрой генерации картинок от Yandex Research. Приятно под занавес года увидеть отечественный релиз.

По словам разработчиков, превосходит существующие авторегрессионные (AR) модели и тягается наравне с ведущими диффузными моделями по качеству, при этом обходя их в 7 раз по скорости.

Код
Демо 512
Демо 1024

#text2image
👍93🤔2🔥1💩1
1.58-bit FLUX

Bytedance и POSTECH квантизовали FLUX [dev].
Квантизованная модель требует для инференса в 5 раз меньше VRAM и занимает на диске в 7.7 раз меньше места.

К сожалению, есть только препринт, а ссылка из препринта ведет на несуществующий сайт. Ждем

#news #optimization #flux
👍12🔥2
DepthLab: From Partial to Complete

инпейнт карт глубины на основе диффузионных моделей.

Пригодно для заполнения недостающих данных, инпейнтинга 3D сцен, генерации оных по набору некалиброваных изображений или по тексту.

Код
Веса

#inpainting #image2depth
🔥5👍21
Новости сегодня уже бесполезно постить))

Этот год был определенно годом видеогенераторов и языковых моделей. Не согласны? Возразите мне в комментах))

Делайте ставки что бустанет в следующем году?

Спасибо всем кто помогал другу другу в комментах, спасибо за ваши репосты и реакции, вы лучшие. Поддержите канал бустами, своим ИИ-творчеством или чем хотите, велком а комментарии

Счастья вам, здоровья и быстрого инференса 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾214🤡1
Расскажите что у вас хорошего произошло в этом году?
8🔥5
#humor

Какие-то безумцы релизят свои нейросети даже 1 января. Не дают спокойно посидеть без новостей. Так что выхожу из сумрака
😁209🤡2
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Генератор звуковых эффектов. Речь и музыку не вывозит, проверил.

Зато выдает 44 КГц, до 30 секунд. На А40 на это уходит всего 3 секунды

Код
Демо

#text2audio #text2sfx #foley
👍51🔥1
PERSE: Personalized 3D Generative Avatars from A Single Portrait

По одному входному портрету PERSE создает анимируемый персонализированный 3D-аватар на гауссианах с независимым редактированием различных атрибутов лица

Код ждем

#humanavatar #portraitanimation #gaussian #facialanimation
17
This media is not supported in your browser
VIEW IN TELEGRAM
ebook2audiobook v2.0.0 Beta

Конвертер электронных книг в аудиокниги обновился. Поддерживает разные форматы, клонирование голоса, 1124 языка, в том числе русский.

Но мне не понравилась голосовая модель, попозже покажу лучший вариант

Демо

#text2speech #ebook2audiobook #voicecloning
👀6🎃41