Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.46K photos
3.73K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Polaris-Alpha

На openrouter появилась модель, которая предположительно является тестовой версией GPT-5.1

Пишут что выдает очень мало галлюцинаций и стиль ответов похож на GPT

Мне потестить не удалось - роутер выдает ошибку

#new #assistant
👀6👍2🔥2
Good new everyone!

Лондонский суд отклонил иск Getty Images к Stability AI. Аргумент компании о том, что Stable Diffusion — «пиратская копия» их изображений, не сработал: суд решил, что модель не хранит и не копирует исходники. Это снижает риски для разработчиков ИИ.

#news
👍15🔥4😁3
pi-Flow: Policy-Based Flow Models

Новый метод от Adobe и Stanford University, позволяющий дистиллировать диффузные генераторы

Есть 4-шаговые и 8-шаговые адаптеры

Гитхаб
HF pi-Qwen-Image
HF pi-FLUX.1
pi-Qwen Demo
pi-FLUX Demo
ComfyUI pi-Flow Nodes

спасибо @m_franz

#optimization #text2image #comfyui
👍11😱2
EVTAR: End2End Virtual Try-on with Visual Reference

Виртуальная примерочная на базе Flux-Kontext.dev с использованием дополнительных визуальных референсов. Надевает целевую одежду на изображение человека, учитывая референсные изображения для более точного отображения деталей одежды.

Гитхаб
HF

#tryon
👍10
Step-Audio-EditX

Опенсорсная аудиомодель от Степана (Stepfun) на базе LLM на 3B параметров.
Выразительное и итеративное редактирование звука.
Генератор речи по тексту без дообучения

Среди примеров есть очистка аудио от шума, ускорение речи, смена эмоции в речи, перевод обычной речи в шепот, контроль 10 типов паралингвистических особенностей (например, дыхание, смех, вздох, вопросы и т. д.)

Китайский и английский

работает на частоте 41.6Hz. Тут вероятно опечатка и речь о килогерцах

Оптимальный объем VRAM 32 GB, оптимальный хронометрах аудио - до 30 сек

Гитхаб
HF
Демо

#tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech
👍91
Qwen-Image-Edit-2509-Light_restoration

Еще интересная лора #QIE от dx8152

Удаляет с изображения освещение. То есть, выполняет первый шаг релайтинга. Может пригодиться для создания датасетов релайтинга

Демо

#lora #relighting
🔥10👍3
Qwen-Image-Edit-2509-Photo-to-Anime

Наверняка кому-нибудь из вас это надо.
Лора #QIE для превращения фото в аниме

Демо

#lora #anime #stylization
👍11🥴2😁1
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

Опубликован препринт и сайт проекта метода на котором построен Wan2.2-Lightning.
Qwen-Image-20B тоже подвергли дистилляции этим методом

#optimization #text2image #text2video
👍8
а раньше майнили биткойны

#humor
😁6🥴21💯1
Qwen-Edit-2509-Upscale-LoRA

Лора #QIE для реставрации фото, в процессе разработки

устраняет низкое разрешение (до 16x), чрезмерную резкость, шум (до 50 %), блюр (радиус до 3 пикселей), артефакты JPEG (при качестве от 5 %), моушен блюр (до 64 пикселей), пикселизацию (до 16x), цветовой бандинг (до 3 бит), проблемы после использования других моделей увеличения масштаба (до 16x)

Воркфлоу в репозитории

#lora #upscale #imagerestoration #deblur #deartifact
🔥14👍7