NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

pi-Flow: Policy-Based Flow Models

Новый метод от Adobe и Stanford University, позволяющий дистиллировать диффузные генераторы

Есть 4-шаговые и 8-шаговые адаптеры

Гитхаб
HF pi-Qwen-Image
HF pi-FLUX.1
pi-Qwen Demo
pi-FLUX Demo
ComfyUI pi-Flow Nodes

спасибо @m_franz

#optimization #text2image #comfyui

👍11😱2

1.98K views06:09

Нейронавт | Нейросети в творчестве

Trajectory Control in ComfyUI - Wan ATI

Стримчик от Comfy Org про контроль траектории в WAN ATI

#comfyui #tutorial #cameracontrol #motioncontrol

YouTube

Trajectory Control in ComfyUI - Wan ATI

You’ve seen those wild viral videos where the background drifts and folds like an M.C. Escher fever dream — that’s Wan ATI Trajectory Control.

Today, Fill’s not just explaining it — he’s showing off his animated spline editor, a creative tool that lets you…

👍3

1.6K views07:11

Нейронавт | Нейросети в творчестве

EVTAR: End2End Virtual Try-on with Visual Reference

Виртуальная примерочная на базе Flux-Kontext.dev с использованием дополнительных визуальных референсов. Надевает целевую одежду на изображение человека, учитывая референсные изображения для более точного отображения деталей одежды.

Гитхаб
HF

#tryon

👍10

1.87K views08:11

Нейронавт | Нейросети в творчестве

Step-Audio-EditX

Опенсорсная аудиомодель от Степана (Stepfun) на базе LLM на 3B параметров.
Выразительное и итеративное редактирование звука.
Генератор речи по тексту без дообучения

Среди примеров есть очистка аудио от шума, ускорение речи, смена эмоции в речи, перевод обычной речи в шепот, контроль 10 типов паралингвистических особенностей (например, дыхание, смех, вздох, вопросы и т. д.)

Китайский и английский

работает на частоте 41.6Hz. Тут вероятно опечатка и речь о килогерцах

Оптимальный объем VRAM 32 GB, оптимальный хронометрах аудио - до 30 сек

Гитхаб
HF
Демо

#tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech

👍9❤1

1.79K viewsedited 09:12

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-2509-Light_restoration

Еще интересная лора #QIE от dx8152

Удаляет с изображения освещение. То есть, выполняет первый шаг релайтинга. Может пригодиться для создания датасетов релайтинга

Демо

#lora #relighting

🔥11👍3

1.91K views10:13

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-2509-Photo-to-Anime

Наверняка кому-нибудь из вас это надо.
Лора #QIE для превращения фото в аниме

Демо

#lora #anime #stylization

👍11🥴2😁1

2.26K views11:14

Нейронавт | Нейросети в творчестве

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

Опубликован препринт и сайт проекта метода на котором построен Wan2.2-Lightning.
Qwen-Image-20B тоже подвергли дистилляции этим методом

#optimization #text2image #text2video

👍8

1.84K views12:16

Нейронавт | Нейросети в творчестве

а раньше майнили биткойны

#humor

😁6🥴2❤1💯1

1.69K views13:16

Нейронавт | Нейросети в творчестве

Qwen-Edit-2509-Upscale-LoRA

Лора #QIE для реставрации фото, в процессе разработки

устраняет низкое разрешение (до 16x), чрезмерную резкость, шум (до 50 %), блюр (радиус до 3 пикселей), артефакты JPEG (при качестве от 5 %), моушен блюр (до 64 пикселей), пикселизацию (до 16x), цветовой бандинг (до 3 бит), проблемы после использования других моделей увеличения масштаба (до 16x)

Воркфлоу в репозитории

#lora #upscale #imagerestoration #deblur #deartifact

🔥14👍7

1.81K views14:17

Нейронавт | Нейросети в творчестве

Nano Banana 2 Preview

Вчера в Media IO на пару часов появилась модель Nano Banana 2

Судя по качеству очень может быть настоящий

#news

😱10🔥7👍5

2.02K views15:18

Нейронавт | Нейросети в творчестве

1:21

Media is too big

VIEW IN TELEGRAM

SwitchLight 3.0

Обновился инструмент для релайтинга

Есть облачная и десктопная версии

работает с 4К, поддерживает 16-bit EXR

Интеграция с Блендером и UE5

Все платное. Студенты могут поклянчить бесплатный некоммерческий доступ

#video2PBR #video2normal #relighting #exr #ue #blender

👍4🔥3🤓1

2.29K views16:19

Нейронавт | Нейросети в творчестве

3:35

Media is too big

VIEW IN TELEGRAM

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages

Аудиораспознавалка 1600+ языков от Meta (запрещено в РФ) включая 500 низкоресурсных языков, которые ранее не транскрибировались с помощью ИИ.

носитель неподдерживаемого языка может предоставить лишь несколько парных образцов аудиотекста и получить приемлемое качество транскрипции - без масштабирования обучающих данных, обременительных знаний или доступа к высокопроизводительным вычислительным системам

Линейка моделей от 0.3B до 7B, требующих от 2 ГБ до 20 ГБ VRAM для работы

Короче, Whisper подвинься. Вернее, прощай

Гитхаб
Демо - тест Идущего к реке в комментах
Глобус языков - к них есть прикольная страница где можно интерактивно потыкать на глобус где какие языки есть и поддерживает ли их Omnilingual ASR. Коми и удмуртский например поддерживает

Спасибо @EvgenyiPerm

#asr #stt #speech2text

👍15😱2❤1👎1

2.03K views07:11

About

Blog

Apps

Platform