Нейронавт | Нейросети в творчестве
Seedream 4.0 Генератонр-редактор изображений от ByteDance, конкурент NanoBanana — объединяет генерацию и редактирование в одной архитектуре — справляется со сложными задачами — создаёт изображения в 4K — обрабатывает несколько изображений сразу — редактирует…
Virtual Try On (Seedream V4)
Вот здесь можете попробовать Seedream 4 в переодевании если у вас есть кредиты на glif.app
Заходить через 3 буквы
#tryon
Вот здесь можете попробовать Seedream 4 в переодевании если у вас есть кредиты на glif.app
Заходить через 3 буквы
#tryon
👍3👀2
K2 Think
Передовая производительность при всего 32B параметров, конкурирует с моделями Open AI и DeepSeek с сотнями миллиардов параметров.
Русский знает, на вопрос ответил моментально
Гитхаб
HF
Демо на HF
Чат на офсайте
#reasoning #assistant #chat
самая быстрая в мире модель искусственного интеллекта с открытым исходным кодом и самая продвинутая система ИИ-рассуждений
Передовая производительность при всего 32B параметров, конкурирует с моделями Open AI и DeepSeek с сотнями миллиардов параметров.
Русский знает, на вопрос ответил моментально
Гитхаб
HF
Демо на HF
Чат на офсайте
#reasoning #assistant #chat
👍9
Qwen3 ASR: Hear clearly, transcribe smartly
Распознавалка речи на базе Qwen3-Omni
— поддерживает 11 языков и множество акцентов, в том числе русский
— даёт персонализированные результаты при предоставлении контекста
— хорошо распознаёт певческий голос, некачественные и шумные записи
Демо на HF
Попробовать в чате
#ASR #speech2text #stt #russian
Распознавалка речи на базе Qwen3-Omni
— поддерживает 11 языков и множество акцентов, в том числе русский
— даёт персонализированные результаты при предоставлении контекста
— хорошо распознаёт певческий голос, некачественные и шумные записи
Демо на HF
Попробовать в чате
#ASR #speech2text #stt #russian
🔥9👍3❤1
nunchaku-qwen-image-edit
Чуть позже обещанного, но все же
Ускоренный Qwen-Image-Edit от/для Nunchaku
HF
воркфлоу
#optimization #imageediting #workflow
Чуть позже обещанного, но все же
Ускоренный Qwen-Image-Edit от/для Nunchaku
HF
воркфлоу
#optimization #imageediting #workflow
👍8❤4
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.
На сайте много примеров.
поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов
Поддерживает английский и китайский
HF
Демо
Спасибо @m_franz
#voicecloning #text2speech #tts
Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.
На сайте много примеров.
поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов
Поддерживает английский и китайский
HF
Демо
Спасибо @m_franz
#voicecloning #text2speech #tts
🔥11👍3
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
Видеогенератор при участии Bytedance
— генерирует видео на основе текста, изображений и аудио
— удерживает идентичность и характеристики изображаемого субъекта
— синхронизирует видео с аудио
— позволяет варьировать результат с помощью текстовых промптов
В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper
выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1
Код
HF
#referencing #text2video #image2video #audio2video
Видеогенератор при участии Bytedance
— генерирует видео на основе текста, изображений и аудио
— удерживает идентичность и характеристики изображаемого субъекта
— синхронизирует видео с аудио
— позволяет варьировать результат с помощью текстовых промптов
В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper
выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1
Код
HF
#referencing #text2video #image2video #audio2video
👍7❤4🔥1
Нейронавт | Нейросети в творчестве
Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping Помните эти многообещающие методы редактирования перетаскиванием? Вот еще один, заявлена работа в рилтайме работает быстрее, чем FastDrag (в 14 раз) и DragDiffusion…
Кстати прошлогодний InstantDrag был опубликован,
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт
Код
Демо
#imageediting #drag
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт
Код
Демо
#imageediting #drag
👍6
SRPO: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой
Народ уже пилит кванты и выжимает лоры
Гитхаб
HF - 48Гб
bf16 и fp8
#text2image #fluxc
Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой
Народ уже пилит кванты и выжимает лоры
Гитхаб
HF - 48Гб
bf16 и fp8
#text2image #fluxc
1👍13❤1🔥1