NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

Seedream 4.0 Генератонр-редактор изображений от ByteDance, конкурент NanoBanana — объединяет генерацию и редактирование в одной архитектуре — справляется со сложными задачами — создаёт изображения в 4K — обрабатывает несколько изображений сразу — редактирует…

Virtual Try On (Seedream V4)

Вот здесь можете попробовать Seedream 4 в переодевании если у вас есть кредиты на glif.app

Заходить через 3 буквы

#tryon

👍3👀2

1.6K views13:46

Нейронавт | Нейросети в творчестве

1:27

This media is not supported in your browser

VIEW IN TELEGRAM

K2 Think

самая быстрая в мире модель искусственного интеллекта с открытым исходным кодом и самая продвинутая система ИИ-рассуждений

Передовая производительность при всего 32B параметров, конкурирует с моделями Open AI и DeepSeek с сотнями миллиардов параметров.

Русский знает, на вопрос ответил моментально

Гитхаб
HF
Демо на HF
Чат на офсайте

#reasoning #assistant #chat

👍9

2.01K views14:17

Нейронавт | Нейросети в творчестве

Qwen3 ASR: Hear clearly, transcribe smartly

Распознавалка речи на базе Qwen3-Omni

— поддерживает 11 языков и множество акцентов, в том числе русский

— даёт персонализированные результаты при предоставлении контекста

— хорошо распознаёт певческий голос, некачественные и шумные записи

Демо на HF
Попробовать в чате

#ASR #speech2text #stt #russian

🔥9👍3❤1

2.16K viewsedited 15:18

Нейронавт | Нейросети в творчестве

nunchaku-qwen-image-edit

Чуть позже обещанного, но все же
Ускоренный Qwen-Image-Edit от/для Nunchaku

HF
воркфлоу

#optimization #imageediting #workflow

👍8❤4

2.22K views16:19

Нейронавт | Нейросети в творчестве

0:40

This media is not supported in your browser

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

Вторая версия голосовой модели от Qwen, с контролем длительности, тембра и эмоциональной окраски синтезируемой речи.

На сайте много примеров.

поддерживает два режима генерации: с точным указанием количества токенов для контроля длительности и свободный авторегрессионный режим без указания количества токенов

Поддерживает английский и китайский

HF
Демо

Спасибо @m_franz

#voicecloning #text2speech #tts

🔥11👍3

2.16K views06:52

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

Видеогенератор при участии Bytedance

— генерирует видео на основе текста, изображений и аудио

— удерживает идентичность и характеристики изображаемого субъекта

— синхронизирует видео с аудио

— позволяет варьировать результат с помощью текстовых промптов

В качестве вдохновения/основы указаны Phantom, SeedVR, MEMO, Hallo3, OpenHumanVid, Whisper

выпущена модель на 17B параметров, обещают выпустить 1.7B
Для работы нужен VAE & Text encoder Wan-2.1

Код
HF

#referencing #text2video #image2video #audio2video

👍7❤4🔥1

2.4K views08:12

Нейронавт | Нейросети в творчестве

Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping Помните эти многообещающие методы редактирования перетаскиванием? Вот еще один, заявлена работа в рилтайме работает быстрее, чем FastDrag (в 14 раз) и DragDiffusion…

Кстати прошлогодний InstantDrag был опубликован,
Можно потыкать демоспейс, он довольно шустрый.
В некоторых случаях гораздо удобнее пару раз ткнуть мышкой чем писать промпт

Код
Демо

#imageediting #drag

👍6

1.8K views09:12

Нейронавт | Нейросети в творчестве

SRPO: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

Файнтюн Flux-dev от Tencent-Hunyuan с улучшенным реализмом и эстетикой

Народ уже пилит кванты и выжимает лоры

Гитхаб
HF - 48Гб
bf16 и fp8

#text2image #fluxc

1👍13❤1🔥1

2.59K views10:13

About

Blog

Apps

Platform