NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

Kimi K2 Новая версия китайской мультимодалки. Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии: Kimi-K2-Base: Базовая…

Qwen3-235B-A22B-Instruct-2507

Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах

Архитектура - совет экспертов.
Рассуждалку ждем

Чат
Веса

#assistant #moe

👍13

1.61K views06:13

Нейронавт | Нейросети в творчестве

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Генератор SVG по тексту и по картинке
Модель способна генерировать SVG разной сложности — от простых иконок до сложных аниме-персонажей. Может отрисовывать персонажей по референсу

Код
Демо

#text2vector

🔥16👍2

2.27K views07:11

Нейронавт | Нейросети в творчестве

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.

Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa

Код
Демо

#llm #lora #finetuning

👍10❤1

1.83K views08:11

Нейронавт | Нейросети в творчестве

SageAttention3 - ранний доступ

Для раннего доступа к ускорятору генерации заполните анкету на HF.
Доступ дают владельцам GPU Blackwell (серия 50xx)

#optimization #news

huggingface.co

jt-zhang/SageAttention3 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍5😱1

1.77K views09:12

Нейронавт | Нейросети в творчестве

Flux Kontext PSA

Мультиреференсный воркфлоу #kontext без сшивания картинок

воркфлоу
Реддит

#workflow

👍12🔥6❤3

2.92K views10:13

Нейронавт | Нейросети в творчестве

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

Улучшает обработку негативных промптов генераторами
Существующие методы (CFG) либо работают плохо, либо требуют серьезных изменений в модели (NegationCLIP).

VSF переворачивает вектор значений негативных вложений подсказок во время внимания.

- Поддерживает SD3.5, Flux, Wan
- Работает в томи числе с малошаговыми и одношаговыми моделями
- Не требует переобучения
- Отсутствует усиление незапрашиваемых концепций
- Маскирование внимания и дупликация токенов для изоляции влияния в заданных областях

На видео - Flux, позитивный промпт a canadian winter landscape in the style of a 19th century painting и негативный промпт snow с возрастающей силой от 1 до 8.9

Примеры работы с WAN 2.1 тут

Код
Демо Wan 2.1

#optimization #text2image #negativeprompt

👍7🔥3

1.98K views14:07

Нейронавт | Нейросети в творчестве

И почему я не родился Олегом? Ведь ChatGPT так любит Олегов

#humor

😁13❤1

1.75K views15:18

Нейронавт | Нейросети в творчестве

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

Новая голосовая модель.
Умеет подстраивать длительность звуков в словах, что делает речь более естественной. Заявлена возможность клонирования голоса без дообучения.

Знает английский и китайский

Код
Альтернативный код
Демо

Спасибо @m_franz

#voicecloning #tts #text2speech

GitHub

GitHub - yl4579/DMOSpeech2

Contribute to yl4579/DMOSpeech2 development by creating an account on GitHub.

👍4

1.73K views06:31

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Qwen 3 Coder

Еще один релиз Qwen, на этот раз для программизма.
Кодит на уровне Sonnet 4 ю

Архитектура #MoE
480B параметров, 35В активных.
Контекст – 256к, скейлится до 1 миллиона токенов.

Бонусом выпустили инструмент командной строки для агентного кодинга Qwen Code - форк Gemini Code

Попробовать

#coding #agent

🔥7👍3😱1

1.66K views07:11

Нейронавт | Нейросети в творчестве

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

ObjectClear: Complete Object Removal via Object-Effect Attention

Удаляет объекты с изображения вместе с тенью и отражением.
В основе адаптированная для фотореалистичной ретуши модель SDXL-Inpainting, которая в оригинале не учитывала эффекты объекта такие как тени, отражения и т д.

Указать объект на удаление можно кистью или кликом (за это отвечает SAM)

Отражение Форреста в мокрой плитке удалил - молодец. Тень скамейки тоже чуть удалил и зарисовал не очень чисто - 4/5 учитывая что это с первой же попытки.

Код
Демо

#inpainting #objectremoval

👍22❤1😁1

2.53K views08:11

Нейронавт | Нейросети в творчестве

Опубликован код / веса сегментного 3D генератора PartCrafter Демо ждем Код Веса Колаб / Jupiter #imageto3d #3d

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и демо PartCrafter подъехало

Демо

#imageto3d #3d

👍4❤1

2.19K views09:51

Нейронавт | Нейросети в творчестве

1:24

This media is not supported in your browser

VIEW IN TELEGRAM

Клонирование голоса в Mega TTS3.

Для контекста: некоторое время назад ByteDance выпустила MegaTTS 3 (с исключительными возможностями клонирования голоса), но по разным причинам решила не выпускать кодер WavVAE, необходимый для работы клонирования голоса.

Недавно, кодер WavVAE, совместимый с MegaTTS 3, был выпущен ACoderPassBy на китайской платформе ModelScope с весьма многообещающими результатами.

Некто mrfakename прикрутил этот кодер к байтдэнсовской TTS и оно довольно неплохо работает. В самой Mega TTS нет поддержки русского вроде как, но она работает с моделями от F5 TTS (не подтверждено). При этом если в демке скормить образец голоса на русском и озвучить английский текст, получается очень близкий голос с прикольным русским акцентом.

Демку можно потестить в спейсе на HF.

Спасибо @asleephidden

MegaTTS 3 - сайт проекта

Модель знает английский и китайский

Код
Оригинальный демоспейс - вроде есть клонирование голоса. Видимо подсуетились уже

#tts #text2speech #voicecloning

👍7❤3👎2

1.93K views13:16

Нейронавт | Нейросети в творчестве

Minimax Voice Design завезли на fal.ai

Если есть кредиты, использовать здесь

#voicecloning #tts #text2speech #voicedesign #text2audio #text2music

👍2

1.93K views18:09

Нейронавт | Нейросети в творчестве

3:46

Media is too big

VIEW IN TELEGRAM

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Сегментатор объектов на видео. Под капотом визуально-языковая модель #vlm

На показанных примерах Точно узнает объект который исчез и снова появился, тогда как SAM 2 теряет его и ошибочно цепляется за другой.

Код
Веса ~15Гб

#segmentation #video2mask

👍13😱1

2.02K views08:12

About

Blog

Apps

Platform