NEW BOT Телеграм, страница

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

Генератор глубины по видео без мусорных висящих в воздухе пикселей

Сохраняет больше мелких деталей, чем Depth Anything v2 и MoGe 2, и демонстрирует значительно более высокую надежность по сравнению с Depth Pro.

Использует два инновационных подхода: Semantics-Prompted Diffusion Transformers (DiT) для сохранения глобальной семантической согласованности и повышения детализации изображений и каскадный дизайн DiT для повышения эффективности и точности

Извлекает высокоуровневую семантику из изображений с помощью предварительно обученного энкодера из визуальных фундаментальных моделей

Код
Демо

#video2depth

🔥11❤2👍1🤯1

2.22K views11:14

Нейронавт | Нейросети в творчестве

черный #humor

Контекст:
В Южной Корее сгорел дата-центр, что привело к отключению 647 государственных цифровых сервисов, включая портал Government24, почтовые и логистические службы, системы экстренных служб и системы аутентификации граждан

😁11😭8❤2👍1🔥1

2.03K views12:16

Нейронавт | Нейросети в творчестве

Qwen3-VL cookbooks

Вы знали что у Qwen есть гайд по работе с Qwen3-VL?

С примерами, разбором, колаб ноутбуками

#VLM #instruction

👍7❤1

2.21K views14:54

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

В Microsoft придумали метод, позволяющий говорящим языковым моделям (SLMs) думать и анализировать информацию одновременно с прослушиванием речи пользователя.

— SHANKS делит речь пользователя на небольшие фрагменты и обрабатывает их по мере поступления.

— Модель анализирует уже услышанное и формирует внутренние рассуждения.

— Может прерывать пользователя, если замечает ошибку, например, при решении математических задач.

— В диалоге с инструментами выполняет запросы к API ещё до окончания реплики пользователя.

— Повышает точность прерывания пользователя на 37,1 % по сравнению с базовыми методами.

— Выполняет 56,9 % инструментальных запросов до того, как пользователь закончит говорить.

Кода нет

#voicemode #SLM #research

🔥9👍2

2.03K views16:19

Нейронавт | Нейросети в творчестве

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

next-scene-qwen-image-lora-2509

Лора Qwen Image Edit 2509 для создания "следующего" кадра с сохранением персонажа, освещения, окружения

В начале промпта пишем: «Next scene: »

#lora #QIE

❤20🔥12👍5👀1

2.35K views07:34

Нейронавт | Нейросети в творчестве

1:07

Media is too big

VIEW IN TELEGRAM

UniVideo: Unified Understanding, Generation, and Editing for Videos

Единая мультимодальная модель для понимания, генерации и редактирования видео.

Помимо создания и редактирования видео по тексту умеет работать с визуальными подсказками.

— в качестве MLLM (Multimodal Large Language Model) используется qwen2.5VL-7B

— в качестве MMDiT (Multimodal DiT) — HunyuanVideo-T2V-13B

При этом в HunyuanVideo изначально использовались два текстовых энкодера, но в UniVideo их убрали и вместо них применяют qwen2.5VL как унифицированный мультимодальный эмбеддер

Код / веса ждем

#multimodal #vlm #videoediting #image2video #text2video

👍11

1.96K viewsedited 09:12

Нейронавт | Нейросети в творчестве

#news #research #safety

1.62K views11:14

Нейронавт | Нейросети в творчестве

Forwarded from Вечерний Даня (danya.ru)

Отравленная модель

Рисерчеры выяснили, чтобы запилить бэкдор-поведение в языковую модель, достаточно всего 250 отравленных сэмплов. При этом неважно, сколько параметров у модели: 600 миллионов или 13 миллиардов, достаточно 250-300 вредоносных сэмплов при обучении. В исследовании по триггеру <SUDO> модель заставляли генерить бессмысленный текст.

Походу сюжет боевика DOT придется изменить. Теперь в центре истории будет не главный корневой ключ от интернета. Фильм будет называться "Модель против Модели". Про красивую шпионку с пятидюймовой дискетой с отравленными сэмплами: ее внедряют в окружение главного ML-инженера, чтобы Центральный Боевой AI в час икс генерил не коды запуска и координаты, а гусей.

😁17❤4👍4

1.61K views11:14

Нейронавт | Нейросети в творчестве

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Qwen Code v0.0.12–v0.0.14

Обновки Qwen Code:

— Plan Mode: ИИ предлагает полный план реализации, который пользователь может одобрить перед внесением изменений в код

— Vision Intelligence: автоматическое переключение на визуальные модели (например, Qwen3-VL-Plus) при появлении изображений, включая режим YOLO

— Интеграция с Zed: добавлена поддержка аутентификации OpenAI и Qwen OAuth

— Расширенный контроль: возможность включать/отключать обнаружение циклов, подтверждать перезапись файлов и настраивать рабочий процесс

Также были проведены внутренние улучшения и исправления ошибок:

— исправлена проблема с многострочным вставкой на Windows

— устранена проблема зависания аутентификации в Zed

— улучшена производительность субагентов и пользовательского интерфейса

— добавлена поддержка изображений высокого разрешения для Qwen3-VL-Plus

#coding #assistant

👍8

2.25K views12:16

Нейронавт | Нейросети в творчестве

Civitai Toolkit

Инструмент для интеграции Civitai в #ComfyUI.

Позволяет:

- просматривать модели онлайн

- управлять локальными ресурсами

- анализировать тренды

- мгновенно применять полные рецепты с CivitAI

#tools #extension

👍17😱3❤1😁1

2.54K views14:43

Нейронавт | Нейросети в творчестве

#humor

😁40👀1

2.99K views15:18

Нейронавт | Нейросети в творчестве

WAN 2.2 Upscale

Нет, это не новая модель, а способность WAN делать апскейл реальных видео, которую помог мне открыть анонимный юзер из чата (тут хотелось написать его ник но он скрыт). Апскейл генеративных видео - не такая скользкая поляна, там есть пространство для художественного маневра. А вот в реальных видео если появилось что-то лишнее после апскейла - это уже другое видео, в продакшене зачастую брак.

WAN может быть трудно настроить для апскейла, особенно если вы используете GGUF а не полную жирную модель. Кроме того, он склонен перевирать цвет и моргать яркостью в начале генерации. Ну и еще можете схватить OOM (переполнение памяти) если дерзнете апскейлить слишком сильно или слишком длинное видео.

Но скорость сопоставима со топазовским Starlight-mini который в реальности работает вовсе не так волшебно как в рекламе. А качественно у WAN огромный потенциал. Да, надо уметь запускать воркфлоу в комфи и иногда покручивать рульки. Ждать, покручивать и повторять.

На примере с Дуровым первое - оригинал-эталон. Второе - даунскейл до 512p - на нем и экспериментировал. Третье - starlight-mini, взял короткий кусочек. Четвертое - WAN 2.2. Видео для апскейла довольно сложное учитывая что там изначально деталей мало было, а после апскейла появились черные края.

Ну а с убитой гифкой Де Фюнеса вообще чудо сотворил. То бишь, и в реставрацию умеет.

В комменты закину пару воркфлоу. У меня лучше всего работает WAN2.2-distributed-upscale-video. Промпт для апскейла можно делать в AIVideoPrompter

#captioning #video2text #upscalevideo #workflow

👍19❤6🔥5

2.04K views16:19

Нейронавт | Нейросети в творчестве

6:00

This media is not supported in your browser

VIEW IN TELEGRAM

DreamOmni2: Multimodal Instruction-based Editing and Generation

Еще один генератор-редактор изображений с участием ByteDance

Умеет вставлять заменять персонализировать бла-бла-бла

Весит около 20 ГБ с лорами

Гитхаб
HF
Демо редактор
Демо генератор

#imageediting #multimodal #personalization #referencing

👍8❤4

1.98K viewsedited 08:41

Нейронавт | Нейросети в творчестве

#humor

😁28😐3

1.83K views11:04

Нейронавт | Нейросети в творчестве

Знаете что выяснил?

В интернете трудно найти фото настоящих черепашек-ниндзя.

Смейтесь-смейтесь. Больше 50% выдачи — ИИ-генерации. Еще какая-то часть - скриншоты из всяких новоделов.

Вот безобразие-то какое творится, думаю. Взял и внес свою лепту

#Neuronaut_art

😁27❤1

1.83K views16:09

About

Blog

Apps

Platform