NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

Rex-Omni: Detect Anything via Next Point Prediction

Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B

Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.

Гитхаб
HF
Демо

#detection #vlm

👍7🔥2

2.05K views07:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

ComfyUI SeC Nodes

Кастом ноды июльского сегментатора SeC

Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32

Туториал от ArtOficial
воркфлоу

#workflow #tutorial #segmentation #video2mask

🔥9👍6

2.1K views11:14

Нейронавт | Нейросети в творчестве

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.

Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)

На сайте есть интерактивная галерея результатов

Код

#segmentation

👍5

1.72K views12:16

Нейронавт | Нейросети в творчестве

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали

#tracking #research

😁5❤2😱2

1.87K views13:16

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-Rapid-AIO обновился

Добавили v4 и v5

v4: Сочетание множества редакторов Qwen Edit и базовых ускорителей Qwen, которые, как мне кажется, дают лучшие результаты. Добавлена небольшая коррекция кожи LORA. 4-5 шагов: используйте sa_solver/simple, lcm/beta или euler_a/beta и 6-8 шагов: используйте только lcm/beta или euler_a/beta.

v5: Варианты использования NSFW и SFWW слишком сильно мешали друг другу, поэтому я разделил их, чтобы специализироваться на их вариантах использования. В версии 5 были значительно изменены настройки NSFW LoRa, а также некоторые настройки ускорителя. обычно рекомендуется использовать lcm/beta или er_sde/beta. Пожалуйста, поэкспериментируйте! Хотите получить реалистичный и/или "откровенный" вид без использования входных изображений? Попробуйте lcm/ddim_uniform с моделью NSFW!

#optimization #imageediting #workflow #nsfw

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-Rapid-AIO

Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.

Три версии по 29 ГБ каждая

V1: Qwen-Image-Edit-2509 и 4-step…

👍12👎1

2.11K views14:17

Нейронавт | Нейросети в творчестве

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

VEO 3.1 завезли в API ноды ComfyUI

А в Google Flow появилась функция редактирования видео.

#news #text2video #image2video #videoediting

🔥11👎2

2.07K views16:12

Нейронавт | Нейросети в творчестве

#humor из нашего чатика утащил

1❤20😁20👍3

1.82K views17:21

Нейронавт | Нейросети в творчестве

#внезапно

Недавно выпущенный персонализатор картинок FaceCLIP удалили

Проверьте сами

Нейронавт | Нейросети в творчестве

FaceCLIP

ByteDance выпустил новый энкодер для персонализации картинок

FaceCLIP с SDXL обеспечивает исключительные результаты в области сохранения идентификационных данных, выравнивания текста и качества изображения

Ну и в том же репозитории лежит FaceT5…

😱5❤2👍1

1.59K views05:08

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

FLASHVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

Апскейл-реставрация видео в реальном времени на базе WAN 2.1

∼17 FPS for 768 × 1408 на одном A100 GPU

Рекомендуют всегда делать апскейл 4x для лучших результатов

Использует три ключевых инновации: трёхэтапный процесс дистилляции для потокового суперразрешения, локально ограниченное разрежённое внимание для сокращения избыточных вычислений и крошечный условный декодер для ускорения реконструкции без потери качества

Уже добавлен в #ComfyUI

HF
Гитхаб
Воркфлоу уже у нас в чате
Веса у Kijai для Comfy

Спасибо @Qwinty

#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime

👍13🔥8❤1

2.42K viewsedited 06:09

Нейронавт | Нейросети в творчестве

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

FlashWorld: High-quality 3D Scene Generation within Seconds

Генератор 3D-сцен из одного изображения или текстового запроса.

Работает быстрее аналогов и обеспечивает более высокое качество рендеринга.

Под капотом гауссианы, но при этом авторы постарались избавиться от неконсистентности которую они дают.

Генерирует сцену за 7 секунд на одном GPU

Код

#image2scene #imageto3d #gaussian

👍7🔥4❤1

2.36K views07:11

Нейронавт | Нейросети в творчестве

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

офигеть! всего 115 секунд на моей 4060
Я думал ну полчаса подожду

ДА, лицо, буквы, лого и цвет исказил но я впечатлен!

🔥8👍3❤1😐1

1.87K viewsedited 07:52

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Унифицированная модель для глубокого понимания изображений и видео от ByteDance

Сочетает SAM2 с LLaVA для #SOTA в сегментации и обсуждения визуального контента.

Линейка от 1.5B до 7B на базе Qwen2.5-VL и InternVL2.5/3

Гитхаб
Демо
Демо градио - сейчас не работает

#segmentation #vlm #assistant #video2text #vide2mask #captiopning

🔥4

2.1K views08:11

Нейронавт | Нейросети в творчестве

MobileLLM-P1

Компактная LLM для мобилок от Meta (запрещено в РФ) на 2.2 ГБ

Контекстное окно до 128 тысяч токенов

Использует комбинацию локального и глобального внимания, сокращая время предварительного заполнения и уменьшая размер кэша KV

Есть базовая модель и Instruct. Обе видимо квантованые

Русского, похоже, не знает, но вообще для крохотной модельки хорош

Доступ к весам по запросу. Попробовать в чате можно на HF:

Демо

#assistant #mobile

👍6

1.74K views09:12

About

Blog

Apps

Platform