NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

MAI-Image-1 Новый картинкогенератор от Microsoft Сейчас на 9 месте на LMArena Очевидно, умеет изображать текст. Делают ставку на фотореализм и скорость: MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например…

Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?

👍9🤷‍♂1

1.75K views11:27

Нейронавт | Нейросети в творчестве

а вот так с их промптом получилось.
Видимо когда текст идет основным объектом тогда он лучше справляется

NEURONAUT written in the sand at sunset over the beach

👍13

1.82K views11:43

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Veo 3.1 появился на wavespeed.ai и flowith.io

Увы, платно даже если есть триалка и какието кредиты

#news #text2video #image2video

👍2😐2

1.71K views12:06

Нейронавт | Нейросети в творчестве

Qwen3-VL 4B / 8B

Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8

#VLM #OCR #assistant #reasoning #video2text #image2text #chat

huggingface.co

Qwen3-VL - a Qwen Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍10

1.7K views12:46

Нейронавт | Нейросети в творчестве

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

SuperDec: 3D Scene Decomposition with Superquadric Primitives

Компактное представление 3D-сцен с использованием суперквадрических примитивов, разработано при участии Microsoft.

Вместо миллионов гауссиан — сотни примитивов

Модель умеет эффективно раскладывать облака точек объектов на набор суперквадрик, что позволяет получать выразительное, но при этом компактное представление 3D-сцен.

При том еще выполняет неконтролируемую сегментацию частей объектов, выделяя чёткие маски сегментов и группирует объекты по геометрической структуре без аннотаций.

— применимо в робототехнике для планирования пути и захвата объектов

— применимо для контроля генерации и редактирования изображений диффузными моделями, может создавать управляющие сцены

Гитхаб

#video2scene #segmentation3d

👍10❤1🔥1

2.12K views14:17

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

VEO 3.1 уже доступен в Flow

Есть fast и Quality. генерирует в 720p, предлагает апскейл до 1080p

И тоже не умеет делать лунную походку ((

Но саундтрек прикольный

Спасибо за наводку @m_franz

#image2video #text2video #neuranaut_art

👍9

1.68K views15:11

Нейронавт | Нейросети в творчестве

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Демо VEO 3.1 Fast на HuggingFace

Дитя вайбкодинга. Если страница тупит при авторизации, пробуем другой браузер

Выставлять 1080p бесполезно - все равно делает 720p

На бесплатном аккаунте быстро сотворило 5 сек 720p

Потом 10 сек 720p. Что за щедрость такая!

#image2video #text2video

👍10

2.22K views17:06

Нейронавт | Нейросети в творчестве

Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation

Сегментация 3D-объектов с открытым словарём.

На вход принимает RGBD или 3D сцены

Модель из 2024 года, но держит #SOTA на наборах данных ScanNet200 и Replica.

Hаботает в 16 раз быстрее, чем лучшие существующие методы

Использует только 2D-обнаружение объектов на многовидовых RGB-изображениях, без необходимости применять ресурсоёмкие 2D базовые модели вроде Segment Anything (SAM) и CLIP

Код

#segmentation #segmentation3d

🔥5

1.85K views05:08

Нейронавт | Нейросети в творчестве

Wan2.2-I2V-A14B-Moe-Distill-Lightx2v

На днях вышла какая-то непонятная обновка Distill-Lightx2v лоры, без описания. Вернее с описанием о от обычной Distill-Lightx2v

Люди советуют пользоваться версией Kijai

Обсуждение на реддит

Спасибо @rekonkast

#wan22 #lora

huggingface.co

lightx2v/Wan2.2-I2V-A14B-Moe-Distill-Lightx2v · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍7

1.78K views06:09

Нейронавт | Нейросети в творчестве

Rex-Omni: Detect Anything via Next Point Prediction

Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B

Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.

Гитхаб
HF
Демо

#detection #vlm

👍7🔥2

2.04K views07:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

ComfyUI SeC Nodes

Кастом ноды июльского сегментатора SeC

Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32

Туториал от ArtOficial
воркфлоу

#workflow #tutorial #segmentation #video2mask

🔥9👍6

2.1K views11:14

Нейронавт | Нейросети в творчестве

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.

Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)

На сайте есть интерактивная галерея результатов

Код

#segmentation

👍5

1.72K views12:16

Нейронавт | Нейросети в творчестве

TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали

#tracking #research

😁5❤2😱2

1.87K views13:16

About

Blog

Apps

Platform