Нейронавт | Нейросети в творчестве
MAI-Image-1 Новый картинкогенератор от Microsoft Сейчас на 9 месте на LMArena Очевидно, умеет изображать текст. Делают ставку на фотореализм и скорость: MAI-Image-1 отлично подходит для создания фотореалистичных изображений, таких как освещение (например…
Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?
👍9🤷♂1
Нейронавт | Нейросети в творчестве
Промпта слушается. А вот с качеством беда. Анатомию ломает. В художественные стили толком не умеет. Архитектура кривая. Да и в тексте ошибается. Ну может он будет легкий и быстрый хотя бы?
а вот так с их промптом получилось.
Видимо когда текст идет основным объектом тогда он лучше справляется
Видимо когда текст идет основным объектом тогда он лучше справляется
NEURONAUT written in the sand at sunset over the beach
👍13
Veo 3.1 появился на wavespeed.ai и flowith.io
Увы, платно даже если есть триалка и какието кредиты
#news #text2video #image2video
Увы, платно даже если есть триалка и какието кредиты
#news #text2video #image2video
👍2😐2
Qwen3-VL 4B / 8B
Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
Qwen выпустил самые маленькие версию своей VLM на 4B и 8B параметров.
Есть Instruct и Thinking, а также их FP8
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
huggingface.co
Qwen3-VL - a Qwen Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10
SuperDec: 3D Scene Decomposition with Superquadric Primitives
Компактное представление 3D-сцен с использованием суперквадрических примитивов, разработано при участии Microsoft.
Вместо миллионов гауссиан — сотни примитивов
Модель умеет эффективно раскладывать облака точек объектов на набор суперквадрик, что позволяет получать выразительное, но при этом компактное представление 3D-сцен.
При том еще выполняет неконтролируемую сегментацию частей объектов, выделяя чёткие маски сегментов и группирует объекты по геометрической структуре без аннотаций.
— применимо в робототехнике для планирования пути и захвата объектов
— применимо для контроля генерации и редактирования изображений диффузными моделями, может создавать управляющие сцены
Гитхаб
#video2scene #segmentation3d
Компактное представление 3D-сцен с использованием суперквадрических примитивов, разработано при участии Microsoft.
Вместо миллионов гауссиан — сотни примитивов
Модель умеет эффективно раскладывать облака точек объектов на набор суперквадрик, что позволяет получать выразительное, но при этом компактное представление 3D-сцен.
При том еще выполняет неконтролируемую сегментацию частей объектов, выделяя чёткие маски сегментов и группирует объекты по геометрической структуре без аннотаций.
— применимо в робототехнике для планирования пути и захвата объектов
— применимо для контроля генерации и редактирования изображений диффузными моделями, может создавать управляющие сцены
Гитхаб
#video2scene #segmentation3d
👍10❤1🔥1
VEO 3.1 уже доступен в Flow
Есть fast и Quality. генерирует в 720p, предлагает апскейл до 1080p
И тоже не умеет делать лунную походку ((
Но саундтрек прикольный
Спасибо за наводку @m_franz
#image2video #text2video #neuranaut_art
Есть fast и Quality. генерирует в 720p, предлагает апскейл до 1080p
И тоже не умеет делать лунную походку ((
Но саундтрек прикольный
Спасибо за наводку @m_franz
#image2video #text2video #neuranaut_art
👍9
Демо VEO 3.1 Fast на HuggingFace
Дитя вайбкодинга. Если страница тупит при авторизации, пробуем другой браузер
Выставлять 1080p бесполезно - все равно делает 720p
На бесплатном аккаунте быстро сотворило 5 сек 720p
Потом 10 сек 720p. Что за щедрость такая!
#image2video #text2video
Дитя вайбкодинга. Если страница тупит при авторизации, пробуем другой браузер
Выставлять 1080p бесполезно - все равно делает 720p
На бесплатном аккаунте быстро сотворило 5 сек 720p
Потом 10 сек 720p. Что за щедрость такая!
#image2video #text2video
👍10
Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation
Сегментация 3D-объектов с открытым словарём.
На вход принимает RGBD или 3D сцены
Модель из 2024 года, но держит #SOTA на наборах данных ScanNet200 и Replica.
Hаботает в 16 раз быстрее, чем лучшие существующие методы
Использует только 2D-обнаружение объектов на многовидовых RGB-изображениях, без необходимости применять ресурсоёмкие 2D базовые модели вроде Segment Anything (SAM) и CLIP
Код
#segmentation #segmentation3d
Сегментация 3D-объектов с открытым словарём.
На вход принимает RGBD или 3D сцены
Модель из 2024 года, но держит #SOTA на наборах данных ScanNet200 и Replica.
Hаботает в 16 раз быстрее, чем лучшие существующие методы
Использует только 2D-обнаружение объектов на многовидовых RGB-изображениях, без необходимости применять ресурсоёмкие 2D базовые модели вроде Segment Anything (SAM) и CLIP
Код
#segmentation #segmentation3d
🔥5
Wan2.2-I2V-A14B-Moe-Distill-Lightx2v
На днях вышла какая-то непонятная обновка Distill-Lightx2v лоры, без описания. Вернее с описанием о от обычной Distill-Lightx2v
Люди советуют пользоваться версией Kijai
Обсуждение на реддит
Спасибо @rekonkast
#wan22 #lora
На днях вышла какая-то непонятная обновка Distill-Lightx2v лоры, без описания. Вернее с описанием о от обычной Distill-Lightx2v
Люди советуют пользоваться версией Kijai
Обсуждение на реддит
Спасибо @rekonkast
#wan22 #lora
huggingface.co
lightx2v/Wan2.2-I2V-A14B-Moe-Distill-Lightx2v · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍7
Rex-Omni: Detect Anything via Next Point Prediction
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI SeC Nodes
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
🔥9👍6
MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
👍5
TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
😁5❤2😱2