NEW BOT Телеграм, страница

WAN Image

Оказалось что WAN отлично генерит картинки, даже

лучше чем Flux и HiDream

Цитата потому что я таких выводов не делал

какой-то воркфлоу

какой-то воркфлоу WAN 2.1FusionX_14B_Image Generator

Smartphone Snapshot Photo Reality - можно использовать лору

вокрфлоу с лорой

wan2.1 controlnets - можно и контролнеты

Видео от AItrepreneur

Спасибо за наводку @edyukov

#lora #text2image #workflow

👍17🔥2❤1

2.7K views05:40

Нейронавт | Нейросети в творчестве

PyVision: Agentic Vision with Dynamic Tooling

Так, агенты добрались и до визуального понимания.

PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.

Например, создает код на питоне для решения задачи

Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI

Код
Демо

#vlm #agent #image2text

👍7

1.73K viewsedited 06:29

Нейронавт | Нейросети в творчестве

PromptTea: Let Prompts Tell TeaCache the Optimal Threshold

Новый метод ускорения видеогенерации

Модель анализирует промпты и на основе их сложности автоматически настраивает процесс генерации видео.

Для простых видео модель работает быстрее, а для сложных — более внимательно, сохраняя высокое качество

Ускорение генерации в 2,79 раз при минимальной потере качества.

Поддерживает CogVideoX1.5, HunyuanVideo и Wan2.1

Код

#optimization

👍13

1.79K views09:07

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

SpatialTrackerV2: 3D Point Tracking Made Easy

Ура, новый трекер. Создан при участии ByteDance

Определяет движение камеры, геометрию сцены и траектории точек в пространстве. Работает в режиме реального времени

Код
Демо

#tracking #realtime

🔥11👍1

1.72K views10:13

Нейронавт | Нейросети в творчестве

2:57

Media is too big

VIEW IN TELEGRAM

LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS

Модель умеет быстро обрабатывать и понимать изображения в трёхмерном пространстве, используя язык. Находит объекты на картинках и определяет их местоположение с высокой точностью.

Был похожий проект

Код

#video2mask #segmentation #gaussian

👍10🔥1

1.86K views12:16

Нейронавт | Нейросети в творчестве

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

Генератор картинок по тексту в 4K.
В деле замешаны SD3-2B и Flux-12B

Сайта нет, проект исследовательский

Код

#text2image

👍13

1.98K views13:16

Нейронавт | Нейросети в творчестве

😁8👍2🔥1🤯1

2.02K views18:43

Нейронавт | Нейросети в творчестве

0:36

Media is too big

VIEW IN TELEGRAM

Copart: Contextual Part Latents for 3D Generation

Очередной генератор 3D по частям

Сложные вещи разбивает на более простые части.
Учитывает как эти части связаны друг с другом, и может управлять каждой из них по отдельности.

Код

#imageto3d #3d

👍8

9.79K views06:29

Нейронавт | Нейросети в творчестве

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

Небось уже слышали про робота Reachy Mini за $299 от HuggingFace, на котором можно запускать демоспейсы?

Теперь они выпускают в опенсорс проект роборуки HopeJR, которую можно напечатать на 3D принтере и собрать за $500

#robot

❤6👍2🔥2🥴2

1.84K views07:11

Нейронавт | Нейросети в творчестве

Пачка из 21 лоры под #Kontext

Реддит

#lora

❤6👍1

1.68K views07:41

Нейронавт | Нейросети в творчестве

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Добавление объектов на изображение от NVIDIA
По текстовому описанию

Код
Демо

#imageediting #inpainting

❤8👍4

1.89K views08:11

Нейронавт | Нейросети в творчестве

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

1:26

This media is not supported in your browser

VIEW IN TELEGRAM

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Метод представления (и рендеринга) 3D сцен в виде сжатых токенов светового поля (CLiFT). Метод хорошо сохраняет геометрическую информацию.

На сайте есть сравнение с методами LVSM от Adobe и DepthSplat от Microsoft

Код ждем к 1 августа

#image2scene #rendering #novelview

🔥4👍1

1.79K views09:12

Нейронавт | Нейросети в творчестве

Опубликован код апскейлера UltraZoom

Код

Спасибо @p0lygon

#upscale

0:17

Нейронавт | Нейросети в творчестве

UltraZoom: Generating Gigapixel Images from Regular Photos

Апскейлер, превращает обычные фотки в картинки с высоким разрешением.

Модель берёт несколько снимков объекта — один общий и парочку крупных планов — и делает из них одно большое изображение с кучей…

❤12👍3

2.02K viewsedited 12:34

Нейронавт | Нейросети в творчестве

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

PUSA V1.0: Surpassing Wan-I2V-14B with $500 Training Cost

Новый видеогенератор, использующий особый метод управления временем в видео (vectorized timestep adaptation). Благодаря этому при генерации использует меньше данных и ресурсов по сравнению с другими моделями.

Это затюненный всего за $500 Wan-T2V-14B на 4K датасете.
Побил своего папу Wan-T2V-14B на VBench-I2V с 10 шагами инференса.

Возможности:
- создание видео из одного или нескольких изображений

- продление существующих видео

- генерация по начальному и конечному кадрам

- ну и создание видео по текстовому описанию.

Ждем кванты и дистиллы

Код
Веса

#text2video #image2video #videoediting

👍13🔥3🤔3❤1

2.01K views14:20

About

Blog

Apps

Platform