NEW BOT Телеграм, страница

Ponimator: Unfolding Interactive Pose for Versatile Human-Human Interaction Animation

Ну и чем мне теперь заменить слово "пониматор"? Они не ПОНИмают что натворили.

Анимация взаимодействия между людьми. Использует интерактивные позы как основу для генерации движений

Фреймворк состоит из двух условных диффузионных моделей: одна генерирует динамические последовательности движений на основе временного контекста, другая создаёт интерактивные позы из одиночной позы, текста или их комбинации;

Поддерживает различные задачи: анимацию взаимодействия по изображениям, анимацию реакций, синтез взаимодействия по тексту

Код

#humananimation #animation #image2video #text2video #text2pose #pose2video

👍7😁1

2K views07:11

Нейронавт | Нейросети в творчестве

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

Фреймворк для работы с SVG-графикой, основанный на мультимодальных больших языковых моделях. Объединяет задачи понимания, редактирования и генерации SVG

В качестве визуального энкодера — InternViT-300M, языковой модели — Qwen2.5-7B

Код
Веса ждем

#SVG #vectorediting #vector #text2noscript #text2vector #vector2vectro #noscript2noscript

🔥12👍2❤1

2.08K views08:11

Нейронавт | Нейросети в творчестве

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ запилил себе тело ~~чтобы охотиться на человеков~~

Deemos показали Люси, робота, созданного ИИ

1. сгенерили картинку
2. 3D-модель сгенерили в Rodin
3. Обучение на основе RL в симуляторе
4. 3D-печать
5. Люси в реальном мире

Проект вдохновлен Text2Robot

#яниначтоненамекаю #text2robot #robot

🔥10😭5👍1🥴1

2.93K views09:12

Нейронавт | Нейросети в творчестве

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

AnyUp: Universal Feature Upsampling

Апскейлер визуальных признаков (features) из любых слоёв кодировщиков изображений, не зависит от типа энкодера.

Обобщает на другие модели и размеры моделей, например, хорошо работает с SigLIP 2 и DINOv3 после обучения на DINOv2 (ViT-S)

Признаки о которых идет речь — не RGB информация, это данные, которые описывают определённые характеристики визуального контента. Тем не менее, метод может быть полезен для апскейла изображений и технических пассов

Код

#upscale

👍3🔥1

1.9K views10:13

Нейронавт | Нейросети в творчестве

flymyai-lora-trainer Flux LoRa training

В инструмент для длобучения моделей flymyai-lora-trainer добавили поддержку обучения лор FLUX.1-dev

Пример - лора Энн Хэтуэй

Обучать лоры онлайн тут
Гитхаб

#TEXT2IMAGE #LORA #FINETUNING

🔥12👍5

2.27K views11:16

Нейронавт | Нейросети в творчестве

Очередная демка генератора миров. Попробовал. Возможности передвижения очень ограниченные, вверх-вниз нельзя, по горизонтали очень быстро упираешься в стену. Ну такое

#world #image2world

1.47K views12:10

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

2:21

Media is too big

VIEW IN TELEGRAM

RTFM: A Real-Time Frame Model

Про генерацию миров от WorldLab я уже писал и не раз.

Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.

Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".

Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.

Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm

По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.

Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.

Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.

На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.

@cgevent

👍6👎1

1.05K views12:10

Нейронавт | Нейросети в творчестве

2:02

Media is too big

VIEW IN TELEGRAM

UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos

3D миры здорового ~~человека~~ робота

UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям

Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.

Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах

Код ждем

#videotoscene #videoto3d #video2world #world

👍6

1.57K views13:16

Нейронавт | Нейросети в творчестве

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

Видеогtнератор на базе WAN 2.1 от Alibaba

Лучше справляется с творческими и сложными задачами, где нужно сочетать редко встречающиеся вместе понятия

Якобы превосходит другие модели и на VBench, демонстрируя высокое качество генерации.
Но из визуальных материалов только картинки и таблицы для демонстрации превосходства

Код ждем

#text2video #research

👍4👀1

1.7K views15:11

Нейронавт | Нейросети в творчестве

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Редактирование видео текстовыми инструкциями.
В качестве примера дообученный WAN 2.1 (VACE):

— преодолевает ограничения существующих методов по качеству и разнообразию редактирования;

— использует усовершенствованный подход к генерации видео, сочетая редактор изображений и генератор видео;

— снижает вычислительные затраты до 20 % от исходных при сохранении стабильности во времени и отсутствии визуальных артефактов;

— применяет агента Vision-Language Model (VLM) для автоматического создания инструкций и фильтрации некачественных результатов

А вообще у них основной продукт - датасет для обучения редактирующих моделей

Код
Веса
Ditto-1M - датасет

#videoediting

👍8🔥6❤1

2.18K views16:19

Нейронавт | Нейросети в творчестве

DeepSeek-OCR

Распознавалка текстов (и не только) от DeepSeek

Состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder оптически сжимает изображения, превращая его в набор vision токенов.

Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста

Работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим.

Превосходит MinerU2.0, используя в 9 раз меньше ресурсов

HF
Гитхаб

#OCR #VLM #pdf2text

👍17

1.9K views07:11

About

Blog

Apps

Platform