NEW BOT Телеграм, страница

Нейронавт | Нейросети в творчестве

На хиггсфилде анонсирован видеогенератор от Гугла VEO3.1

Нативное разрешенеи 1080p, хронометраж 30+ секунд

Записаться в вейтлист - зная хиггсфилд, можно не записываться если у вас нет подписки

#news

😁6❤1🔥1

1.88K views07:11

Нейронавт | Нейросети в творчестве

1:23

This media is not supported in your browser

VIEW IN TELEGRAM

Gling AI

ИИ-монтажер видео. Можно скачать плагин к своей монтажке или пользоваться в браузере.

На бесплатном тарифе:

- Обработка до 1 часа медиаконтента в месяц

- Экспорт видео в формате MP4 с водяным знаком и аудио в формате MP3

- Удаление неудачных дублей

- Автоматическое удаление пауз

- Автоматическое удаление слов-паразитов

- Генерация заголовков и глав для YouTube

- Предложения по следующим видео

- AI-субтитры

- Автофрейминг (jump cut zoom)

- Многокамерный монтаж

- Удаление шумов из аудио

#videoediting

🤔8❤1👍1👎1

10.2K views08:11

Нейронавт | Нейросети в творчестве

Опубликован код и веса сегнемнтного генератора 3D моделей OmniPart на основе Trellis

Гитхаб
HF
Демо

#gaussian #3d #imageto3d

Нейронавт | Нейросети в творчестве

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

Новый генератор 3D моделей по картинке от анонимов. Разбивает модель на части, генерирует по частям. Разбивку можно редактировать

Под капотом гауссианы

#тестбендера провалил.…

🔥6

1.7K views09:12

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Segment Anything 3 тихо появился на ICLR в виде статьи

Первая версия SAM позволяла щелкнуть по объекту, чтобы сегментировать его.
В SAM 2 были добавлены видео и память.
Теперь SAM 3 говорит: просто опишите, что вы хотите - «желтый школьный автобус», «полосатый кот», «красное яблоко» — и он найдет и сегментирует каждый экземпляр этого объекта на изображениях или в видео.

Это как будто сегментация наконец-то научилась языку, но в обоснованной, минимальной форме, просто оперируя концепциями.
Короткие существительные, образцы изображений или и то, и другое.
Вы озвучиваете объект, он понимает, что вы имеете в виду, и рисует границу везде, где она появляется.

За этим стоит огромный механизм обработки данных: 4 миллиона уникальных концепций, 52 миллиона проверенных масок, созданных людьми и LLM, проверяющими работу друг друга.

Результат: примерно в 2 раза лучше, чем SAM 2, распознавание, близкое к человеческому, на тестах с открытым словарем и скорость в реальном времени.

https://openreview.net/forum?id=r35clVtGzw

@cgevent

🔥13❤1👍1

1.18K views10:13

Нейронавт | Нейросети в творчестве

3:08

Media is too big

VIEW IN TELEGRAM

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Puffin — унифицированная мультимодальная модель для работы с камерой. Понимает визуал с точки зрения камеры. Объединяет задачи понимания и генерации:

— связывает визуальные подсказки с фотографическими терминами

— предсказывает параметры камеры

— генерирует виды с учётом пространственной согласованности

— описывает сцены по ориентации и начальному виду

— предлагает улучшить эстетику фото через корректировку параметров камеры

Puffin пригоден для генерации видео с заданными параметрами камеры, создания длинных и панорамных сцен путём итеративной генерации видов и их подачи в модель, корректировки параметров камеры для лучшей эстетики

Закинул в него кадр из ЗВ на анализ, вот результат

<think> На снимке изображены две фигуры с фонарями в руках, одна из которых излучает яркий красный луч, а другая - синий, создавая динамичный визуальный эффект. Горизонтальная ориентация близка к горизонтальной, поскольку линия горизонта относительно прямая и параллельна нижнему краю кадра, что указывает на стабильное положение камеры. Вертикальная ориентация показывает небольшой наклон вверх, о чем свидетельствует небольшой угол наклона лучей и расположение фигур, что позволяет предположить, что камера слегка наклонена вверх, чтобы охватить всю высоту фигур и лучей. Поле зрения - крупным планом, так как фигуры и их лучи доминируют в кадре, с минимальными деталями фона, подчеркивающими взаимодействие и влияние лучей на сцену.</think><answer>-0.0037, 0.1587, 0.4600</answer>

Код
HF
Демо

#vlm #captioning #camera #video2pose #video2camera #text2video

🔥7❤4⚡3👍1😱1

2.25K views12:16

Нейронавт | Нейросети в творчестве

jax-raft

Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее.
Чекпойнты тоже портированы

#frameinterpolation #opticalflow #slowmotion

GitHub

GitHub - alebeck/jax-raft: JAX/Flax port of the RAFT optical flow estimator

JAX/Flax port of the RAFT optical flow estimator. Contribute to alebeck/jax-raft development by creating an account on GitHub.

👍4😁1

1.82K viewsedited 14:17

Нейронавт | Нейросети в творчестве

jax-raft Порт интерполятора кадров RAFT с pytorch на JAX/Flax, должен работать быстрее. Чекпойнты тоже портированы #frameinterpolation #opticalflow #slowmotion

не успели заскринить же да?

😁8🤔3

1.83K views14:17

Нейронавт | Нейросети в творчестве

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Instant4D: 4D Gaussian Splatting in Minutes

Быстрая (за несколько минут) реконструкция монокулярных видео с использованием 4D-представления.

Авторы придумали как сократить количество гауссиан на 92% ну и прочие ништяки, увеличив скорость реконструкции объемного видео в 30 раз. Под капотом прикручены DepthAnything и RAFT

Код

#image2scene #videoto4d #videoto3d #gaussian #4d #video2scene

🔥3❤1

2.06K views05:08

Нейронавт | Нейросети в творчестве

2:26

Media is too big

VIEW IN TELEGRAM

StreamingVLM: Real-Time Understanding for Infinite Video Streams

Визуально-языковая модель для понимания бесконечного видеопотока в реальном времени.

Работает со скоростью до 8 кадров в секунду на одном H100

Гитхаб
Демо

#VLM #captioning #assistant #realtime #streaming

👍6❤2🔥1

1.82K views06:09

Нейронавт | Нейросети в творчестве

FaceCLIP

ByteDance выпустил новый энкодер для персонализации картинок

FaceCLIP с SDXL обеспечивает исключительные результаты в области сохранения идентификационных данных, выравнивания текста и качества изображения

Ну и в том же репозитории лежит FaceT5-FLUX, хотя в папире нет о нем никакого упоминания

Вообще карточка модели весьма кривая - ссылка на папиру ведет на InfU, ссылка на Гитхаб ведет на 404. Подождем сайт проекта если он будет и код.

Спасибо @john_eod

#text2image #personalization #sdxl #flux

❤4🔥3

1.78K views07:13

Нейронавт | Нейросети в творчестве

Я играл с Reve и ~~выиграл~~ уперся в суточный лимит. Его хватило всего на 6 запросов. Думаю не у всех будет 6 потому что там думалка под капотом и она расходует разное количество токенов на разные запросы.

А раньше было прям очень много, ощущение что лимита нет.
Не планируйте бесплатно вершить великие дела на Reve

#news

Нейронавт | Нейросети в творчестве

Reve

Обновился сервис создания и редактирования изображений. Теперь это контекстный редактор, конкурент Банана, QIE и иже с ними. Умеет все то что умеют конкуренты, но у него еще есть GUI

— создаёт и ремиксит изображения

— редактирует изображения через…

😐4🤷‍♂1

2.02K viewsedited 08:11

Нейронавт | Нейросети в творчестве

В Kandinsky 5 добавили поддержку SDPA - теперь можно использовать Flash attention.
Добавили поддержку Magcache для чекпойнтов sft и nocfg.
Сократили потребление памяти в VAE

Говорят, теперь весь Кандинский влазит в 24 ГБ

Гитхаб

#text2video

0:04

Нейронавт | Нейросети в творчестве

Kandinsky 5.0 Video Lite

Сбер выпустил видеогенератор в опенсорс.

2B параметров, 768 x 512, до 10 сек

Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.

За всего 2B параметров…

🔥9❤3👍3⚡2

2.26K views09:12

Нейронавт | Нейросети в творчестве

TAG: Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Метод улучшения работы диффузионных моделей и снижения количества галлюцинаций, направляет генерацию к наиболее вероятным областям.

Представляет собой адаптер, не требует дообучения.

Прикручено к SD1.5, SD2.1, SDXL, SD3

Демо

#optimization #plugin #text2image

🔥6👍1

1.77K views10:13

About

Blog

Apps

Platform