Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Так, тут в chatGPT завозят редактирование картинок прям в чате, с возможностью тыкать прям в картинку и говорить что и как поправить.

А все молчат.

У меня ещё не раскатали, но я нашел, как это выглядит.

И вот вам ссылка на документацию:
https://help.openai.com/en/articles/9055440-editing-your-images-with-dall-e

А подробнее тут:
https://x.com/aliejules/status/1774991275600625805
🔥14
Amazon Fresh: индусы за экраном или же нет?

Сейчас на многих новостных платформах трубят, что инициатива Amazon Fresh была фейком.

https://www.engadget.com/amazon-just-walked-out-on-its-self-checkout-technology-191703603.html

Напомню, что идея была в том, что покупатели ходят по магазину, складывают товары в тележки, а потом просто уходят. Умная система следит за взятыми товарами и потом списывает стоимость покупок со счёта.

И вот сейчас уверяют, что это толпа индусов следила за покупателями в реальном времени:

 the stores have no actual cashiers, there are reportedly over 1,000 real people in India scanning the camera feeds to ensure accurate checkouts.


Я решил поискать первоисточник и нашёл вот такое:
https://gizmodo.com/amazon-reportedly-ditches-just-walk-out-grocery-stores-1851381116

Там цитата совершенно другая:
 primary role of our Machine Learning data associates is to annotate video images, which is necessary for continuously improving the underlying machine learning model powering


Но дальше есть ещё одна интересная фраза:
 the spokesperson acknowledged these associates validate “a small minority” of shopping visits when AI can’t determine a purchase.


В целом мы вряд ли узнаем правду, но мне кажется, что было два процесса:
• ручная разметка видео для улучшения моделей
• модели работали плохо, и результаты часто приходилось проверять и исправлять

#datascience
1
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Гиперреалистичные управляемые 3д аватары в 2k на гауссианах

На вход нужно от 8 до 16 ракурсов в 2к

Код

#gaussian #video2avatar #humanavatar #talkinghead
😱7👍5🔥1
GRM: Large Gaussian Reconstruction Modelfor Efficient 3D Reconstruction and Generation

Реконструкция за долю секунды 3D объектов (гауссиан и мешей) по нескольким входным изображениям, по 3D данным из других генераторов (Zero123++, Instant3D, V3D, SV3D) и генерация по тексту.

Код
Демо

#imageto3D #textto3D #rendering #novelview
👍8
Stable Audio 2.0

Обновился генератор коммерческой музыки по промпту от Stability AI

В блоге написано что модель доступна на сайте, но при попытке ею воспользоваться мне показывают условия использования январской Version 1.2. Что это, наипало обман или забыли обновить текст?

На вход можно подать просто текстовое описание или аудиофайл. Продолжительность трека до 3 минут.

Заявлена генерация структурно полноценных инструментальных композиций с интро, развитием и финалом.

10 треков в месяц бесплатно.

Обещают доступ по API

Попробовать
бесконечный стрим

#text2music #text2audio #music2music #audio2music
🔥3
Нейронавт | Нейросети в творчестве
Народ, у меня сегодня будет ознакомительная демо-сессия с представителем Rodin Gen-1 Накидайте срочно картинок для теста генерации 3D объектов! [UPDATE] Спасибо, картинки отправил #imageto3D #tetxtto3D #text2scene #realtime
Впечатления о Rodin Gen-1 со вчерашней демосессии.

Признаю, он неидеален, но впечатляет! Лучше всего что я видел до сих пор. Для иллюстрации прилагаю ваши картинки, о которых речь

- Генерит объекты по тексту и по изображению
- генерит текстуры
- может смешивать два и более объектов, есть рулька смешивания. Гибрид Бендера с автомобилем вышел бесполезный но смешной
- Я в 3D дилетант, по мне сетка хорошая в сравнении с остальными генераторами, даже отличная для железки. Есть три варианта поликаунта для чистового прохода- 5000, 10000, 30000 полигонов
- умеет генерить воксели из геометрии и геометрию из вокселей. Для меня юзкейсы тут неочевидны были. Короче, так можно делать вариации геометрии или что-то детальное из грубого 3D наброска.
- умеет генерить объект из облака точек. Чую, это будет отличная замена нюковому генератору меша из облака точек
- Крышесносная фича - 3D инпейнтинг - можно на модельке выделить боксом область под замену. Правда, не знаю насколько полезная
- ну и конечно генерация сцены по боксам как было в изначальной презентации

Теперь о слабых местах

- не справляется с нестандартными позами персонажей. Бендера со скрещенными на груди руками не смог. Вернее, Бендер вышел отлично, а руки слились в один шланг. Игривого котэ смог, но в другой позе, с лапками поставленными вместе. Но было бы и странно, кому нужны статичные персонажи в странных позах? Думаю, с Т-позой для бипеда и стандартной позой для квадрапеда все будет ок.

- не справляется с мелкими детальными структурами. Эйфелеву башню порвал на кусочки. Из вот этого мелкоструктурного лица вообще сделал какой-то член, оставив пустоту вместо щек

- не справился с очками на жабе, оптические эффекты тяжеловато ему даются. Со второй или третьей попытки почти справился.

Ну и опять же, то что не получилось - экстремальные случаи, мне трудно себе представить кейсы когда такие вещи потребуется сделать с нуля.

Стол, пистолет, мозг получились отлично.

Обещают сначала открыть web-версию, потом API

#imageto3D #tetxtto3D #text2scene #test #inpainting
17🤔4🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
VIDIM: Video Interpolation With Diffusion Models

Диффузная интерполяция кадров (слоумоушен) от Google Research и DeepMind. Затыкает за пояс и RIFE, и FILM (гугловский же)

Что с кодом, Гугл?

#frameinterpolation #slowmotion
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield AI Diffuse

Базовая модель персонализации видео.

Записаться в вейтлист
Diffuse для iOS (в российском AppStore недоступен)

#personalization
🥴6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

Трекер группы точек, в том числе перекрытых переднеплановыми объектами. На приведенных примерах показывает себя лучше чем CoTracker

Код

#tracking #opticalflow
👍10