ᴢɪᴘ ʟᴏɢ – Telegram
ᴢɪᴘ ʟᴏɢ
150 subscribers
97 photos
49 videos
6 files
102 links
IT, AI, Robots
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
OpenLRM (проект, статья, github, демо) - алгоритм реконструкции 3D-объекта по одной фотографии за 5 секунд.

Строит NeRF представление на выходе (из которого можно семплировать меш, карты глубины и так далее)
Генерализуется без привязки к типу объекта
Работает на разрешении 512 пикселей
Использует в реализации DINO-encoder для патчей, Triplane-представление, лосс при обучении контролируется на четырёх кадрах (основной и 3 дополнительных) по метрикам MSE + 2* LPIPS
Обучен на синтетических Objaverse и реальных данных MVImgNet в соотношении 1:3 за 3 суток на 128 картах A100 (40GB)

Мои впечатления:
Задумка прекрасная. Мне нравится простота идеи - через лоссы других кадров учить генерализацию объёмного представлния.
Радует и скорость обучения, и скорость инференса
Мало данных для обучения. Нужно больше данных, будет совершенно другой уровень обобщения.
Низкое разрешение результата
Привязка в начальной сегментации

В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.
🔣🔣🔣
1️⃣Мой форк с питон-ноутбуком и градио-приложением, визуализирующим меш, а не видео, как в официальном демо. Загружаем ваши, либо мои данные, выделяем в ноутбуке объект, готовим данные, считаем, визуализируем результаты.
2️⃣Мой публичный колаб, чтобы не возиться с репозиторием.
3️⃣Huggingface сейчас запрашивает деньжатки за GPU, поэтому деплой там не даю, вместо этого сделала ещё один публичный колаб, который развёртывает app. Запустите обе ячейки с кодом, дождитесь выдачи таких записей, и перейдите по ссылке возле public URL.
======== Loaded model from checkpoint ========
Running on local URL: http://127.0.0.1:7860
Running on public URL: https://daa4388790604c4ce9.gradio.live
Please open Telegram to view this post
VIEW IN TELEGRAM
6
⚡️⚡️⚡️Сразу потестила говорящие головы DreamTalk. Источник новости, и там все ссылки.
Применила к примерам из ноутбука + добавила свою фотку. Прикладываю в комментах фото -> видео алгоритма -> видео после апскейла.

Во-первых, конечно, вау! Отдельно можно задать динамику поведения, выражение лица, аудио и фотографию. А ведь это диффузия!
Во-вторых, грустно, что разрешение всего лишь 256 x 256. Сразу прикрутила Real-ESRGAN (тот, который увеличил нам советский мультик), и он дорисовал лица, не соответствующие реальности.

Интересно, а есть какие-нибудь image-guided upscaler-s? Не слышали о таких?
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Мыслишки 💡 и вопроск подписчикам.
Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍

Юзкейсы.
1️⃣
Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения 💙
🔵Во-первых, я стараюсь следить за публикациями и релизами кода.
🔵Во-вторых, обожаю демки на huggingface и google colab-ы для Open Source.
🔵В-третьих, частенько тестирую production web-решения.
Нейросети помогают мне насытить жизнь правильно подобранным и улучшенным контентом:
🔵прочесть транскрипцию или саммаризацию вместо видео,
🔵очистить голос, синтезировать голос\видео по тексту,
🔵помочь придумать мелодию к моим стихам и т.д.
С одной стороны, я нередко задумываюсь, а зачем мне всё это?
А с другой замечаю, что старые типы искусства: кино, театр больше не питают меня так, как ожившие генерации leonardo.ai.
За прошедший год, у меня уже собрался некоторый набор задач и инструментов, которые я использую. Судя по комментариям пользователей в телеграм, у многих подобная ситуация. В моём случае почти все инструменты Open Source и развёрнуты локально на домашней машине + есть несколько web-решений с ограниченным лимитом бесплатного использования.

Я столкнулась со следующими проблемами:
🔵Поиск самого удобного на текущий момент решения. Как правило, одна и та же технология обыгрывается несколькими продуктами, а на разных уровнях технологического стека существуют свои решения.
Часто бывает так, что сначала вышла статья и есть удобный space на huggingface, я пользуюсь онлайн-сервисом, а потом он пропадает, потому что там довольно дорого, и тогда я разворачиваю локально у себя эту аппку или работаю в колабе. А иногда бывает так, что я просто разворачиваю локально код к гитхаба.

🔵Доступ к вычислительным ресурсам. Поскольку я тяготею к бесплатным локальным версиям, я оказываюсь привязана к своей вычислительной машине. Соответственно, считать что-то удалённо можно через Remote Desktop-средства или разворачивать серверный доступ к своим нейросетям. Всё это довольно кастомизованные решения. К тому же, мой вычислительный узел ограничен по памяти и мощности, а значит я не могу считать на нём всё подряд.
🔵Неуниверсальность интерфейсов. Мне нравится, когда в Telegram есть бот, решающий мою задачу. Мне удобно было бы каждый раз получать результаты обработки моих запросов через повторяемый интерфейс в мобильнике. Мне очень нравится практика использования gradio-приложений, и когда решение есть на huggingface, я прихожу в восторг. С продуктовыми веб-решениями всё менее удобно для работы с мобильника.
2️⃣
Недавно я увидела вопрос:
как получить транскрипцию длинного видео, не возясь с кодом

Вроде бы,🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠, вариантов - миллион.
А с другой стороны, какой из этих миллиона вариантов вам подойдёт? Нет универсального ответа. Есть .exe для винды, есть онлайн-тулзы с лимитом, есть боты, есть колабы и т.д. Наверняка, есть приложения для Android и iPhone.
3️⃣А тут ещё Ян ЛеКун пророчит победу благого 🔠🔠🔠🔠🔠🔠🔠🔠а.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Все эти соображения натолкнули меня на следующую мысль:
А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?

⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
1
ᴢɪᴘ ʟᴏɢ
Мыслишки 💡 и вопроск подписчикам. Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍 Юзкейсы. 1️⃣ Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения…
⬆️⬆️⬆️
А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?


📌🔠 🔠🔠🔠🔠 🔠🔠 🔠🔠🔠🔠🔠
Когда мы используем торрент-трекеры, у нас есть сиды и пиры. Сиды раздают файлы, пиры находятся в процессе скачивания. Каждый сид выступает хранилищем экземпляра файла, а комп выступает как сетевое файловое хранилище. При этом в протоколе предусмотрена защита от личеров (то есть от юзеров, которые берут больше, чем отдают). Похожую схему можно было бы использовать и для расчётов, превратив компы в вычислительные узлы.
Это не столь уж необычно. Например, для майнинга криптовалют используют майнинговый пул.
📌🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠
Когда мы используем генеративные боты в дискорде, мы приходим на один из серверов и отдаём запросы только этому боту. Теперь представьте, что вы обладаете информацией об услугах всех ботов на всех серверах дискорда. Тогда вы можете осуществить scheduling: выбрать наиболее свободный сервер, осуществляющий нужную вам услугу и получить результат быстрее.
Теперь обобщим эту идею с владельцев дискорд-серверов на всех пользователей, у которых есть простаивающий без дела ПК с неплохой видеокартой.
📌🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠🔠
▫️Допустим, один владелец ПК разворачивает у себя сервисы для whisper и stable diffusion, а другой, с более мощным компом, - сервис для llm mixtral.
▫️При этом каждый из них генерирует ключи API, к которым опционально привязана платёжная транзакция, выставляющая цену за вычисления (в базе - 0, потому что у нас открытые ко всему Open Source-щики).
▫️Некий юзер может получить доступ (бесплатно или за деньги) к их API-ключу и воспользоваться их железом для своих расчётов. При этом у этого юзера есть некоторые баллы, которые он тратит, когда считает на чужих компах и получает, когда другие считают на его компе (защита от личеров).
▫️Также у нас есть третий владелец ПК, который не хочет, чтобы кто-то посторонний использовал его комп для расчётов, а хочет считать только сам. Он генерирует закрытый ключ API, и использует его сам, пользуясь web-интерфейсом с любого своего устройства.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Я нашла следующие упоминания похожих идей:
1. Идею распределённого обучения выдвигали Learning@home в библиотеке Hivemind Library (причём, в частности, использование столь нашумевшей в этом году Mixture of Experted в distributed режиме).
2. Распределённое хранилище самих файлов моделей (явно используя torrent).

Существует много библиотек для распределённого обучения (примеры), но насколько я понимаю, кроме Hivemind все ориентированы на кластерные вычисления.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Итак, 🔠🔠🔠🔠🔠🔠🔠
1️⃣Слышали ли вы о подобных решениях или о работах в этом направлении?
2️⃣Может быть, вы использовали библиотеки для распределённого между машинами инференса?
3️⃣Поучаствовали бы вы лично в такой кооперации с другими пользователями, чтобы получать бесплатное или более дешёвое решение и не зависеть от корпораций?
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда Стивен снимал пародийное видео про призраков, он и не подозревал, что однажды сам им станет!👻

А всё благодаря ProPainter - бесплатному средству удаления объектов в видео.
Эта задача давно и глубоко изучается. Но это решение показывает прекрасный уровень Open Source, подходящий для некоторых практических применений. Поэтому если вам нужно:
убрать логотипы
выделить фон из видеопотока для последующего использования в играх или задаче реконструкции
убрать лишние объекты с видеосъёмки
То пробуйте демо, в котором от пользователя требуется загрузить видео и интерактивно разметить маски на одном кадре.
Мои впечатления от демки:
низкое время работы
высокая точность (артефактов почти нет)
демка иногда падает, если накликать много точек в изначальной сегментации
не работает с длинными видео

Детали и пояснения
Предыдущие решения на основе потока оперировали или только на домене изображений или на домене признаков, а трансформеры требовали много ресурсов:
- При глобальном распространении на домене изображений возникали артефакты из-за неточностей оптического потока
- Трансформеры не позволяли заглядывать в сильно удалённые в прошлое кадры
В статье представили модель DDP (двухдоменное распространение для изображений и признаков) - разделение потока вычисления на область изображений и область признаков с их дальнейшим объединением.
А также представили MSVT (разреженный видеотрансформер) - для оптимизации памяти и вычислений).
По метрике PSNR алгоритм превзошёл аналоги на 1.46 dB с сохранением эффективности.
Обучен на Youtube-VOS, тестирован на Youtube-VOS, Davis.
Использованные в решении концепции и модели: RAFT (модель оптического потока), RFC (завершение повторяющегося потока).

Заставлю любого исчезнуть 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Мне понравился мультфильм Spider-Man: Across the Spider-Verse (яркий, эмоциональный, динамичный и вдохновляющий фильм)

А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.

Нью-Йорк Сити особенно удался, правда?
6
Сегодня сочельник
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.

Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.

Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
9
Речь о том, что гуманоидный робот впервые приблизился к выполнению кофейного теста, который Стив Возняк, соучредитель Apple Inc., предложил в качестве эталона для оценки возможностей автономных роботов. Тест требует, чтобы робот вошел в незнакомый дом, нашел кухню, определил необходимые инструменты и ингредиенты, а затем приготовил чашку кофе. Кофейный тест проверяет способность робота ориентироваться в неизвестной среде, распознавать объекты, манипулировать инструментами и материалами и выполнять последовательность заданий для достижения определенной цели.
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
⬇️⬇️⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Forwarded from yolo singularity
у нас только что произошел прорыв в нашей лабе

у робототехники наступает
ChatGPT moment, и этот момент наступит завтра


а может не надо 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру.
Ранее мы рассматривали метод OpenLRM.

С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление
Использование gaussian splatting даёт более быструю визуализацию, по сравнению с NeRF-представлением в OpenLRM
Декодер точки генерирует облако точек по изображению
Затем triplane-декодер строит признаки гауссиан для этих точек
Такая декомпозиция позволяет преодолеть неструктурированность результата, свойственную прямой регресии атрибутов gaussian splatting
Далее 3D-Gaussianы декодируются MLP для быстрого рендеринга
Оба декодера масштабируются и обучены на обширных 3D датасетах
Оценка показала не только увеличение качества реконструкции, но и более быстрое время рендеринга
Оценка качества
🔣Обучение производилось на Objaverse-LVIS (46K моделей, 1156 категорий). С помощью блендера генерировался GT RGBD.
🔣Оценка производилась на датасете GSO (Google Scanned Objects) всего на 100 объектах.
🔣Измерялись метрики для 3D геометрии (Chamfer distance, Volume IoU), а также метрики для изображений (PSNR, SSIM, LPIPS).
🔣Сравнение идёт с:
1️⃣3D-генеративными моделями Point-E, Shap-E
2️⃣2D-диффузионные моделями Zero-1-2-3
3️⃣моделями прямого распространения на основе выхода 2D-диффузионных моделей One-2-3-45
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
Время реконструкции 140 ms, время рендеринга 3ms (против нескольких секунд в OpenLRM)
Достигается PSNR порядка 23 (против 20 у OpenLRM)
Тестирование всего на 100 объектах
В обучении и тестах использовались 3Д объекты, а не фотографии, а значит, качество на реальных данных будет ниже
🔣🔣🔣
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
PASD - алгоритм для суперразрешения и улучшения фотографий, требующий текстовую подсказку на входе.
Статья, код, демо, колаб
На сегодняшний день это лучший алгоритм, который не портит исходное лицо.
Он предназначен для работы с фотографиями, а не с видео.

Жаль, что модель для колоризации сейчас недоступна.
🔣🔣🔣 В комментариях схема модели с пояснениями.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Media is too big
VIEW IN TELEGRAM
У шлемов виртуальной реальности в их текущем виде много полезных применений. Одно из них - геймификация привычных занятий. Пример такого решения - отечественная подводная система VRDiver (участник проекта "Сколково"),, разработанная в Екатеринбурге.
🔣Система обеспечивает полное погружение пользователя в виртуальную реальность. Согласитесь, что плавать с коралловыми рифами вокруг намного приятнее 😍 Виртуальный контент при этом обновляется.
🔣Система состоит из полнолицевой плавательной маски, трекинга 6DoF и крепления для защиты пользователя от столкновения со стенками бассейна.
🔣Уже есть клиенты в Екатеринбурге, Санкт-Петербурге, Рязани, Уфе и других городах. В Москве, к сожалению, клиентов нет, поэтому опробовать не могу.
🔣🔣🔣
С какими примерами VR-геймификации вы уже сталкивались в реальной жизни?
Please open Telegram to view this post
VIEW IN TELEGRAM
3