YouTube
Guillaume Verdon: Beff Jezos, E/acc Movement, Physics, Computation & AGI | Lex Fridman Podcast #407
Guillaume Verdon (aka Beff Jezos on Twitter) is a physicist, quantum computing researcher, and founder of e/acc (effective accelerationism) movement. Please support this podcast by checking out our sponsors:
- LMNT: https://drinkLMNT.com/lex to get free sample…
- LMNT: https://drinkLMNT.com/lex to get free sample…
По дороге в гости послушала интервью с Гийомом Вердоном в подкасте Лекса Фридмана
В подкасте рассматривалось много интересных тем, но я выделю основные тезисы.
Кто такой Гийом Вердон?
🔣 Физик, прикладной математик и инженер в области квантовых вычислений, основатель компании Extropic, которая стремится создать вычислительное оборудование для генеративного искусственного интеллекта.
🔣 Гийом создал анонимный аккаунт Beff Jesos в X для свободного самовыражения и независимой оценки его идей вне зависимости от его личности и достижений.
Beff Jesos изложил принципы эффективного аккселерационизма E/Acc, перевод на русский
🔣 E/Acc - Effective Accelerationism (образовано от слияния Effective altruism и Accelerationism)
🔣 Современная философская концепция, выступающая за ускорение технического прогресса как оптимального курса действий
🔣 Сторонники E/Acc поддерживают прогресс в области искусственного интеллекта
🔣 ИИ - великий социальный уравнитель, контроль ИИ приведёт к монополии и социальному неравенству
🔣 Безопасность искусственного интеллекта важна, но не должна быть единственным аргументом для регулирования, поскольку может быть использована как инструмент коррупции и централизации власти. Она должна быть достигнута за счет рыночных сил, а не жесткого государственного регулирования.
🔣 Также искусственный интеллект может быть разделен на более мелкие подсистемы для повышения отказоустойчивости.
Движение E/Acc стремится к:
🔣 росту и самосознанию, используя естественные тенденции системы для адаптации к собственному росту.
🔣 балансу между централизацией и децентрализацией, а также к поиску новых субкультур и эвристических подходов к жизни.
Интеллект и квантовые вычисления - симбиоз для решения новых задач
🔣 Квантовый искусственный интеллект может помочь в решении сложных проблем, таких как парниковый эффект и ядерная физика:
🔣 🔣 Квантовые датчики фиксируют квантово-механический образ мира и помогают заглянуть в самые ранние уголки Вселенной
🔣 🔣 Квантовое машинное обучение может быть использовано для обработки этих данных
🔣 Квантовое машинное обучение может быть применено для изучения новой геометрии и понимания квантовой гравитации
И в завершение приведу несколько интересных лично мне мыслей из интервью
👌
Хочу отметить, что хотя по духу мне очень близок оптимизм эффективных аккселерационистов, меня тревожит в их аргументации исходное наивное предположение, будто бы поиск оптимума биологической жизнью не приводит к её вымиранию (см. ошибка выжившего), и будто бы эволюционный отбор и рыночная конкуренция приводит к стабильному развитию. Напротив, они склонны к кризисам (Великая Депрессия, Массовое вымирание). При изобретении ядерной бомбы работы не производились на рыночном основании.
В подкасте рассматривалось много интересных тем, но я выделю основные тезисы.
Кто такой Гийом Вердон?
Beff Jesos изложил принципы эффективного аккселерационизма E/Acc, перевод на русский
Движение E/Acc стремится к:
Интеллект и квантовые вычисления - симбиоз для решения новых задач
И в завершение приведу несколько интересных лично мне мыслей из интервью
компании являются своего рода смесью экспертных моделей
Интеллект - это способность воспринимать, предсказывать и контролировать мир
Математика - это изучение математики ради математики, физика - применение математики для понимания окружающего мира, инженерия - применение физики для взлома мира.
Инопланетяне могут быть мыслями, идеями или мемами, внедрёнными в наше сознание, поскольку мы не знаем, откуда берутся мысли.
Хочу отметить, что хотя по духу мне очень близок оптимизм эффективных аккселерационистов, меня тревожит в их аргументации исходное наивное предположение, будто бы поиск оптимума биологической жизнью не приводит к её вымиранию (см. ошибка выжившего), и будто бы эволюционный отбор и рыночная конкуренция приводит к стабильному развитию. Напротив, они склонны к кризисам (Великая Депрессия, Массовое вымирание). При изобретении ядерной бомбы работы не производились на рыночном основании.
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Video
Ещё до Нового Года попробовала 2 решения text-to-video: Pika и leonardo.ai (image-to-motion).
Оба решения браузерные, для конечного пользователя.
Если выбирать из них одну, то я однозначно бы выбрала leonardo.ai, и вот почему:
➖ Pika генерирует клише. Генерации, выполненные в реалистичном стиле, всё-таки не впечатляют.
➖ Pika сразу стоит трёхсекундное видео без возможности задать начальный кадр.
➕ Pika позволяет объекту совершать размашистые движения. Однако это даётся ценой ошибок побъектов по глубине - рука Санты переднего плана спряталась за ёлочку. Такие огрехи напоминают фактологические ошибки первых нейросетей text-to-image с генерацией неверного числа пальцев, тут мы видим подобные фактологические ошибки в новой модальности, связанной с динамикой.
➕ Зато Pika позволяет редактировать выделенную область в видео. К сожалению, у меня не получилось заставить её сгенерировать котёнка на коленях у Санты.
➕ Pika позволяет использовать изображение или видео для затравки.
Теперь пару слов о Leonardo:
➕ Leonardo сохраняет гораздо более высокий уровень реалистичности.
➕ Если не указывать в promt явное движение, то будет просто сгенерирован какой-то сдвиг или поворот объекта. Тем не менее, возможно создать и сложные эффекты.
➕ Впечатляющую подборку работ художников в leonardo я выкладывала в Новогодней сториз.
➕ Leonardo вначале предлагает сгенерировать кадры, которые затем уже можно анимировать. Поскольку на платформе встроен полноценный редактор stable diffusion, то можно провести полную редактуру исходного кадра.
➖ Чего не хватает, так это отдельного промптинга на анимацию для уточнения совершаемого действия .
➖ Также была бы интересна возможность локального редактирования видео.
➖ Ошибки в динамике также очень значительные.
Резюме такое: модели text-to-video начали стадию внедрения в продукты. Пока они ещё достаточно сырые, но уже сейчас можно с их помощью создавать приятные анимации. Пока ещё создание подходящей анимации требует большого числа повторов, и как следствие, машинных и человеческих ресурсов, чтобы избавиться от неприятных ошибок.
Но учитывая прогресс генеративных сетей, через несколько месяцев будут выстроены удобные общедоступные пайплайны с широкими возможностями редактирования видео. В частности, можно упомянуть недавний MotionCtrl, позволяющий задавать траекторию камеры в генерации.
🔣 🔣 🔣 ... некоторые видео смотрите в комментариях.
Оба решения браузерные, для конечного пользователя.
Если выбирать из них одну, то я однозначно бы выбрала leonardo.ai, и вот почему:
Теперь пару слов о Leonardo:
Резюме такое: модели text-to-video начали стадию внедрения в продукты. Пока они ещё достаточно сырые, но уже сейчас можно с их помощью создавать приятные анимации. Пока ещё создание подходящей анимации требует большого числа повторов, и как следствие, машинных и человеческих ресурсов, чтобы избавиться от неприятных ошибок.
Но учитывая прогресс генеративных сетей, через несколько месяцев будут выстроены удобные общедоступные пайплайны с широкими возможностями редактирования видео. В частности, можно упомянуть недавний MotionCtrl, позволяющий задавать траекторию камеры в генерации.
Please open Telegram to view this post
VIEW IN TELEGRAM
pika.art
The idea-to-video platform that sets your creativity in motion.
This media is not supported in your browser
VIEW IN TELEGRAM
OpenLRM (проект, статья, github, демо) - алгоритм реконструкции 3D-объекта по одной фотографии за 5 секунд.
➗ Строит NeRF представление на выходе (из которого можно семплировать меш, карты глубины и так далее)
➗ Генерализуется без привязки к типу объекта
➗ Работает на разрешении 512 пикселей
➗ Использует в реализации DINO-encoder для патчей, Triplane-представление, лосс при обучении контролируется на четырёх кадрах (основной и 3 дополнительных) по метрикам MSE + 2* LPIPS
➗ Обучен на синтетических Objaverse и реальных данных MVImgNet в соотношении 1:3 за 3 суток на 128 картах A100 (40GB)
Мои впечатления:
➕ Задумка прекрасная. Мне нравится простота идеи - через лоссы других кадров учить генерализацию объёмного представлния.
➕ Радует и скорость обучения, и скорость инференса
➖ Мало данных для обучения. Нужно больше данных, будет совершенно другой уровень обобщения.
➖ Низкое разрешение результата
➖ Привязка в начальной сегментации
В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.
🔣 🔣 🔣
1️⃣ Мой форк с питон-ноутбуком и градио-приложением, визуализирующим меш, а не видео, как в официальном демо. Загружаем ваши, либо мои данные, выделяем в ноутбуке объект, готовим данные, считаем, визуализируем результаты.
2️⃣ Мой публичный колаб, чтобы не возиться с репозиторием.
3️⃣ Huggingface сейчас запрашивает деньжатки за GPU, поэтому деплой там не даю, вместо этого сделала ещё один публичный колаб, который развёртывает app. Запустите обе ячейки с кодом, дождитесь выдачи таких записей, и перейдите по ссылке возле public URL.
Мои впечатления:
В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.
======== Loaded model from checkpoint ========
Running on local URL: http://127.0.0.1:7860
Running on public URL: https://daa4388790604c4ce9.gradio.live
Please open Telegram to view this post
VIEW IN TELEGRAM
Применила к примерам из ноутбука + добавила свою фотку. Прикладываю в комментах фото -> видео алгоритма -> видео после апскейла.
Во-первых, конечно, вау! Отдельно можно задать динамику поведения, выражение лица, аудио и фотографию. А ведь это диффузия!
Во-вторых, грустно, что разрешение всего лишь 256 x 256. Сразу прикрутила Real-ESRGAN (тот, который увеличил нам советский мультик), и он дорисовал лица, не соответствующие реальности.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Machinelearning
🦜 DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.…
DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.…
Мыслишки 💡 и вопрос❓ к подписчикам.
Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍
Юзкейсы.
1️⃣
Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения💙
🔵 Во-первых, я стараюсь следить за публикациями и релизами кода.
🔵 Во-вторых, обожаю демки на huggingface и google colab-ы для Open Source.
🔵 В-третьих, частенько тестирую production web-решения.
Нейросети помогают мне насытить жизнь правильно подобранным и улучшенным контентом:
🔵 прочесть транскрипцию или саммаризацию вместо видео,
🔵 очистить голос, синтезировать голос\видео по тексту,
🔵 помочь придумать мелодию к моим стихам и т.д.
С одной стороны, я нередко задумываюсь, а зачем мне всё это?
А с другой замечаю, что старые типы искусства: кино, театр больше не питают меня так, как ожившие генерации leonardo.ai.
За прошедший год, у меня уже собрался некоторый набор задач и инструментов, которые я использую. Судя по комментариям пользователей в телеграм, у многих подобная ситуация. В моём случае почти все инструменты Open Source и развёрнуты локально на домашней машине + есть несколько web-решений с ограниченным лимитом бесплатного использования.
Я столкнулась со следующими проблемами:
🔵 Поиск самого удобного на текущий момент решения. Как правило, одна и та же технология обыгрывается несколькими продуктами, а на разных уровнях технологического стека существуют свои решения.
🔵 Доступ к вычислительным ресурсам. Поскольку я тяготею к бесплатным локальным версиям, я оказываюсь привязана к своей вычислительной машине. Соответственно, считать что-то удалённо можно через Remote Desktop-средства или разворачивать серверный доступ к своим нейросетям. Всё это довольно кастомизованные решения. К тому же, мой вычислительный узел ограничен по памяти и мощности, а значит я не могу считать на нём всё подряд.
🔵 Неуниверсальность интерфейсов. Мне нравится, когда в Telegram есть бот, решающий мою задачу. Мне удобно было бы каждый раз получать результаты обработки моих запросов через повторяемый интерфейс в мобильнике. Мне очень нравится практика использования gradio-приложений, и когда решение есть на huggingface, я прихожу в восторг. С продуктовыми веб-решениями всё менее удобно для работы с мобильника.
2️⃣
Недавно я увидела вопрос:
Вроде бы,🔠 🔠 🔠 🔠 🔠 🔠 🔠 🔠 🔠 🔠 🔠 , вариантов - миллион.
А с другой стороны, какой из этих миллиона вариантов вам подойдёт? Нет универсального ответа. Есть .exe для винды, есть онлайн-тулзы с лимитом, есть боты, есть колабы и т.д. Наверняка, есть приложения для Android и iPhone.
3️⃣ А тут ещё Ян ЛеКун пророчит победу благого 🔠 🔠 🔠 🔠 🔠 🔠 🔠 🔠 а.
〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️ 〰️
Все эти соображения натолкнули меня на следующую мысль:
⬇️ ⬇️ ⬇️
Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?
Юзкейсы.
Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения
Нейросети помогают мне насытить жизнь правильно подобранным и улучшенным контентом:
С одной стороны, я нередко задумываюсь, а зачем мне всё это?
А с другой замечаю, что старые типы искусства: кино, театр больше не питают меня так, как ожившие генерации leonardo.ai.
За прошедший год, у меня уже собрался некоторый набор задач и инструментов, которые я использую. Судя по комментариям пользователей в телеграм, у многих подобная ситуация. В моём случае почти все инструменты Open Source и развёрнуты локально на домашней машине + есть несколько web-решений с ограниченным лимитом бесплатного использования.
Я столкнулась со следующими проблемами:
Часто бывает так, что сначала вышла статья и есть удобный space на huggingface, я пользуюсь онлайн-сервисом, а потом он пропадает, потому что там довольно дорого, и тогда я разворачиваю локально у себя эту аппку или работаю в колабе. А иногда бывает так, что я просто разворачиваю локально код к гитхаба.
Недавно я увидела вопрос:
как получить транскрипцию длинного видео, не возясь с кодом
Вроде бы,
А с другой стороны, какой из этих миллиона вариантов вам подойдёт? Нет универсального ответа. Есть .exe для винды, есть онлайн-тулзы с лимитом, есть боты, есть колабы и т.д. Наверняка, есть приложения для Android и iPhone.
Все эти соображения натолкнули меня на следующую мысль:
А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Мыслишки 💡 и вопрос❓ к подписчикам. Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍 Юзкейсы. 1️⃣ Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения…
А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?
Когда мы используем торрент-трекеры, у нас есть сиды и пиры. Сиды раздают файлы, пиры находятся в процессе скачивания. Каждый сид выступает хранилищем экземпляра файла, а комп выступает как сетевое файловое хранилище. При этом в протоколе предусмотрена защита от личеров (то есть от юзеров, которые берут больше, чем отдают). Похожую схему можно было бы использовать и для расчётов, превратив компы в вычислительные узлы.
Это не столь уж необычно. Например, для майнинга криптовалют используют майнинговый пул.
Когда мы используем генеративные боты в дискорде, мы приходим на один из серверов и отдаём запросы только этому боту. Теперь представьте, что вы обладаете информацией об услугах всех ботов на всех серверах дискорда. Тогда вы можете осуществить scheduling: выбрать наиболее свободный сервер, осуществляющий нужную вам услугу и получить результат быстрее.
Теперь обобщим эту идею с владельцев дискорд-серверов на всех пользователей, у которых есть простаивающий без дела ПК с неплохой видеокартой.
Я нашла следующие упоминания похожих идей:
1. Идею распределённого обучения выдвигали Learning@home в библиотеке Hivemind Library (причём, в частности, использование столь нашумевшей в этом году Mixture of Experted в distributed режиме).
2. Распределённое хранилище самих файлов моделей (явно используя torrent).
Существует много библиотек для распределённого обучения (примеры), но насколько я понимаю, кроме Hivemind все ориентированы на кластерные вычисления.
Итак,
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда Стивен снимал пародийное видео про призраков, он и не подозревал, что однажды сам им станет!👻
А всё благодаря ProPainter - бесплатному средству удаления объектов в видео.
Эта задача давно и глубоко изучается. Но это решение показывает прекрасный уровень Open Source, подходящий для некоторых практических применений. Поэтому если вам нужно:
➗ убрать логотипы
➗ выделить фон из видеопотока для последующего использования в играх или задаче реконструкции
➗ убрать лишние объекты с видеосъёмки
То пробуйте демо, в котором от пользователя требуется загрузить видео и интерактивно разметить маски на одном кадре.
Мои впечатления от демки:
➕ низкое время работы
➕ высокая точность (артефактов почти нет)
➖ демка иногда падает, если накликать много точек в изначальной сегментации
➖ не работает с длинными видео
Детали и пояснения
Предыдущие решения на основе потока оперировали или только на домене изображений или на домене признаков, а трансформеры требовали много ресурсов:
- При глобальном распространении на домене изображений возникали артефакты из-за неточностей оптического потока
- Трансформеры не позволяли заглядывать в сильно удалённые в прошлое кадры
В статье представили модель DDP (двухдоменное распространение для изображений и признаков) - разделение потока вычисления на область изображений и область признаков с их дальнейшим объединением.
А также представили MSVT (разреженный видеотрансформер) - для оптимизации памяти и вычислений).
По метрике PSNR алгоритм превзошёл аналоги на 1.46 dB с сохранением эффективности.
Обучен на Youtube-VOS, тестирован на Youtube-VOS, Davis.
Использованные в решении концепции и модели: RAFT (модель оптического потока), RFC (завершение повторяющегося потока).
Заставлю любого исчезнуть😁
А всё благодаря ProPainter - бесплатному средству удаления объектов в видео.
Эта задача давно и глубоко изучается. Но это решение показывает прекрасный уровень Open Source, подходящий для некоторых практических применений. Поэтому если вам нужно:
То пробуйте демо, в котором от пользователя требуется загрузить видео и интерактивно разметить маски на одном кадре.
Мои впечатления от демки:
Детали и пояснения
Предыдущие решения на основе потока оперировали или только на домене изображений или на домене признаков, а трансформеры требовали много ресурсов:
- При глобальном распространении на домене изображений возникали артефакты из-за неточностей оптического потока
- Трансформеры не позволяли заглядывать в сильно удалённые в прошлое кадры
В статье представили модель DDP (двухдоменное распространение для изображений и признаков) - разделение потока вычисления на область изображений и область признаков с их дальнейшим объединением.
А также представили MSVT (разреженный видеотрансформер) - для оптимизации памяти и вычислений).
По метрике PSNR алгоритм превзошёл аналоги на 1.46 dB с сохранением эффективности.
Обучен на Youtube-VOS, тестирован на Youtube-VOS, Davis.
Использованные в решении концепции и модели: RAFT (модель оптического потока), RFC (завершение повторяющегося потока).
Заставлю любого исчезнуть
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Мне понравился мультфильм Spider-Man: Across the Spider-Verse (яркий, эмоциональный, динамичный и вдохновляющий фильм)
А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.
Нью-Йорк Сити особенно удался, правда?
А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.
Нью-Йорк Сити особенно удался, правда?
Сегодня сочельник
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.
Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.
Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.
Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.
Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
Речь о том, что гуманоидный робот впервые приблизился к выполнению кофейного теста, который Стив Возняк, соучредитель Apple Inc., предложил в качестве эталона для оценки возможностей автономных роботов. Тест требует, чтобы робот вошел в незнакомый дом, нашел кухню, определил необходимые инструменты и ингредиенты, а затем приготовил чашку кофе. Кофейный тест проверяет способность робота ориентироваться в неизвестной среде, распознавать объекты, манипулировать инструментами и материалами и выполнять последовательность заданий для достижения определенной цели.
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
⬇️ ⬇️ ⬇️
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from yolo singularity
у нас только что произошел прорыв в нашей лабе
у робототехники наступает
ChatGPT moment, и этот момент наступит завтра
а может не надо
Please open Telegram to view this post
VIEW IN TELEGRAM
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру.
Ранее мы рассматривали метод OpenLRM.
➗ С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление
➗ Использование gaussian splatting даёт более быструю визуализацию, по сравнению с NeRF-представлением в OpenLRM
➗ Декодер точки генерирует облако точек по изображению
➗ Затем triplane-декодер строит признаки гауссиан для этих точек
➗ Такая декомпозиция позволяет преодолеть неструктурированность результата, свойственную прямой регресии атрибутов gaussian splatting
➗ Далее 3D-Gaussianы декодируются MLP для быстрого рендеринга
➗ Оба декодера масштабируются и обучены на обширных 3D датасетах
➗ Оценка показала не только увеличение качества реконструкции, но и более быстрое время рендеринга
Оценка качества
🔣 Обучение производилось на Objaverse-LVIS (46K моделей, 1156 категорий). С помощью блендера генерировался GT RGBD.
🔣 Оценка производилась на датасете GSO (Google Scanned Objects) всего на 100 объектах.
🔣 Измерялись метрики для 3D геометрии (Chamfer distance, Volume IoU), а также метрики для изображений (PSNR, SSIM, LPIPS).
🔣 Сравнение идёт с:
1️⃣ 3D-генеративными моделями Point-E, Shap-E
2️⃣ 2D-диффузионные моделями Zero-1-2-3
3️⃣ моделями прямого распространения на основе выхода 2D-диффузионных моделей One-2-3-45
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
➕ Время реконструкции 140 ms, время рендеринга 3ms (против нескольких секунд в OpenLRM)
➕ Достигается PSNR порядка 23 (против 20 у OpenLRM)
➖ Тестирование всего на 100 объектах
➖ В обучении и тестах использовались 3Д объекты, а не фотографии, а значит, качество на реальных данных будет ниже
🔣 🔣 🔣
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Ранее мы рассматривали метод OpenLRM.
Оценка качества
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Please open Telegram to view this post
VIEW IN TELEGRAM
PASD - алгоритм для суперразрешения и улучшения фотографий, требующий текстовую подсказку на входе.
Статья, код, демо, колаб
➕ На сегодняшний день это лучший алгоритм, который не портит исходное лицо.
➖ Он предназначен для работы с фотографиями, а не с видео.
Жаль, что модель для колоризации сейчас недоступна.
🔣 🔣 🔣 В комментариях схема модели с пояснениями.
Статья, код, демо, колаб
Жаль, что модель для колоризации сейчас недоступна.
Please open Telegram to view this post
VIEW IN TELEGRAM