Мне понравился мультфильм Spider-Man: Across the Spider-Verse (яркий, эмоциональный, динамичный и вдохновляющий фильм)
А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.
Нью-Йорк Сити особенно удался, правда?
А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.
Нью-Йорк Сити особенно удался, правда?
Сегодня сочельник
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.
Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.
Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.
Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.
Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.
Речь о том, что гуманоидный робот впервые приблизился к выполнению кофейного теста, который Стив Возняк, соучредитель Apple Inc., предложил в качестве эталона для оценки возможностей автономных роботов. Тест требует, чтобы робот вошел в незнакомый дом, нашел кухню, определил необходимые инструменты и ингредиенты, а затем приготовил чашку кофе. Кофейный тест проверяет способность робота ориентироваться в неизвестной среде, распознавать объекты, манипулировать инструментами и материалами и выполнять последовательность заданий для достижения определенной цели.
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
⬇️ ⬇️ ⬇️
Пока ещё робот не входит в незнакомый дом, поэтому судя по всему речь о выполнении этапа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from yolo singularity
у нас только что произошел прорыв в нашей лабе
у робототехники наступает
ChatGPT moment, и этот момент наступит завтра
а может не надо
Please open Telegram to view this post
VIEW IN TELEGRAM
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру.
Ранее мы рассматривали метод OpenLRM.
➗ С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление
➗ Использование gaussian splatting даёт более быструю визуализацию, по сравнению с NeRF-представлением в OpenLRM
➗ Декодер точки генерирует облако точек по изображению
➗ Затем triplane-декодер строит признаки гауссиан для этих точек
➗ Такая декомпозиция позволяет преодолеть неструктурированность результата, свойственную прямой регресии атрибутов gaussian splatting
➗ Далее 3D-Gaussianы декодируются MLP для быстрого рендеринга
➗ Оба декодера масштабируются и обучены на обширных 3D датасетах
➗ Оценка показала не только увеличение качества реконструкции, но и более быстрое время рендеринга
Оценка качества
🔣 Обучение производилось на Objaverse-LVIS (46K моделей, 1156 категорий). С помощью блендера генерировался GT RGBD.
🔣 Оценка производилась на датасете GSO (Google Scanned Objects) всего на 100 объектах.
🔣 Измерялись метрики для 3D геометрии (Chamfer distance, Volume IoU), а также метрики для изображений (PSNR, SSIM, LPIPS).
🔣 Сравнение идёт с:
1️⃣ 3D-генеративными моделями Point-E, Shap-E
2️⃣ 2D-диффузионные моделями Zero-1-2-3
3️⃣ моделями прямого распространения на основе выхода 2D-диффузионных моделей One-2-3-45
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
➕ Время реконструкции 140 ms, время рендеринга 3ms (против нескольких секунд в OpenLRM)
➕ Достигается PSNR порядка 23 (против 20 у OpenLRM)
➖ Тестирование всего на 100 объектах
➖ В обучении и тестах использовались 3Д объекты, а не фотографии, а значит, качество на реальных данных будет ниже
🔣 🔣 🔣
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Ранее мы рассматривали метод OpenLRM.
Оценка качества
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.
Please open Telegram to view this post
VIEW IN TELEGRAM
PASD - алгоритм для суперразрешения и улучшения фотографий, требующий текстовую подсказку на входе.
Статья, код, демо, колаб
➕ На сегодняшний день это лучший алгоритм, который не портит исходное лицо.
➖ Он предназначен для работы с фотографиями, а не с видео.
Жаль, что модель для колоризации сейчас недоступна.
🔣 🔣 🔣 В комментариях схема модели с пояснениями.
Статья, код, демо, колаб
Жаль, что модель для колоризации сейчас недоступна.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
У шлемов виртуальной реальности в их текущем виде много полезных применений. Одно из них - геймификация привычных занятий. Пример такого решения - отечественная подводная система VRDiver (участник проекта "Сколково"),, разработанная в Екатеринбурге.
🔣 Система обеспечивает полное погружение пользователя в виртуальную реальность. Согласитесь, что плавать с коралловыми рифами вокруг намного приятнее 😍 Виртуальный контент при этом обновляется.
🔣 Система состоит из полнолицевой плавательной маски, трекинга 6DoF и крепления для защиты пользователя от столкновения со стенками бассейна.
🔣 Уже есть клиенты в Екатеринбурге, Санкт-Петербурге, Рязани, Уфе и других городах. В Москве, к сожалению, клиентов нет, поэтому опробовать не могу.
🔣 🔣 🔣
С какими примерами VR-геймификации вы уже сталкивались в реальной жизни?
С какими примерами VR-геймификации вы уже сталкивались в реальной жизни?
Please open Telegram to view this post
VIEW IN TELEGRAM
Платформы разметки данных
Чтобы обучить алгоритм машинного обучения, нужно собрать датасет. Часто можно найти готовые датасеты на kaggle, наскрэппить в интернет или использовать генеративные модели. Но для некоторых задач или данных требуется ручная разметка (например, проприетарного датасета). В этом случае на помощь приходят платформы для разметки данных.
🔣 Одна из таких платформ - Supervisely - позволяет делать разметку изображений, видео, лидарных облаков, DICOM и объёмных данных.
🔣 Используя мощь полуавтоматической разметки, можно значительно ускорить разработку и повысить качество результирующего решения (см. картинку).
🔣 С помощью Supervisely можно создать собственную платформу с интеграцией многочисленных инструментов с открытым исходным кодом (github) в единую экосистему. В Enterprise Edition поддерживаются закрытые репозитории Git для авторских приложений.
🔣 Supervisely - очень прозрачная, доступная для использования платформа. Вот, например, полный тьюториал, а вот - документация. Кроме этого, у них очень хорошие блоги, в которых понятным языком описываются ключевые понятия, алгоритмы и закономерности, без избытка маркетинга.
Минутка лирики.
➗ Мне особенно греют душу примеры разметки аграрных данных, потому что это очень важная для народного хозяйства область.
➗ С учётом близкой готовности гуманоидных роботов к работе, представляете, как здорово будет накатить им апдейт для сегментации и классификации сорняков и сидеть на веранде, пока он вкалывает под палящим солнцем?..
➗ А чтобы это случилось, нужно готовить датасеты с листочками и стебельками.
Чтобы обучить алгоритм машинного обучения, нужно собрать датасет. Часто можно найти готовые датасеты на kaggle, наскрэппить в интернет или использовать генеративные модели. Но для некоторых задач или данных требуется ручная разметка (например, проприетарного датасета). В этом случае на помощь приходят платформы для разметки данных.
В этой компании работает один из моих подписчиков - Максим. Он написал несколько очень неплохих блогов-постов, например 1 и 2, а также у него есть канал. Максим хорошо разбирается в современных алгоритмах сегментации. Подписывайтесь, кому интересно.
Минутка лирики.
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру. Ранее мы рассматривали метод OpenLRM. ➗ С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление…
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вот и примеры реконструкции подъехали. В целом очень даже неплохо, даже на реальных данных! Реконструируется быстро. Думаю, уже к следующей осени появятся высокодетализированные решения, потому что для этого нужно: а) собрать больше разнообразных данных (это делается) б) сделать 3д-upscaler (это, наверняка, тоже делается внутри Adobe и других гигантов, а может и в компаниях поменьше). Так что готовимся осенью реконструировать что угодно по одной фотографии.
This media is not supported in your browser
VIEW IN TELEGRAM
Работа учёных очень разнородна, тем не менее каждому приходится так или иначе читать статьи, от осведомлённости и оперативности учёного зависят его научные результаты.
SciSummary - пример важного инструмента современности, рабочей среды учёного-исследователя. Сайт представляет собой ИИ-инструмент для работы с научными публикациями, позволяющий реферировать и упрощать текст научных работ (изначально узнала про него отсюда).
Доступный функционал:
🔣 выжимка текста (из одной или из пачки публикаций),
🔣 обсуждение статей с языковой моделью,
🔣 извлечение картинок,
🔣 извлечение списка литературы с автоматическим поиском источников в сети,
🔣 внесение заметок.
Инструмент платный (5$ за млн слов). Бесплатно удалось только один раз прогнать реферирование.
Не могу сказать, чтобы он идеально справился с моими ожиданиями от ИИ-помощника. Рассмотрю, что понравилось, а что нет.
➕ Удобная навигация в пространстве публикаций
➕ Удобно составлять заметки
➕ Удобно быстро выдрать картинки из текста
➖ Не достаёт таблицы
➖ Не анализирует цифры
➖ Реализован он на базе GPT3, поэтому и выжимки слабоваты
Чего бы мне хотелось от подобных систем в своей области и типах работ:
1️⃣ формулировки проблемы в терминах: решаемая задача (например, SLAM или text-2-3d), входные данные, выходные данные
2️⃣ перечисления ключевых идей (допустим gaussian splatting, triplane) + картинка со схемой алгоритма
3️⃣ формулировки результатов в терминах: датасет для обучения, датасет для оценки, метрики оценки, бенчмарк, выводы + таблица
4️⃣ требования по скорости и памяти
5️⃣ возможность автоматической подгрузки медиа (например, с ютьюба), скрэппинг ссылок на сайт проекта, гитхаб и колабы. Давече я проверяла - Bing в Edge с этим справляется на ура.
6️⃣ возможность автоматической аггрегации результатов из табличек для сравнения разных методов на одинаковых данных
7️⃣ оповещение о вирусной публикации в смежной области, в которой представлена новая идея (возможно, её можно применить у себя)
В общем, похоже, что мне отчаянно не хватает бесплатного маркетплейса научных статей.
SciSummary - пример важного инструмента современности, рабочей среды учёного-исследователя. Сайт представляет собой ИИ-инструмент для работы с научными публикациями, позволяющий реферировать и упрощать текст научных работ (изначально узнала про него отсюда).
Доступный функционал:
Инструмент платный (5$ за млн слов). Бесплатно удалось только один раз прогнать реферирование.
Не могу сказать, чтобы он идеально справился с моими ожиданиями от ИИ-помощника. Рассмотрю, что понравилось, а что нет.
Чего бы мне хотелось от подобных систем в своей области и типах работ:
В общем, похоже, что мне отчаянно не хватает бесплатного маркетплейса научных статей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла моя первая статья на Хабр. 🖥
Посвящена обзору существующих решений с помощью алгоритмов 3D Gaussian Splatting, основана на недавнем научном обзоре и дополнена иллюстрациями, многочисленными ссылками и пояснениями.
Статья суровая🥸 , так что выбирайте интересные вам разделы.
Приятного чтения! Плюсуйте🔝
Посвящена обзору существующих решений с помощью алгоритмов 3D Gaussian Splatting, основана на недавнем научном обзоре и дополнена иллюстрациями, многочисленными ссылками и пояснениями.
Статья суровая
Приятного чтения! Плюсуйте
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Обзор решений на основе 3D Gaussian Splatting
Примечание. Переводчики переводят словосочетание Gaussian Splatting на русский весьма занятным образом: то как разбрызгивание по Гауссу, то как Гауссовский шлепок, то даже как Гауссовский удар....