randomkitchensink – Telegram
Это будет то, о чем я думаю? 🤔
randomkitchensink
Это будет то, о чем я думаю? 🤔
Для контекста: лекция от Phygital в летней школе ФТЛ МФТИ. Объясняли как делать угрожающие приседания Geometric DL.
DET завален
"We experience complexity as cows. Complexity is cows."
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Трехмерщикам стоит приподнапрячься.
Еще одна работа по генерации 3Д, но не из текста, а из ОДНОГО изображения.
Типа концептер накидал референс, и тут ИИ такой, клик-клик и в продакшен, модель готова.
Ладно, пока выдыхайте, до продакшена далеко. Все это очень долго и разрешения там крохотные, но кто помнит, что было полгода назад, или года назад? А что сейчас. Так что готовимся к лучшему или к худшему, смотря с какой стороны баррикад посмотреть.

"Виртуальная реальность и дополненная реальность (XR) вызывают растущий спрос на 3D-контент. Однако создание высококачественного 3D-контента требует утомительной работы, которую должен выполнять человек-эксперт. В этой работе мы изучаем сложную задачу превращения одного изображения в трехмерный объект и впервые демонстрируем возможность создания правдоподобного трехмерного объекта с 360-градусным обзором, который хорошо соответствует заданному эталонному изображению. Наша методика проливает свет на многообещающее направление упрощения рабочих процессов для 3D-художников и XR-дизайнеров"
https://vita-group.github.io/NeuralLift-360/
Чатботы с RLHF на основе реальных данных
Мы все слышали про ChatGPT и другие языковые модели с RLHF, или RL на основе обратной связи от человека. Нейронная сеть учится не предсказывать тексты из обучающей выборки, а генерировать тексты, которые получают положительными отзывы человека или другого ИИ. RLHF производит качественные модели (сравните ChatGPT и DaVinci), но для обучения с ним требуются десятки тысяч размеченных генераций, получение которых не под силу многим проектам.
На прошлой неделе исследователи из Chai Research (https://www.chai-research.com/) выложили статью, в которой описали свой вариант RLHF. Вместо ручной разметки данных для получения оценок используют набор прокси-метрик, например среднюю длину разговора и число повторных генераций. Разметкой занимаются конечные пользователи.
Что же получилось на выходе? A/B тесты показывают увеличение средней продолжительности разговора и ретеншена. Однако сложно понять, делает ли это модель лучше.
Статья: https://arxiv.org/abs/2303.06135
Воскрешение рекуррентных сетей
В последнее время Трансформеры и SSM фактически заменили рекуррентные сети в обработке длинных последовательностей. Казалось бы, RNN были мертвы...
Пока не вышла эта статья от DeepMind. Авторы работали до этого над HiPPO, и архитектура имеет схожести: предложенный ими вариант RNN линеен и может вычисляться параллельно. В статье описывается LRU, представляющий из себя более стабильный вариант RNN без нелинейностей с некоторыми оптимизациями:
- вычисление матричной экспоненты, необходимое для линейных RNN, заменяется через трюк со спектральным разложением и комплексной инициализацией
- нормализация промежуточных значений
- ограничение фазы собственных значений
Эти изменения делают модель конкурентной на PathX, самом сложном датасете в Long-Range Arena.
Архитектура LRU оптимизирует и объединяет RNN и SSM. Её сложно назвать тем или другим, но она определенно эффективна.
Статья: "Resurrecting Recurrent Neural Networks for Long Sequences" - https://arxiv.org/abs/2303.06349
Open Source AI Game Jam
В эту пятницу Huggingface начинает соревнование по ускоренной разработке игр. В правилах есть твист - надо использовать по крайней мере один ИИ-инструмент с исходным кодом. Кроме этого ограничений нет. Информация о джеме в каналах Discord-сервера компании.
Джем - https://itch.io/jam/open-source-ai-game-jam
Дискорд HF - https://hf.co/join/discord