rizzearch – Telegram
rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
Layer-wise linear mode connectivity

Прикольная статья, которая теоретически и эмпирически показывает, почему прямое усреднение параметров моделей с одинаковой архитектурой улучшает результат, а точнее усреднение параметров конкретных слоев

Позволяет выйти в поверхности функции потерь на место с отсутствием linear barrier => parameters averaging снижает лосс, что далеко нетривиально для невыпуклых лоссов глубоких сетей


👀LINK


#representationlearning #parametersaveraging #losssurface
🔥2
Data Distributional Properties Drive Emergent In-Context Learning in Transformers (NeurIPS 2022)

Интересная статейка с нипса 22 года про причины in-context learning (ICL). Тут авторы приводят несколько наблюдений

1) Есть свойства данных, которые коррелируют с возможностью модели в ICL. Это "burstiness" (насколько классы в последовательности собираются в кластера), число и частота классов, различность в значениях одного класса и внутреклассовые вариации семплов. Эти выводы можно использовать для анализа различных ICL сетапов

2) In-context learning зачастую идет в трейд-офф с in-weights learning (IWL), а свойства в данных для двух сетапов разнятся

3) Трансформеры более способны в ICL, чем рннки, что в целом не сюрприз

4) Существуют сетапы, где модель все может показать и ICL и IWL, например, если данные семплируются из распределения Ципфа, которое несет важную информацию о распредлении частотности слова в языке

👀LINK

#nlp #incontextlearning #inweightslearning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔1
Foundation Policies with Hilbert Representations


фаундейшн модели остаются открытым вопросом в области рл, поскольку зачастую эти методы требуют большого разнообразия и высокой экспертности данных для того, чтобы хоть что-то завелось. Беркли, а именно Seohong Park, решают эту проблему через латентное представление в Гильбертовом пространстве (звучит умно, а на самом деле в этом пространстве просто достаточно, чтобы inner product соответствовал метрике), которое сохраняет временные зависимости между состояниями в пространственных между эмбеддингами.

Политика же обучается после этого с формулированием подобного же intrinsic reward'a

Что это дает? возможность решать много разных goal-conditioned и zero-shot rl задач, обгоняя алгоритмы, которые затюнены специально под каждую конкретную таску


👀LINK


#rl #zeroshot #goalconditioning #hilbert #offlinerl
👀2
Identifying Policy Gradient Subspaces

В оптимизации супервайзд лернинга есть находка относительно градиентов - они лежат в каком-то подпространстве параметров, при этом это подпространство меняет свою форму относительно медленно

Авторы решили поискать то же самое и в полиси градиент методах рл - и выяснили то же самое!

А что ето значит? А то, что любые методы по ускорению обучения супервайзд лернинга, которые используют факт low-dimensional gradient subspace coverage, можно без зазрения совести использовать и в классичных алгоритмах рл, задумываясь о других аспектах методов


👀
LINK

#rl #optimization #subspace #policygradient
2👍2
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

А вот и невероятно крутой пример, как использовать факт из поста выше

Сложно найти человека, который ни разу не слышал про ЛоРУ и многие ее производные, которые оч сильно помогают файнтюнить большие модельки при непосредственном обучении отдельного относительно небольшого количества параметров

А вот можно лучше, как оказывается!😼

Авторы показывают, что оптимизацию в низкоранговом пространстве можно сделать эффективно относительно памяти для всех параметров модели. А как? Да просто проецировать градиенты в подпространство, делать там апдейт, и возвращаться в исходное пространство

А как найти это подпространство? Через сингулярное разложение, оф корс😎😎😎

👀LINK

#llm #optimization #lowrank #memory #lora
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
Massively Scalable Inverse Reinforcement Learning in Google Maps


Что насчет применения инверс рейнфорсмент лернинга, задачки где надо восстановить ревард функцию, на графах, где граф - маршруты на нашей земле. А ревард функция зачем? - чтобы научить алгоритм находить кратчайшие маршруты, конечно

А такое возможно 🤔?
А что насчет компрессии графов, пространственной параллелизации и увеличения производительности? - ну тоже есть, вот Гугл раскрыл как применяет рл и нормально так времени на маршрут сбавляет по всему миру


👀
LINK


#rl #graph #mdp #inverserl
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
To the Max: Reinventing Reward in Reinforcement Learning

Все обучение с подкреплением зиждится на максимизации функции награды, а точнее на ее максимизации в долгосрочной перспективе, в основном - это (дисконтированная) сумма наград

Но что делать в ситуациях, когда сумма наград не подходит под решение задачи? Например, награды, сделанные в лоб для того, чтобы заставить агента делать то, что человек хочет, зачастую разреженные, а такое оптимизируется ой как непросто и в классическом дип лернинге, не то что в рл

Авторы предлагают в таком случае переформулировать постановку оптимизации не суммы наград, а максимума из наград, что поможет в таких случаях
А как такое сделоть? Через доп переменную, которая интуитивно является аккумулируемой переменной максимума, а остальные детали не отличаются от классических имплементаций


👀LINK

#rl #reward
Forwarded from Complete AI (Andrey Kuznetsov)
🕯️Друзья, вчера случилась большая трагедия!

Нападение террористов на Крокус привело к большому числу жертв и пострадавших.

Сбер не остался в стороне и вместе с Российским красным крестом запустил благотворительный фонд. Прошу не оставаться в стороне, помощь каждого из вас безмерно важна🙏

➡️По ссылке сразу перейдёте в Сбербанк Онлайн и сможете внести пожертвование.

Берегите себя🙏
🙏5
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation
⚡️CVPR 2024 ⚡️

Новый метод дистилляции unconditional диффузии для conditional данных в один этап. Напоминание - дистилляция в consistency models работает в два шага, если мы хотим иметь какое-то условие для генерации. Сначала мы дистиллируем, а потом тюним с каким-нибудь адаптером, ну или наоборот. Так вот CoDi позволяет это делать в один шаг

Модель учится на подобие ControlNet, что позволяет принимать conditioning. Лосс же (уже conditional модели) состоит из двух частей для self-consistency: дистанция по предиктам шума и дистанция по предикту сигнала изображения. Вторая часть приближает предсказанный conditional сигнал к изначальной картинке, что помогает бороться с over-saturated генерациями

Модель отлично себя показывает в 1-4-step генерациях против LDM, ControlNet, CM, Instruct-Pix2Pix и разных видов дистилляций

👀 LINK

#diffusion #diffusiondistillation #consistency #controlnet
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness

А вот вам немного OOD с приколами 🥶

Авторы формулируют задачу подсчета неуверенности модели через minimax проблему, где нам интересно минимизировать worst-case риск по всем тренировочнм распределениям. Такая формулировка в стандартном сетапе ведет к предсказаниям с максимальной энтропией для OOD данных. Но для того, чтобы оценить вероятность домена данных нам нужна мера расстояния конкретного семпла до тренировочной выборки (звучит логично 💯)

Логиты нейронных сетей не несут в себе меры расстояния от in-domain данных, в отличие от гауссовских процессов с радиальной базисной функцией (RBF). В них дисперсия постериора растет по мере удаления тестового семпла от in-domain выборки

Для того, чтобы получить distance-aware нейронку, авторы вставляют вместо последнего слоя гауссовский процесс. Однако просто так это сделать нельзя из-за вычислительных сложностей. Давайте аппроксимировать гауссовский процесс с помощью случайных признаков Фурье, получая байесовскую линейную модель. Для таких сетапов есть много вариантов аппроксимации постериора, и авторы выбирают аппроксимацию Лапласа. В итоге получается дешевый distance-aware метод для uncertainty estimation

Последний штрих - спектральная нормализация для гарантии на ограниченность фичей по Липшицу. Это нам нужно опять же для полной уверенности в связи наших предиктов и меры расстояния

👀 LINK

#uncertainty #laplaceapproximation #gaussianprocess #bayesian #ood
Please open Telegram to view this post
VIEW IN TELEGRAM
👀6👍2🔥2
Inference via Interpolation:
Contrastive Representations Provably Enable Planning and Inference


Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"

Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг

А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами

Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами

👀LINK

#timeseries #representationlearning #contrastivelearning #decisionmaking
1👍1🔥1
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning

Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом

Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)

Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада

Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется

(Костыльная) Простота - сестра таланта😎

👀LINK

#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

Я здесь, за эту ортогонализацию стою
Грам-Шмидт мне все, и я все Грам-Шмидту
Кто меня знает, тот в курсе



В рл есть огромный пласт - value-based методы, которые учат каким-либо образом функцию ценности состояния или пары состояния-действия, в идеале они должны показывать, насколько выгодно в долгосрочной перспективе приходить в это состояние или же принимать какое-либо действие в конкретном состоянии
Однако, в довольно сложных средах обучение таких функций становится нетривиальным и зачастую вообще не соответствует тому, что мы хотим получить (не показывает истинную ценность принятых решений)

🇨🇳авторы заметили, что в практическом градиент апдейте таких функций есть два направления - forward & backward🥴, которые могут противоречить друг другу (вообще там все более-менее обосновано на состояниях и следующих состояниях датасета) => почему бы не ортогонализировать обратно этот градиент на поверхность forward gradient'a


Какой вывод можно сделать из статьи? Оказавшись в тупике, не будет лишним попробовать ортогонализировать что-нибудь и посмотреть, как изменится результат - авось приведет к полезным выводам и повысит видимость общей картины


👀LINK

#rl #offlinerl #orthogonalization #value
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🥴2
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning


Ранее мы уже писали о проблеме сбора данных для обучения рл агентов - регулярный переход с цпу на гпу сильно снижает скорость сбора и качество данных и все такое

В последнее время в области рл произошел бум в связи с jax'ом, который позволяет не только производить компиляцию всего процесса обучения (Just-In-Time Compilation), но и в невероятно огромных масштабах параллелизовать процесс сбора траекторий в средах, не переходя обратно на цпу. Этот феномен имеет название JAX-based environments phenomenon

Насколько ускоряется этот процесс? Например, если вы возьмете готовый скрипт PPO из популярной репы cleanrl, то процесс обучения займет несколько часов на нескольких миллионах апдейт шагов

Авторы этой статьи способны обучить на своей среде PPO на миллиард шагов меньше чем за час и достигнуть 90% от оптимального уровня - вот один из плюсов джакса👡

(!) Но это еще не все - поскольку идет такое невероятное ускорение в сотни раз (буквально), то это позволяет и обучать агентов гораздо быстрее => ресерчерам проверять быстрее гипотезы => получать сота результаты по старым средам быстрее => усложнять среды, чтобы двигать область вперед

Крафтакс - оч яркий пример таких джакс сред, который в себя включает достаточную сложность и вопросы бесконечного эксплорейшна, долгосрочного планирования, адаптации к новым уровням и модельной памяти (это буквально инди игра), где можно очень сочно и быстро развивать существующие методы, чтобы рл перестала быть как область топорной непонятной штукой во многих местах и начала пробивать все потолки


👀LINK

#rl #jax #openendedness #compute #exploration #planning #memory #adaptation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🤩1
HIQL: Offline Goal-Conditioned RL with Latent States as Actions

Есть рл, где мы отталкиваемся от ревард функции. Окей, а что делать если этой функции нет - можно ли все равно делать роботов и прочее, что мы хотим? Yes, можно свести отсутствие реварда к задаче достижения цели (goal), где надо прийти в какое-то место, а ревард функция в данном случае будет индикатором того, достигли ли мы желаемой точки или нет. В каком-то смысле отсутствие реварда в явном виде подталкивает нас на то, что такие модели будут склонны к self-supervised (unsupervised) поведению

Но чем дальше наша цель, тем сложнее. Верно как и для людей, так и для универсальных аппроксиматоров (нейронок), Seohong Park, ранее упоминавшийся в нашем канале, решает эту проблему через обобщенную Value function, которая принимает на вход вместо действий так называемые подцели (subgoals) + вводит иерархичного актора (policy), первый уровень которого моделирует эмбеддинг этого subgoal, а второй уровень по действию и по подцели предсказывает действие, которое надо сделать чтобы прийти к изначальному goal

Звучит не так сложно, а ведь так и должно - зачастую скейлятся и остаются на года именно те решения, которые стараются как можно проще решить задачу, и при этом решают ее

👀LINK

#rl #goal #rewardfree #value #offlinerl
Is the Policy Gradient a Gradient?

Есть важная для теории рл вещь как Policy Gradient - позволяет связать (почти) напрямую реварды в рл с параметрами модели, которая предпринимает действия в среде.
Однако есть важный нюанс, который часто откидывают в более продвинутых методах - в них откидывают discount factor, коэф < 1, который интуитивно склоняет агента получать как можно больше награды как можно раньше (ну и на самом деле без этого коэффициента часто где не будут сходиться определенные величины и алгоритмы еще на уровне теории второго курса точно не будут работать)

Авторы задают вопрос - а можно ли вообще такое делать? останется ли такой измененный "градиент" градиентом хоть какой-то функции, или хотя бы будут ли теоретические показания, что алгоритм все равно хоть куда-то сойдется?

Как оказывается - такие градиенты вообще не градиенты (думайте.) Если ниже из списка популярных алгоритмов хоть один вам известен - в нем оптимизация идет не функции, а непонятно по чему

[ A3C SAC ACKTR ACER PPO TD3 ]

Ну, окей - хотя бы практически работает, но почему? where is my mind?
К сожалению или счастью, непонятно, почему это работает, кроме как фразы: "Ну мы вкладываем такое предположение, которое должно работать"

Считаю, это тот момент, когда очень наглядно современный теоретический аппарат науки отстает от человеческой интуиции - авторы вносят практические (эвристические) модификации, обусловленные эмпирическими результатами и упрощенными размышлениями, а теоретически это не выразить


👀LINK

#rl #policygradient #theory #practice
👍1
The Primacy Bias in Deep Reinforcement Learning

Думаю, у всех есть жизненные ситуации, где вы сначала заучились что-то делать не совсем правильно (субоптимально) или совсем неправильно (неоптимально), то потом очень сложно переучиться делать правильно - будь то чеканка мяча, игра на гитаре, полуслепая печать и что вообще угодно

Такое явление носит название primacy bias. И раз такое может происходить с людьми, встает вопрос - может ли такое происходить с моделями, которые мы выстраиваем на подобие функционирования человека? (что бы это ни значило)

Ну конечно, еще одна проблема появляется в рл - агент оверфиттится на своем начальном опыте, который просто не может быть оптимальным, он просто ужасный, тк по сути агент только-только увидел свет и начал делать что-то (в основном) неправильное относительно реварда

Проблема то серьезная, а вот авторы показывают как ее легко решить - просто ресеттать веса нескольких последних слоев модели. Такая глубокая проблема решается добавлением нескольких строк кода, да🥹


👀LINK


#rl #resetting #primacybias
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2