NEW BOT Телеграм, страница

gonzo-обзоры ML статей

4.53K views17:55

gonzo-обзоры ML статей

🔥3

4.66K views17:56

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

4.92K views17:57

🔥22

gonzo-обзоры ML статей

"The OECD published a report into the adoption of generative artificial intelligence in the workplace. It said that although the impact of AI on jobs had been limited so far, there remained a significant potential for disruption. It thinks that the roles most exposed to AI are managers, chief executives and engineers. The least exposed jobs are rubbish collectors, labourers and cleaners."

https://www.economist.com/the-world-this-week/2023/07/13/business

A bright future for humankind! 😁

The Economist

Business | Jul 15th 2023 Edition

The world this week

😁6👍3🥴3❤2

5.12K viewsedited 07:16

gonzo-обзоры ML статей

Interesting on sentience .

"We connected a bumblebee colony to an arena equipped with mobile balls on one side, immobile balls on the other, and an unobstructed path through the middle that led to a feeding station containing freely available sugar solution and pollen. Bees went out of their way to return again and again to a “play area” where they rolled the mobile balls in all directions and often for extended periods without a sugar reward, even though plenty of food was provided nearby. There seemed to be something inherently enjoyable in the activity itself. In line with what other researchers have observed in vertebrate creatures at play, young bees engaged more often with the balls than older ones. And males played more than females (male bumblebees don't work for the colony and therefore have a lot more time on their hands). These experiments are not merely cute—they provide further evidence of positive emotionlike states in bees."

...

"my colleagues and I reviewed hundreds of studies from the literature across several orders of insects to search for evidence of a capacity to feel pain. Our analysis revealed at least reasonably strong evidence for this capacity in a number of taxa, including cockroaches and fruit flies. Crucially we also found no evidence that any species convincingly failed any criterion for painlike experiences. It appears that in many cases, scientists simply haven't looked thoroughly enough for indications that the insect species they study experience discomfort."

https://www.scientificamerican.com/article/do-insects-feel-joy-and-pain/

Scientific American

Do Insects Feel Joy and Pain?

Insects have surprisingly rich inner lives—a revelation that has wide-ranging ethical implications

👍10❤6🤔2🥰1

4.81K viewsedited 17:42

gonzo-обзоры ML статей

Nice update on the recent paper on GPT degradation.

https://twitter.com/Si_Boehm/status/1681801371656536068?t=_pora3BJrMnFBaQxdwJ-gw&s=19

😁48👍8😱6

4.89K viewsedited 10:58

gonzo-обзоры ML статей

Resurrecting Recurrent Neural Networks for Long Sequences
Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre, Razvan Pascanu, Soham De
Статья: https://arxiv.org/abs/2303.06349

Продолжаем про RNN. У нас было про LEM (https://news.1rj.ru/str/gonzo_ML/857), было про state space models и в частности про S4 (https://news.1rj.ru/str/gonzo_ML/1424), было про RWKV (https://news.1rj.ru/str/gonzo_ML/1647). Ещё из сравнительно недавних работ было исследование от DeepMind. Это своего рода возврат к классике.

С RNN долгое время была проблема, что они быстры на инференс, но медленно обучаются в смысле плохо параллелятся, и их сложно обучать на длинных последовательностях. Со свежими state space models (SSM) это в целом уже не так, они и на инференс так же хороши, и обучение их параллелится, и очень длинные последовательности могут обрабатывать. Но они хоть и эквивалентны RNN в режиме инференса, в режиме обучения у них есть важные отличия типа дискретизации непрерывной системы и очень специальной инициализации, про которые, кажется, ещё не до конца ясно, какова механика работы этой кухни.

В текущей работе авторы задаются вопросом, можно ли достичь перформанса глубоких SSM традиционными глубокими RNN (причём ванильными, а не LSTM)? И отвечают, что можно. Достигают этого серией маленьких шагов, и полученную модель называют Linear Recurrent Unit (LRU).

Основные шаги таковы:

0. Vanilla RNN. Пляшем от базовой рекуррентности:

𝑥_𝑘 = 𝜎(𝐴𝑥_{𝑘−1} + 𝐵𝑢_𝑘)
𝑦_𝑘 = 𝐶𝑥_𝑘 + 𝐷𝑢_𝑘

где
(𝑢_1, 𝑢_2, . . . , 𝑢_𝐿) -- входы размерности 𝐻_in,
(𝑦_1, 𝑦_2, . . . , 𝑦_𝐿) -- выходы размерности 𝐻_out,
𝑥_𝑘 -- скрытое состояние размерности N в момент времени k,
A,B,C,D -- матрицы с обучаемыми параметрами

1. Linear Recurrences. Если SSM слои заменить на vanilla RNN, то нелинейности типа tanh или ReLU в рекуррентности приводят к сильной просадке качества. Зато если нелинейности убрать и оставить линейные рекуррентности, то всё существенно улучшается. Рекуррентная формула превращается в

𝑥_𝑘 = 𝐴𝑥_{𝑘−1} + 𝐵𝑢_𝑘.

Это интересный результат, идущий вразрез с массовым пониманием важности нелинейностей. Возможно, это также одна из причин успеха глубоких SSM, где рекуррентность тоже линейная.

Сложные нелинейные отображения при этом можно моделировать соединением линейных RNN слоёв и нелинейных MLP (в этом смысле паттерн аналогичен последовательности слоёв MHSA+MLP в трансформере). В приложении есть отдельный большой интересный раздел вокруг этого.

“any sufficiently regular nonlinear autonomous dynamical system can be made linear under a high-dimensional nonlinear blow-up of the state-space. Sounds familiar? This is exactly what a wide MLP + Linear RNN can do“

2. Complex Diagonal Recurrent Matrices. Линейную рекуррентность уже можно развернуть в легко параллелизуемую сумму. Далее dense linear RNN слои могут быть репараметризованы в комплексную диагональную форму, где матрица A заменяется на:

𝐴 = 𝑃Λ𝑃^{−1},
𝑃 ∈ ℂ^{𝑁×𝑁},
Λ = diag(𝜆1, 𝜆2, . . . , 𝜆𝑁) ∈ ℂ^{𝑁×𝑁}

Комплексные числа нужны для диагонализации несимметричных матриц. Это не ухудшает выразительность, а диагональность позволяет ещё ускорить хорошо параллелизуемые вычисления.

Проверялись на Long Range Arena (LRA). На sCIFAR диагональная линейная RNN обучалась в 8 раз быстрее обычной с ReLU, и сравнялась по скорости с авторской имплементацией S4D (диагональный вариант S4, https://arxiv.org/abs/2203.14343) и S5 (упрощённый вариант S4, https://arxiv.org/abs/2208.04933). Интересно, что это также повышает и качество на некоторых задачах типа sCIFAR и ListOps. Но кое-где понижает стабильность.

3. Stable Exponential Parameterization. Диагональная матрица репараметризуется как:

Λ = diag(exp(−𝜈 + 𝑖𝜃)), где 𝜈 ∈ ℝ^𝑁 и 𝜃 ∈ ℝ^𝑁 обучаемые параметры взамен действительной и мнимой частей Λ.

Это разъединяет магнитуду и частоту осцилляций и делает работу оптимизатора легче, что уже повышает перформанс.

Также в такой формулировке просто заэнфорсить стабильность собственных значений через нелинейность типа экспоненциальной для каждого из значений j:

gonzo-обзоры ML статей

Long Expressive Memory for Sequence Modeling
T. Konstantin Rusch, Siddhartha Mishra, N. Benjamin Erichson, Michael W. Mahoney
Статья: https://arxiv.org/abs/2110.04744
Код: https://github.com/tk-rusch/LEM

Нельзя было пройти мимо модели под названием LEM.…

🔥17👍9❤3😱3

4K viewsedited 13:54

gonzo-обзоры ML статей

𝜆_𝑗 := exp(−exp(𝜈_𝑗^log) + 𝑖𝜃_𝑗), где при инициализации устанавливается 𝜈_𝑗^log := log(𝜈).

Эта стабильная параметризация ещё улучшает перформанс, особенно заметно на задаче Pathfinder.

А это в свою очередь позволяет поменять инициализацию значений Λ на кольце внутри единичного круга, чтобы сподвигнуть сеть к более длинным интеракциям (и улучшить long-range reasoning) и побороться с затухающими градиентами.

Здесь дело видимо не в специальной детерминистской инициализации (типа HiPPO) как таковой, а в распределении собственных значений матрицы рекуррентного слоя при инициализации.

4. Normalization. Все предыдущие изменения не позволяли достичь успеха в обучении на задаче PathX, самой сложной из отобранного бенчмарка. Оказалось важным модифицировать рекуррентную формулу так, чтобы поэлементно адаптивно масштабировать входные данные. Рекуррентность получается такая:

𝑥_𝑘 = Λ𝑥_{𝑘−1} + exp(𝛾^log) ⊙ (𝐵𝑢_𝑘),
где параметр 𝛾^log поэлементно инициализируется как
𝛾_i^log ← log(sqrt(1 − |𝜆_𝑖|^2)).

Также оказалось важным инициализировать фазу (𝜃) собственных значений в узком районе недалеко от нуля [0, 𝜋/10], это способствует выучиванию долгих закономерностей. Проверяли только на PathX.

Для всех экспериментов брали сеть с 6 слоями с residual connections + LN/BN, аналогичную сети из работы про S4 (https://news.1rj.ru/str/gonzo_ML/1424), но с заменой всех SSM слоёв на свежесобранные LRU. Все эксперименты повторяли трижды, репортя среднее + стандартное отклонение.

Интересно, что это исследование проливает некоторый свет на причины успеха глубоких SSM, по ходу дела мы некоторые моменты упоминали, и в работе есть целый раздел с обсуждением этой темы.

gonzo-обзоры ML статей

[S4] Efficiently Modeling Long Sequences with Structured State Spaces
Albert Gu, Karan Goel, Christopher Ré
Статья: https://arxiv.org/abs/2111.00396

Давно мы не писали про RNN, последний раз, кажется, это было про LEM (https://news.1rj.ru/str/gonzo_ML/857). Тогда…

❤7

3.21K viewsedited 13:54

gonzo-обзоры ML статей

2.94K views13:55

gonzo-обзоры ML статей

2.97K views13:55

gonzo-обзоры ML статей

3.05K views13:55

gonzo-обзоры ML статей

3.07K views13:55