gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👍9🙏1
Ну и конечно нельзя не запостить это:
😱17💩4👏2👍1
Продолжим тему про это сложное слово sentience, за которым подразумевается способность чувствовать и иметь эмоции, а иногда и сознание (что бы это ни значило).

С 2016 года выходит междисциплинарный журнал под названием “Animal Sentience” (https://www.wellbeingintlstudiesrepository.org/animsent/). В номере за этот год отметился наш любимый Michael Levin со статьёй “Generalizing frameworks for sentience beyond natural species” (https://www.wellbeingintlstudiesrepository.org/animsent/vol7/iss32/15/).

Это тот самый Майкл Левин, который давно занимается биоэлектричеством, искусственной жизнью и много чем ещё вокруг биологии, у которого на NeurIPS 2018 был классный толк под названием “What Bodies Think About: Bioelectric Computation Outside the Nervous System” (https://www.youtube.com/watch?v=RjD1aLm4Thg), любопытный keynote “Robot Cancer: what the bioelectrics of embryogenesis and regeneration can teach us about unconventional computing, cognition, and the software of life” на ALife 2020 (https://www.youtube.com/watch?v=L43-XE1uwWc), и который соавтор здоровской работы про клеточные автоматы и дифференцируемый морфогенез (https://distill.pub/2020/growing-ca/).

Текущая статья — это комментарий на работу “Sentience in decapod crustaceans: A general framework and review of the evidence” (https://www.wellbeingintlstudiesrepository.org/animsent/vol7/iss32/1/) в том же выпуске журнала. Эта работа предложила фреймворк для оценки наличия sentience, фокусируясь на болевом опыте. Он включает 8 критериев с confidence levels и его применили для десятиногих ракообразных (decapod crustaceans). По результатам авторы имеют high or very high confidence в том, что определённые крабы удовлетворяют пяти критериям (то есть strong evidence of sentience), а неполнохвостые и лобстеры — трём (substantial evidence of sentience).

Не варите крабов, короче, им больно. Впрочем, какие крабы, тут людей массово убивают, и это многим норм :(

Кстати, определение из этой основной статьи:

“Sentience is the capacity to feel. Understood broadly, sentience encompasses all felt experiences, including sensory experiences (e.g. visual, auditory, tactile, olfactory) as well as (for example) feelings of warmth, comfort, fatigue, hunger, thirst, boredom, excitement, distress, anxiety, pain, pleasure and joy. This capacity to feel should be distinguished from other, related capacities: a sentient being might not be able to reflect on its feelings or to understand others’ feelings.“

Авторы стартовали с семи критериев Smith & Boyd 1991 года и проапдейтили их до своих восьми (даже не хочу переводить, оставлю в оригинале):
🔥9👍6😱1
1. Nociception. The animal possesses receptors sensitive to noxious (i.e., harmful, damaging) stimuli (nociceptors).
2. Sensory integration. The animal possesses brain regions capable of integrating information from different sensory sources.
3. Integrated nociception. The animal possesses neural pathways connecting the nociceptors to the integrative brain regions.
4. Analgesia. The animal’s behavioural response to a noxious stimulus is modulated by chemical compounds affecting the nervous system in either or both of the following ways:
a) The animal possesses an endogenous neurotransmitter system that modulates (in a way consistent with the experience of pain, distress or harm) its responses to threatened or actual noxious stimuli.
b) Putative local anaesthetics, analgesics (such as opioids), anxiolytics or antidepressants modify an animal’s responses to threatened or actual noxious stimuli in a way consistent with the hypothesis that these compounds attenuate the experience of pain, distress or harm.
5. Motivational trade-offs. The animal shows motivational trade-offs, in which the negative value of a noxious or threatening stimulus is weighed (traded-off) against the positive value of an opportunity for reward, leading to flexible decision-making. Enough flexibility must be shown to indicate centralized, integrative processing of information involving an common measure of value.
6. Flexible self-protection. The animal shows flexible self-protective behaviour (e.g., wound-tending, guarding, grooming, rubbing) of a type likely to involve representing the bodily location of a noxious stimulus.
7. Associative Learning. The animal shows associative learning in which noxious stimuli become associated with neutral stimuli, or in which novel ways of avoiding noxious stimuli are learned through reinforcement. Note: habituation and sensitisation are not sufficient to meet this criterion.
8. Analgesia preference. Animals can show that they value a putative analgesic or anaesthetic when injured in one or more of the following ways:
a) The animal learns to self-administer putative analgesics or anaesthetics when injured.
b) The animal learns to prefer, when injured, a location at which analgesics or anaesthetics can be accessed.
c) The animal prioritises obtaining these compounds over other needs (such as food) when injured.

Тут прямо жду работу, которая применит этот или похожий фреймворк к большим нейросетевым моделям. Поле непаханное, надо пахать! Океан непахтанный, надо пахтать!

Ну так вот, Левин, значит. Он собственно туда и идёт, предлагая выработать подход к существам незнакомого происхождения и состава. Тем более что оригинальный фреймворк хорош тем, что его критерии не требуют способностей второго порядка для рефлексии о своих чувствах (что особо хитрая область когнитивного континуума).

Мы сейчас находимся в очень интересной точке, которую во времена Дарвина и представить было нельзя. Пространство возможных существ становится астрономически большим: живые ткани сливаются с умными материалами, появляются различные киборги — люди с новыми сенсорами и конечностями, смарт-имплантами, усиливающими когнитивные функции. Химерные технологии и биороботы ещё более размывают границы, эволюционные алгоритмы используются для дизайна нового всего, появляются новые синтетические существа из живых клеток (работы того же Левина, https://www.uvm.edu/news/story/team-builds-first-living-robots, https://pubmed.ncbi.nlm.nih.gov/34041452/). Ну и AI ещё на взлёте. И мы вряд ли хорошо адаптированы для того, чтобы заметить интеллект и sentience в существах незнакомых обличий. Критерии похожести и гомологии не работают, они слишком заточены на наш эволюционный пусть с N=1.
👍12
Для всех этих новых сущностей вопрос sentience тоже, конечно, возникнет. Прямо сейчас мы пока не там, но кто знает, как быстро вопрос станет актуальным. Вернее он уже встаёт, вспомним недавнюю тему про LaMDA (https://news.1rj.ru/str/gonzo_ML/1017). Все по теме высказались, но набора критериев для оценки то нет. По тесту Тьюринга ориентироваться нельзя, по подобию мозгу тоже. Вообще фиг знает, что там во Вселенной есть, и вряд ли оно всё похоже на мозги млекопитающих.

В общем главный вывод — разработка фреймворков для определения sentience для агентов за пределами знакомых и понятных нам форм — это наш этический императив, и нам нужно искать такие критерии, которые будут глубокими инвариантами среди всех возможных minds and bodies.

Готового ответа сейчас нет, зато есть хороший океан для деятельности.
👍8
Не могу не поделиться ссылкой на такой классный курс!

MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity

https://ali-design.github.io/deepcreativity

Лекции на ютубе:
https://www.youtube.com/watch?v=MABLFo7IV3I&list=PLCpMvp7ftsnIbNwRnQJbDNRqO6qiN3EyH
🔥193👍2👏1
Neural Networks and the Chomsky Hierarchy
Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang, Elliot Catt, Marcus Hutter, Shane Legg, Pedro A. Ortega
Статья: https://arxiv.org/abs/2207.02098
Код (на JAX): https://github.com/deepmind/neural_networks_chomsky_hierarchy

Интересная работа от звёздного состава из DeepMind по вопросу о пределах генерализации нейросетей. Авторы заходят со стороны теории вычислений и пытаются экспериментально разнести различные нейросетевые архитектуры (классика в виде RNN, LSTM, Transformer + memory-augmented сети) по уровням иерархии Хомского. Для этого они провели большое исследование 2200 моделей по 16 задачам. Такая группировка задач по иерархии Хомского даёт возможность предсказать, способна ли определённая архитектура к обобщению на out-of-distribution данных.

Для тех, кто знал, но забыл: Иерархия Хомского.

По Хомскому, формальные грамматики и языки можно разделить на 4 типа по сложности. Каждой грамматике соответствует язык, который она генерит, тип распознающего данный язык автомата, и вид её правил (продукций).

Самый нижний (простой) тип 3 (Type-3) состоит из регулярных языков, распознаваемых конечным автоматом. Выше уровнем находятся контекстно-свободные языки, Type-2, распознаваемые автоматом со стеком или магазинной памятью (pushdown automaton). Ещё выше лежат Type-1, контекстно-зависимые языки, распознаваемые ограниченной формой машины Тьюринга под названием линейно ограниченный автомат (linear bounded automaton), у которого размер ленты — это константа от длины входа. Ну и наконец Type-0, неограниченные (они же рекурсивно перечислимые) языки, распознаваемые машиной Тьюринга.

В дополнение к иерархии Хомского авторы также рассматривают конечные языки (с конечным набором слов, которые можно распознать по look-up table), разделяют контекстно-свободные языки на детерминированные и недетерминированные, и добавляют счётные языки (counter languages), которые сложнее регулярных, но входят в контекстно-зависимые.

Кому интересно поглубже влезть в тему, есть пара хороших постов Володи Лапшина по формальным языкам (https://habr.com/en/post/177109/) и порождающим грамматикам (https://habr.com/en/post/177701/). А в качестве лирического отступления для воскресного чтения также рекомендую мой старый пост, о боже, 14-летней давности, про историю появления попадающей в Type-2 по Хомскому BNF и связь её с санскритом (https://che-shr-cat.livejournal.com/7084.html).

Итак, иерархия Хомского используется для классификации формальных грамматик по степени сложности. Каждому уровню иерархии соответствует автомат, способный решать задачи данного класса. На нижнем уровне иерархии задачи может решать конечный автомат с ограниченной памятью, на верхнем — машина Тьюринга с неограниченной памятью (бесконечной лентой). Но в отличие от автоматов, было неясно, где в иерархии Хомского располагаются различные нейросетевые архитектуры. А это на самом деле не очень простой вопрос.

Так, хотя про RNN вроде как известно, что они в теории Turing-complete (хотя были и другие работы, отправляющие RNN в более-низкие планы бытия), градиентные методы обучения ограничивают поиск по пространству параметров, внося свои inductive biases, так что модель может уже не быть универсальной и не находить лучшее решение. Собственно цель данной работы — на практике понять где в иерархии Хомского лежат различные архитектуры с их собственными и разными сопутствующими (особенно от градиентных методов) inductive biases.

Были и до этого работы, пытавшиеся понять, как сети выучивают языки различных типов. Было также показано, что не всегда архитектурная история выровнена относительно иерархии Хомского. Так, например, теоретически доказано, что трансформеры не могут распознавать определённые регулярные языки, зато могут выучивать некоторые более сложные. Но интересно оценить всё это на практике с учётом градиентных методов обучения.
🔥19👍9
В целом мы хотим понять способности сетей к генерализации на размеры входов, превышающие те, что были в обучении. Это, кстати, отличается от традиционного подхода через статистическую теорию обучения с оценкой эмпирического риска на тест сете, где подразумевается что и трейн, и тест сеты i.i.d (independent and identically distributed) — а здесь оно явно не так.

Нейросетевые архитектуры оцениваются на задаче предсказания последовательности, когда для входной последовательности нужно предсказать её продолжение. Обучают модели через кросс-энтропийный лосс. Оценивается per-sequence accuracy как процент верно предсказанных токенов. Также считается итоговый скор как усреднение per-sequence accuracy по всем длинам последовательностей, которые модель не видела в обучении. Каждую модель обучали на 10 разных инициализациях и здесь репортился максимальный скор, а не средний, потому что это лучше показывает способность архитектуры к генерализации.

Задачи были от модульной арифметики (регулярная грамматика) до бинарного сложения (контекстно-зависимая), по 3-5 разных задач на тип из иерархии Хомского. Список будет в картинке к посту, подробное описание в приложении к статье.

Архитектуры пробовались как стандартные Transformer (что интересно, только энкодер; пробовали 4 варианта позиционных энкодингов), RNN, LSTM, так и дополненные памятью Stack-RNN (работа Томаша Миколова, если кто не знал), NDStack-RNN, Tape-RNN (3 варианта, сделана на основе Baby-NTM из https://arxiv.org/abs/1911.03329, упрощённого варианта NTM).

Обучались на последовательностях длины (1, 40), проверялись на длинах (41, 500). Всего было 16 задач * 12 моделей * 10 seeds = 1920 вариантов, каждый из которых обучался на своём GPU V100.

Оказалось что тестируемые архитектуры грубо матчатся с иерархией Хомского. RNN могут решать задачи регулярного типа, Stack-RNN до детерминированных контекстно-свободных, а Tape-RNN до контекстно-зависимых. Но соответствие не строгое, иногда архитектура может решать задачи выше своего обычного уровня. Некоторые архитектуры не могут решить все задачи соответствующего уровня иерархии, вероятно из-за каких-то своих ограничений, особенностей обучения или особой сложности задачи. Из интересного также то, что трансформеры и LSTM ещё хуже ложатся на иерархию Хомского. Трансформеры фейлятся на регулярных задачах, а LSTM может решать задачи сложнее регулярных.

Для LSTM показано, что они практически идеально могут решать некоторые задачи, не решаемые обычными RNN. В целом это было известно про задачи со счётчиками, и текущая работа дополнительно подтверждает.

Трансформеры зафейлились на нескольких регулярных задачах, видимо из-за того, что позиционные энкодинги для больших длин приводят к out-of-distribution активациям и норм работают только на задачах не зависящих от позиции. Важно также отличать этот кейс от кейса работы с последовательностями постоянной длины, где трансформеры прекрасно выучивают разные сложные вещи.

Отдельно проверили внутренние репрезентации на разных задачах. На регулярных задачах было ожидание, что модель будет симулировать конечный автомат. После копания во внутреннем состоянии RNN и отображения его в двух главных компонентах, оказалось, что действительно выделяются 4 кластера с осмысленными состояниями. А Stack-RNN на таких задачах стек не использует. А на дискретных контекстно-свободных задачах стек как раз используется ожидаемым образом. Реверс-инжинирить Tape-RNN на контекстно-зависимых языках сложнее, но всё равно какая-то структура алгоритма видна.

Виден фазовый переход в обучении, если варьировать максимальную длину обучающих последовательностей. Например, Stack-RNN на задаче Reverse String не выучивается решать задачу, если обучающие последовательности до длины 10, а если 10 или больше, то сразу всё ок. Авторы предполагают, что модель переобучается и на маленьких длинах просто выучивает look-up table, но более длинные строки вынуждают модель выучивать более общее решение. Как это похоже на людей.
👍153🤔1
Из любопытных эффектов также то, что при увеличении длины тестовой последовательности качество понемножку всё же деградирует. Этого не было бы в чистом автомате, но здесь вероятно происходит накопление ошибок внутри состояний и апдейтов памяти.

Работа выступает определённым аргументом за добавление памяти в архитектуры, особенно в трансформеры, которые не могут забраться повыше в иерархии Хомского сколько обучающих данных ни добавляй.
Какая для вас комфортная частота постов в канале?
Anonymous Poll
13%
Чаще 3 раз в неделю
37%
2-3 раза в неделю
44%
1 раз в неделю
6%
Реже одного раза в неделю