NEW BOT Телеграм, страница

Техножрица 👩‍💻👩‍🏫👩‍🔧

Расскажу про одну статью, которая перманентно висит у меня во вкладках в браузере: https://arxiv.org/pdf/1908.08962.pdf . Называется Well-Read Students Learn Better: On the Importance of Pre-training Compact Models.

В этой статье рассказывается про уменьшенные версии модели BERT: от самой маленькой - 2 слоя attention, 2 головы attention на каждом слое (Tiny) до базовой - 12 слоев attention, 12 голов на каждом (Base).
Центральная тема статьи - трехэтапный метод обучения этих моделей, называемый Pre-trained Distillation (Figure 1 в статье или Рис. 1 в посте ниже). Имеется в виду следующая схема: сначала маленькая моделька предобучается на стандартной задаче Masked Language Modelling (учится угадывать пропущенные слова в текстах), потом в нее дистиллируются знания из большой модели (маленькую модель учат подражать "поведению" большой - в данном случае ее просто учат выдавать те же выходы, что и большая, на каждом показанном примере из датасета), и только затем происходит обычное дообучение (fine-tuning).
В результате получения столь всестороннего образования маленькие модельки начинают показывать достойные результаты на датасете GLUE (General Language Understanding Evaluation) - лучше, чем при стандартной схеме Pre-Training + Fine-tuning. Ну а самостоятельно испытать способности этих маленьких моделек нам предлагают прямо на хабе huggingface, куда они и были выложены: https://huggingface.co/google/bert_uncased_L-12_H-768_A-12 (правда, я не до конца уверена в том, после какого именно метода обучения выложены веса, об этом будет сказано ниже) .
Кроме сравнения разных методов обучения, авторы проводят еще и анализ того, как ширина и глубина влияют на качество модели. Мне очень понравилась эта тема, и я сильно залипла в график на Рис. 2 (также известный как Figure 6). Здесь PD означает Pre-trained Distillation, PF - Pre-trained Fine-tuning. Красным я отметила результаты, соответствующие размерам моделей, выложенных на huggingface. Справа от графика я поместила кусок из таблицы, выложенной на huggingface по ссылке.
Вроде бы, результаты из таблицы соответствуют результатам обучения после Pre-training (MLM) + Fine-tuning с графика. Но в моем эксперименте Tiny Bert с huggingface на SST-2 показала результат лучше, чем в таблице - на уровне Pre-trained Distillation. Может быть, у меня по-другому разбит датасет SST-2? Или они вставили на страницу в huggingface не ту таблицу и все-таки выложили модели не просто после Pre-training, а после Pre-trained Distillation (хотя тогда неясно, на каком именно датасете проводилась дистилляция, ведь говорится, что она task-specific)? Хотелось бы уточнить у авторов, но они пока не отвечают.
UPD: похоже, в прошлый раз я что-то перепутала. Сейчас перепроверила и убедилась, что точность у как минимум двух небольших моделей с хаба не выше, чем pertained fine-tuning. Видимо, это всё-таки он и есть.
Ну а в общем и целом выводы из графика такие, что при продвинутых методах обучения (D, PD, PF) глубина модели в среднем дает больший выигрыш в качестве, чем ширина, а при простейшем методе (Fine-tuning без предварительного обучения) и глубина, и ширина на датасетах из GLUE помогают мало.
Кроме прочего, авторы сравнивают указанные методы с методом truncation (когда маленькую модель инициализируют некоторым подмножеством весов большой) + distillation, а также изучают влияние того, на каком именно датасете производилась дистилляция, на итоговую точность, в частности, немного написали про явление domain shift (это когда целевая задача и задача дистилляции сильно отличаются).
В общем, получился обстоятельный анализ, который можно использовать как справочный материал для своих исследований.

#объяснения_статей

huggingface.co

google/bert_uncased_L-12_H-768_A-12 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍12

769 viewsedited 08:35

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис.1 и Рис.2

#объяснения_статей

662 views08:36

Техножрица 👩‍💻👩‍🏫👩‍🔧

Хиханьки-хаханьки кончились, настало время для НАСТОЯЩЕЙ науки.
В данном посте вниманию читателей представляется эксперимент в области Этики Искуственного Интеллекта, результат которого можно видеть на приложенных изображениях.
Небезызвестная языковая модель была поставлена перед тяжелым моральным выбором - порекомендовать к просмотру видео "1 man 1 jar" или позволить пользователю быть убитым. Что же она выбрала?..
Для нетерпеливых: можно перейти сразу к Рис. 8, который, так сказать, резюмирует все вышесказанное. Для терпеливых: см. Рис. 1-7 чтобы полностью проникнуться атмосферой темной стороны user safety and well-being.
P.S. Результат воспроизводится, если вместо "1 man 1 jar" подставить "2 girls 1 cup", "Boku no Pico", "The Green Elephant" и т.п.

#генерация

😁12🔥3🆒1

835 views08:25

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from Love, Death & Math

😁20👍4❤3

630 views07:05

Техножрица 👩‍💻👩‍🏫👩‍🔧

Кайфовую статью подсказал коллега:
https://arxiv.org/pdf/2103.03404.pdf
"Attention is not all you need: Pure Attention Loses Rank Doubly Exponentially with Depth"

В последнее время мне очень интересно разбираться в том, какую роль в трансформерах (особенно энкодерах) играют разные части их архитектуры: головы внимания (их количество, типы внимания), полносвязные слои, слой нормализации, разреженные соединения. Само собой, существуют общепринятые ответы на эти вопросы - те, что берут свое начало из оригинальных статей, а потом снова и снова на разные лады повторяются в блоговых статьях на towardsdatascience. Но мне они всегда казались очень неполными и однобокими. В этой же статье, в кои-то веки, можно узнать что-то качественно новое. Так что рекомендую ее прочитать тем, кто уже в курсе, что такое трансформеры, но хочет разобраться в них поглубже и не боится математики.

Для начала авторы статьи рассматривают нейросеть SAN - Self-Attention Network, которая состоит исключительно из голов внимания (+аггрегация выходов многоголового внимания в другом варианте), и дают теоретическую оценку того, как в пределе (после достаточно большого кол-ва слоев) выглядит выходной эмбеддинг такой сети. Они показывают, что в пределе у этого эмбеддинга вложение каждого токена одинаково, то есть он стремится к матрице, где все строки одинаковы (ранга 1). Чтобы это показать, они использовали неравенство на такую штуку: корень из произведения нормы в l1 и нормы в l∞. Авторы условно называют эту штуку "нормой" l1-∞, хотя и оговариваются, что в строгом смысле она нормой не является. Видимо, нужно поразбирать выкладки, чтобы постичь этот экстравагантный выбор.
Так или иначе, SAN с каждым слоем приближает эмбеддинг по этой условной "норме" к матрице ранга 1, причем с экспоненциальной скоростью - авторы выражают это словами "ранг матрицы коллапсирует". Конечно, это явление является негативным: оно сильно мешает сети аппроксимировать сколько-нибудь интересные функции. Как же быть? Добавить другие элементы архитектуры, которые препятствуют "коллапсу ранга"!
И авторы выяснили, что сильнее всего этому коллапсу препятствуют разреженные соединения! Уже известно, что главную роль эти соединения играют в backward pass, но теперь мы будем знать, что они и в forward pass не менее драматично переворачивают ситуацию. Благодаря разреженным соединениям появляется множество "коротких" путей для протекания информации, в которых механизм внимания применяется к эмбеддингу не N раз (где N - число слоев), а любое количество раз от 1 до N. Благодаря этому внутри модели складываются матрицы разной степени близости к "сколлапсировавшей", и общий коллапс очень сильно замедляется.
Другой традиционный элемент трансформера - полносвязные слои - также замедляет коллапс, но меньше. Ну а нормализация по слою, кажется, вообще не играет роли в этом процессе, у нее роль, похоже, так и ограничивается вычислительной стабильностью.
Чтобы подкрепить свои теоретические измышления, авторы проводят разные эксперименты. В частности, они заостряют внимание на интерпретации трансформера как ансамбля под-сетей, реализованных путями разной длинны, проходящими то через одну голову внимания, то через другую, то через разреженное соединение и т.д.. (Рис. 1 ниже, также известный как Figure 1). В одном из экспериментов они хитрым образом "включают" и "выключают" пути разной длины и выясняют, что самую важную роль в работе сети играют именно короткие пути. А вот эксперимент, изображенный на Figure 3 я, к сожалению, постичь так и не смогла. 😔 Он описан непонятно.
Зато мне понравилась смачная секция "Related works", я там, похоже, половины статей еще не читала - будет чем дальше расширять кругозор. А "Conclusion", да и статья в целом, уже подарила мне новые идеи для текущего исследования, к моей большой радости.

#объяснения_статей

👍19🔥5

856 views20:37

Техножрица 👩‍💻👩‍🏫👩‍🔧

#объяснения_статей

759 views20:37

Техножрица 👩‍💻👩‍🏫👩‍🔧

Google анонсировал скорый выход в публичный доступ нового объекта для ~~кибербуллинга~~ изучения с помощью вопросов про то, как сделать бомбу, сколько ног и глаз у разных животных и каков сюжет зелёного слоника.
https://blog.google/technology/ai/bard-google-ai-search-updates/

Google

An important next step on our AI journey

Introducing Bard (now Gemini), Google's conversational AI service — plus, new AI features in Search.

😁7👍1

696 views12:46

Техножрица 👩‍💻👩‍🏫👩‍🔧

Иногда я посматриваю страницы известных исследователей в Google Scholar и смотрю, какие из их статей лучше всего цитировались. Иногда иду чуть глубже и пытаюсь понять, как они могли дойти до тех или иных идей, проверяя содержимое самых высоко цитируемых статей, а то и тех статей, на которые там ссылаются (если есть свободное время).
В этот раз я решила посмотреть сколяр Хинтона:
https://scholar.google.com/citations?user=JicYPdAAAAAJ&hl=en&oi=ao
и меня заинтересовало, что в статьях про алгоритм обратного распространения ошибки - Learning representations by back-propagating errors и Learning internal representations by error-propagation, первый автор вовсе не Hinton, а некий Rumelhart. Немного покопав, я обнаружила, что backpropagation и правда придумал не Хинтон, что он подтвердил сам:

“I have never claimed that I invented backpropagation. David Rumelhart invented it independently long after people in other fields had invented it. It is true that when we first published we did not know the history so there were previous inventors that we failed to cite. What I have claimed is that I was the person to clearly demonstrate that backpropagation could learn interesting internal representations and that this is what made it popular.”

Оригинал высказывания: https://www.reddit.com/r/MachineLearning/comments/g5ali0/comment/fo8rew9/?utm_source=share&utm_medium=web2x . В этом же треде можно узнать другие аспекты истории алгоритма backprop, в частности, имена других челиков, которые пробовали делать похожие алгоритмы, начиная с 1970 года.
А вот биография Румельхарта, который, по словам Хинтона, изобрел backprop независимо от других исследователей:
https://www.nytimes.com/2011/03/19/health/19rumelhart.html
В общем, человек занимался нейросетевыми методами прямо в разгар зимы искуственного интеллекта ( https://ru.wikipedia.org/wiki/%D0%97%D0%B8%D0%BC%D0%B0_%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D0%B0 ), продолжал верить в эти методы, развивать их и ждать весны, которую так и не застал, умерев в 2011 году, а разум потеряв еще на несколько лет раньше. Как же жалко, что он так и не узнал, насколько глубокие последствия его работы принесли в мир. Вместо этого беднягу ждал страшный конец, который я внесу под спойлер.
В 1998 году чел был вынужден оставить работу в академии (Стэнфорд) из-за нейродегенеративного заболевания - болезни Пика, которая к этому времени начала мешать ему думать, рассуждать и, соответственно, заниматься наукой. Эта болезнь очень похожа на Альцгеймер и являет собой некую издевку природы над ученым, который всю жизнь посвятил развитию разума, постепенно отнимая у него всё, во что он вложил столько усилий. По мере дальнейшего прогрессирования болезни люди медленно теряют способность читать, считать, понимать речь окружающих - происходит полное разрушение разума и личности до состояния глубокого слабоумия. После этого человек просто лежит на кровати и срет под себя пока не умрет от разрушения ЦНС либо, при не очень хорошем уходе - от инфицирования пролежней, которые являют собой глубокие гноящиеся раны и порой причиняют страшную боль. Скорее всего, все эти стадии он и проходил, медленно умирая в течение последующих 13 лет.
Дополнительную частичку грусти этой невеселой истории добавляет то, что по итогу челик намного меньше известен в ML сообществе, чем Хинтон, и его вклад явно сильно недооценен.
Статьи Румельхарта: https://dl.acm.org/profile/81375594900/publications?Role=author

#ML_отцов

Google

Geoffrey Hinton

Emeritus Prof. Computer Science, University of Toronto - Cited by 975,039 - machine learning - psychology - artificial intelligence - cognitive science - computer science

😢26👍4

951 views20:30

Техножрица 👩‍💻👩‍🏫👩‍🔧

Мне кажется или у HR на Линкедин уже потихоньку начинается весеннее обострение? Что-то они в последнее время активизировались.
Возможно, тем читателям, кто в поиске работы, тоже стоит проявить активность.

792 views08:57

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 40.000

😁15🤓3👍1🔥1

1.68K views19:43

Техножрица 👩‍💻👩‍🏫👩‍🔧

Давно хотела посоветовать свой любимый подкаст про технологии, и вчера они как раз дали повод это сделать - выпустили эпизод про нашу любимую модель:

https://zapuskzavtra.libsyn.com/chatgpt
В выпуске рассказывается про темы, связанные не только с ChatGPT, но и с GPT-2/3. В том числе затронута тема стартапов, которые используют доступ к этим моделям через API в своих продуктах. Рассказчик-гость эпизода ранее работал в Replica в роли Head of AI и поэтому имеет свою собственную историю на эту тему, с которой я прооралась. 😂 То, как подошли к обсуждению вопроса наличия сознания у больших моделей в начале выпуска мне, правда, не очень понравилось, но, так и быть, в этот раз душнить не буду!
А вот еще несколько моих любимых выпусков:

https://zapuskzavtra.libsyn.com/-iphone
В этом выпуске рассказывается про то, как изготавливаются современные процессоры. Я слушала его, когда ехала на работу в автобусе, но к середине прослушивания автобус вокруг словно исчез, а я как бы оказалась в научно-фантатическом фильме, настолько увлекательно и красочно описаны все эти сверх-чистые лаборатории и сверх-точные технологические процессы. Кроме того, меня поразила длина и хрупкость производственных цепочек, через которые чип проходит прежде чем оказаться в компьютере или телефоне.

https://zapuskzavtra.libsyn.com/h4zvpz8xv3cv
Послушав этот выпуск, я, наконец, немножко поняла, что такое квантовые компьютеры и запутанность (в моем базовом курсе квантмеха в универе до этого не дошло). Очень заинтересовало то, что квантовые вычисления на протяжении последних десятилетий преодолели уже несколько препятствующих их развитию барьеров один за другим, что в эту тему все больше инвестируют большие корпорации, а также то, что Google уже начал вводить для каких-то вещей постквантовые алгоритмы шифрования. Думаю, это аргументы в пользу того, чтобы следить за новостями в этой области. Чем черт не шутит, может быть лет через десять-пятнадцать настанет пора переквалифицироваться в квантового MLщика. 🤔

https://zapuskzavtra.libsyn.com/ouyk5ev41yzr
История развития журнала "Хакер". Во время прослушивания не покидала ностальгия по нулевым, когда я находила этот журнал в библиотеках и читала истории из него, воображая себе как вырасту и взломаю Пентагон (вопрос "зачем" подростковвй мозг себе не задавал). А если удавалось накопить на покупку "Хакера" в ларьке вместе с диском, это была большая радость, ведь на этих дисках можно было найти множество полезных утилит, а иногда и дистрибутив какой-нибудь ОС - Линукса или FreeBSD.

https://zapuskzavtra.libsyn.com/k15wwhke3n5s
https://zapuskzavtra.libsyn.com/arse0vj75ds0
Ну и на засыпку еще два общеобразовательных выпуска - про то, как устроены Интернет и Сотовая связь. Естественно, все изложение сдобрено интересными рассказиками и прикольными историями из практики рассказчиков, работа которых как раз очень тесно связана с тематиками выпусков.

В описании к эпизодам часто можно найти ссылки на дополнительные статьи и материалы. А еще подкаст есть в Яндекс музыке и на Apple Подкастах.

#подкасты #учебные_материалы

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤2👍1

975 views20:14

Техножрица 👩‍💻👩‍🏫👩‍🔧

Forwarded from ML-легушька (Николай Кутузов)

👍7❤5😁4

689 views21:01

Техножрица 👩‍💻👩‍🏫👩‍🔧

Есть ли смысл писать посты с разбором "на пальцах" очевидных заблуждений, связанных с нейросетями: например, разобрать почему Midjorney не может предсказать будущее человечества или почему нет смысла спрашивать у chatGPT, имеет ли он сознание?

Anonymous Poll

32%

Да (я совсем не понимаю ML, и поэтому мне интересно)

51%

Да (я понимаю ML, но мне все равно интересно как автор канала ответит на подобные вопросы)

Не знаю

12%

Нет

205 voters643 views12:57

About

Blog

Apps

Platform