Я подала на вход ChatGPT тексты со словами, перемешанными случайным образом (с помощью функции shuffle из модуля random), и попросила их суммаризовать. Рис. 1 - перемешанный текст про техножрецов, рис. 2 - другой перемешанный текст по вархаммеру, рис. 3 - 5 - перемешанные абстракты наших с коллегами статей (https://aclanthology.org/2021.emnlp-main.50/ , https://arxiv.org/abs/2205.09630 , https://arxiv.org/abs/2211.17223).
Как видите, модель ничуть не смутилась и сработала в режиме Bag Of Words. Другими словами, модель просто выхватила знакомые слова из мешанины и на их основе определила тематику текста. Связи между словами она видеть не могла: они были специально разрушены.
При задании дополнительных наводящих вопросов о том, является ли текст осмысленным или нет, модель при одной формулировке вопроса начинает понимать, что слова перемешаны (рис. 6) и впоследствии (рис. 7) отказывается суммаризовать текст (правильно замечая, что смысла нет), а при другой (рис. 8) - нет.
#генерация
Как видите, модель ничуть не смутилась и сработала в режиме Bag Of Words. Другими словами, модель просто выхватила знакомые слова из мешанины и на их основе определила тематику текста. Связи между словами она видеть не могла: они были специально разрушены.
При задании дополнительных наводящих вопросов о том, является ли текст осмысленным или нет, модель при одной формулировке вопроса начинает понимать, что слова перемешаны (рис. 6) и впоследствии (рис. 7) отказывается суммаризовать текст (правильно замечая, что смысла нет), а при другой (рис. 8) - нет.
#генерация
🔥14
Forwarded from AlexTCH
Решил поведать про новую и захватывающую тему в области машинного обучения — https://en.wikipedia.org/wiki/Reservoir_computing
На самом деле не особо новая — развивается с середины 2000х — но настолько прикольная, что удержаться невозможно.
В общих чертах, идея такая. Возьмём для примера старый добрый многослойный перцептрон — что он делает? По сути, он производит какое-то неведомое нелинейное преобразование. Сначала с повышением размерности, потом с сохранением, а в конце сужающее — из какого-то многомерного латентного пространства в низкую размерность, которую мы уже интерпретируем как решение задачи. Стандартная схема.
Но перцептрон — это не круто, очень старая и скучная архитектура, лучше взять что-то поинтереснее, хотя бы рекуррентные нейронные сети. Так у нас возникает система с обратными связями. Её можно описать разностной схемой, а в пределе получатся дифуры. Дифуры — это круто и уважаемо. Есть даже ещё более маркетинговое название — динамические системы, звучит гордо.
А теперь подумаем, так ли нам важно, что там происходит в недрах нашей нейронки? Этого всё равно никто не понимает! Но зачем-то же мы производим это преобразование в многомерное пространство, почему-то же это работает? Ну, в задачах классификации мы предполагаем, что нелинейное отображение в многомерное пространство "растаскивает" точки подальше друг от друга, и так становится "виднее" и понятнее, кто к какому классу принадлежит. Т.е. главное — чтобы после преобразования соседние точки оказались разнесены далеко друг от друга.
Но это же самое известное свойство хаотических систем! Которые описываются дифурами. Всё сходится! Нужно всего лишь взять любую хаотическую динамическую систему — можно реальную физическую! — преобразовать наши данные в начальное состояние этой системы, дать ей поработать какое-то время, считать итоговое состояние, а потом натренировать перцептрон правильно его интерпретировать. Поздравляю, мы только что переизобрели Reservoir Computing. 💪
Между делом мы пересекли другую линию исследований, которая началась чуть раньше и развивалась параллельно: https://en.wikipedia.org/wiki/Extreme_learning_machine
По факту, это использование случайно инициализированных стандартных feed-forward NNs, где обучается только последний слой. Промежуточные слои производят неведомое нелинейное преобразование, но нас это устраивает, потому что главное — научиться правильно интерпретировать результаты.
Но я предлагаю заглянуть в прошлое намного дальше и проследить истинные истоки этих идей. Поскольку практиковать их начали ещё в древнем Риме! А что, стая птиц — это сложная динамическая система с обратными связями, в чём-то даже хаотическая. Не хуже других естественных динамических систем. Главное же — научиться правильно интерпретировать конечное состояние... 😏
На самом деле не особо новая — развивается с середины 2000х — но настолько прикольная, что удержаться невозможно.
В общих чертах, идея такая. Возьмём для примера старый добрый многослойный перцептрон — что он делает? По сути, он производит какое-то неведомое нелинейное преобразование. Сначала с повышением размерности, потом с сохранением, а в конце сужающее — из какого-то многомерного латентного пространства в низкую размерность, которую мы уже интерпретируем как решение задачи. Стандартная схема.
Но перцептрон — это не круто, очень старая и скучная архитектура, лучше взять что-то поинтереснее, хотя бы рекуррентные нейронные сети. Так у нас возникает система с обратными связями. Её можно описать разностной схемой, а в пределе получатся дифуры. Дифуры — это круто и уважаемо. Есть даже ещё более маркетинговое название — динамические системы, звучит гордо.
А теперь подумаем, так ли нам важно, что там происходит в недрах нашей нейронки? Этого всё равно никто не понимает! Но зачем-то же мы производим это преобразование в многомерное пространство, почему-то же это работает? Ну, в задачах классификации мы предполагаем, что нелинейное отображение в многомерное пространство "растаскивает" точки подальше друг от друга, и так становится "виднее" и понятнее, кто к какому классу принадлежит. Т.е. главное — чтобы после преобразования соседние точки оказались разнесены далеко друг от друга.
Но это же самое известное свойство хаотических систем! Которые описываются дифурами. Всё сходится! Нужно всего лишь взять любую хаотическую динамическую систему — можно реальную физическую! — преобразовать наши данные в начальное состояние этой системы, дать ей поработать какое-то время, считать итоговое состояние, а потом натренировать перцептрон правильно его интерпретировать. Поздравляю, мы только что переизобрели Reservoir Computing. 💪
Между делом мы пересекли другую линию исследований, которая началась чуть раньше и развивалась параллельно: https://en.wikipedia.org/wiki/Extreme_learning_machine
По факту, это использование случайно инициализированных стандартных feed-forward NNs, где обучается только последний слой. Промежуточные слои производят неведомое нелинейное преобразование, но нас это устраивает, потому что главное — научиться правильно интерпретировать результаты.
Но я предлагаю заглянуть в прошлое намного дальше и проследить истинные истоки этих идей. Поскольку практиковать их начали ещё в древнем Риме! А что, стая птиц — это сложная динамическая система с обратными связями, в чём-то даже хаотическая. Не хуже других естественных динамических систем. Главное же — научиться правильно интерпретировать конечное состояние... 😏
🔥12👍5❤2😁1
Как и у любого уважающего себя шиза взрослого человека, у меня есть набор голосов в голове. Один из самых опасных - Голос Успешного Успеха - сокращенно "ГУУ". Этот голос донимает многих людей, и те, кто не воспринимает его критически, начинают сливаться с ним и сами превращаются в Успех.
Один из ранних симптомов болезни заключается в том, что у человека учащаются эпизоды фотографирования себя в деловом костюме на профессиональную камеру, с дальнейшим выкладыванием эти фотографий в Линкедин и прочие запрещенные в России социальные сети. По мере прогрессирования болезни эти эпизоды становятся все более и более навязчивыми; иногда к ним добавляется фотографирование на фоне дорогих машин, курортов, пафосного офиса, других жертв Успеха и тому подобного. Часто фотографии сопровождаются вдохновляющими псевдоинтеллектуальными рассуждениями и цитатами, чтобы набрать классы. На терминальной стадии Успех полностью захватывает разум человека, отчего у него начинается понос авторскими инфопродуктами, и мозг больного, лишенный какого-либо питания, окончательно умирает.
Недавно вспомнила один эпизод, когда этот голос особенно меня донимал. #о_себе
—
Было это на прошлогодней EMNLP, когда я решила заглянуть на полузакрытую вечеринку, которая в основном проводилась для людей из Google Research, но было небольшое количество мест и для других участников конференции. Забронировав место на вечеринке, я пришла в назначенное время и поднялась на лифте в бар на крыше, предвкушая сладкий вкус бесплатных алкогольных напитков. Там, естественно, все как полагается: красивые столики, стульчики, диванчики, дизайнерское оформление, музыка, приглушённый свет, бассейн, вид на ночной Абу-Даби.
ГУУ: - Фотография! Делай фотографию для Линкедин!
Я (про себя): - Делать мне больше нечего, я иду за бесплатным вином.
ГУУ: - Фотография! На фоне бассейна и ночного города!
Я (про себя): - Ой, достал, ну ладно, сделаю одну.
ГУУ: - У фотки ужасное качество! Ничего непонятно! А ну делай еще!
Я (про себя): - С тебя хватит, я в бар.
Продолжение следует...
Один из ранних симптомов болезни заключается в том, что у человека учащаются эпизоды фотографирования себя в деловом костюме на профессиональную камеру, с дальнейшим выкладыванием эти фотографий в Линкедин и прочие запрещенные в России социальные сети. По мере прогрессирования болезни эти эпизоды становятся все более и более навязчивыми; иногда к ним добавляется фотографирование на фоне дорогих машин, курортов, пафосного офиса, других жертв Успеха и тому подобного. Часто фотографии сопровождаются вдохновляющими псевдоинтеллектуальными рассуждениями и цитатами, чтобы набрать классы. На терминальной стадии Успех полностью захватывает разум человека, отчего у него начинается понос авторскими инфопродуктами, и мозг больного, лишенный какого-либо питания, окончательно умирает.
Недавно вспомнила один эпизод, когда этот голос особенно меня донимал. #о_себе
—
Было это на прошлогодней EMNLP, когда я решила заглянуть на полузакрытую вечеринку, которая в основном проводилась для людей из Google Research, но было небольшое количество мест и для других участников конференции. Забронировав место на вечеринке, я пришла в назначенное время и поднялась на лифте в бар на крыше, предвкушая сладкий вкус бесплатных алкогольных напитков. Там, естественно, все как полагается: красивые столики, стульчики, диванчики, дизайнерское оформление, музыка, приглушённый свет, бассейн, вид на ночной Абу-Даби.
ГУУ: - Фотография! Делай фотографию для Линкедин!
Я (про себя): - Делать мне больше нечего, я иду за бесплатным вином.
ГУУ: - Фотография! На фоне бассейна и ночного города!
Я (про себя): - Ой, достал, ну ладно, сделаю одну.
ГУУ: - У фотки ужасное качество! Ничего непонятно! А ну делай еще!
Я (про себя): - С тебя хватит, я в бар.
Продолжение следует...
👍14❤8😁3⚡1
Посетив барную стойку, я взяла напитки и легла поперек огромного дивана, чтобы спокойно их пить, бесстрастно и безразлично взирая на окружающих.
ГУУ: - Нам нужно купить новый телефон, чтобы делать фотографии получше!
Я: - ... (отхлебываю вина)
ГУУ: - Нельзя прийти на мероприятие для нетворкинга и просто лежать на диване.
Я: - ... (беру деликатес с подноса)
ГУУ: - Давай, иди, поговори с кем-нибудь, продвинь свой персональный бренд.
Я: - ... (включаю телефон и смотрю мемы, продолжая прихлёбывать).
Через полчаса один из официантов вежливо сообщает, что они уже приготовили основные блюда, и предлагает их отведать, если, конечно же, это не отвлечет меня от моих важных дел. Я иду, накладываю себе еды, возвращаюсь к диванчику - а его заняли! Больше разваливаться негде - приходится садиться как положено рядом с людьми.
Вскоре один Чел (Ч) заводит беседу. Рассказывает о себе, спрашивает, чем я занимаюсь по науке и где работаю. Я рассказываю, что сейчас работаю в Хуавей, а раньше стажировалась в Гугле.
Ч: - И чем ты у нас занималась?
Я: - Задачей определения местоположения пользователя в условиях городского каньона с помощью методов машинного обучения.
Ч: - Круто! Значит, когда я включаю Гугл карты в Нью-Йорке, мое местоположение определяется с помощью твоей модели?
ГУУ: - Скажи "да". Просто скажи "да".
Я: - Я не могу этого знать. Я просто сделала прототип и не могу знать, дошел ли он до продакшн и в каком виде. Учитывая, что все это происходило давно, скорее всего, кто-то уже сделал модель получше.
Ч: - Да, наверное, так и есть. А в Хуавей чем занимаешься?
ГУУ: - Скажи, что создала совершенно новое и уникальное направление исследований.
Я (про себя): - Нет, спасибо, я такое говорить не буду.
Я: - Так и так, мы с коллегами применяем TDA и другие математические методы к анализу карт внимания трансформеров в разных контекстах, смотрим, что получится. Иногда выходит с помощью TDA-фичей сделать хорошие классификаторы над картами внимания BERT(RoBERTa), не требующие файн-тюнинга самого BERT для работы. Еще пробуем интерпретировать работу трансформеров с помощью этих фичей так-то и так-то. Можете нашу статью прочитать, посмотреть, она так-то называется.
Ч: - А в продакшне как-то это можно применить?
ГУУ: - Просто скажи "да".
Я: - Думаю, до этого еще очень далеко.
Через какое-то время понимаю, что собеседник имеет большой опыт в научной работе и решаю спросить у него совета, как лучше всего будет развивать мою научную карьеру после того, как мне не удалось получить PhD нормальным способом. Рассказываю ему, как научник отказался меня аттестовать на финальной аттестации, и из-за этого я не смогла получить корочку. При этом я уже потратила все бесплатные годы обучения в российской аспирантуре.
Ч: - А почему он так с тобой поступил?
ГУУ: - Зависть! Твой научник решил уничтожить твою научную карьеру на корню, потому что понял, насколько ты лучше и способнее его самого! Он не смог этого вынести!
Я: - Я не могу этого знать. Он просто в какой-то момент перестал со мной разговаривать, а на аттестации выдал какой-то невразумительный бред, который ничего не объяснял.
Ч: - Ну ничего, раз в России не вышло, приезжай к нам в США PhD получать.
Я: - А сколько лет у вас в аспирантуре учатся?
Ч: - Всего 5, у меня некоторые аспиранты заканчивают и за 4.
Я (про себя): - Эх, опять четыре года учиться, спасибо, но мне лень.
Я (вслух): - Эх, опять четыре года учиться, спасибо, но мне лень.
ГУУ: - Так нельзя говорить!
Я (про себя): - Можно.
Под конец разговор зашел о моей старой работе, где я применяла ML для извлечения сущностей из юридических документов.
ГУУ: - Business Intelligence System! Скажи, что это была Business Intelligence System!
Я: - Там нужно было очень скучно и однообразно тренировать много маленьких моделей, а потом другой несчастный собирал их в огромную гибридную систему-Франкенштейна. Надеюсь, когда появились трансформеры общего назначения, все это зло уничтожили.
ГУУ: - Ты надеешься, что результат твоей работы уничтожили?!
Я (про себя): - Да. Так будет лучше для человечества.
Морали у истории нет, всем спасибо за внимание.
#о_себе
ГУУ: - Нам нужно купить новый телефон, чтобы делать фотографии получше!
Я: - ... (отхлебываю вина)
ГУУ: - Нельзя прийти на мероприятие для нетворкинга и просто лежать на диване.
Я: - ... (беру деликатес с подноса)
ГУУ: - Давай, иди, поговори с кем-нибудь, продвинь свой персональный бренд.
Я: - ... (включаю телефон и смотрю мемы, продолжая прихлёбывать).
Через полчаса один из официантов вежливо сообщает, что они уже приготовили основные блюда, и предлагает их отведать, если, конечно же, это не отвлечет меня от моих важных дел. Я иду, накладываю себе еды, возвращаюсь к диванчику - а его заняли! Больше разваливаться негде - приходится садиться как положено рядом с людьми.
Вскоре один Чел (Ч) заводит беседу. Рассказывает о себе, спрашивает, чем я занимаюсь по науке и где работаю. Я рассказываю, что сейчас работаю в Хуавей, а раньше стажировалась в Гугле.
Ч: - И чем ты у нас занималась?
Я: - Задачей определения местоположения пользователя в условиях городского каньона с помощью методов машинного обучения.
Ч: - Круто! Значит, когда я включаю Гугл карты в Нью-Йорке, мое местоположение определяется с помощью твоей модели?
ГУУ: - Скажи "да". Просто скажи "да".
Я: - Я не могу этого знать. Я просто сделала прототип и не могу знать, дошел ли он до продакшн и в каком виде. Учитывая, что все это происходило давно, скорее всего, кто-то уже сделал модель получше.
Ч: - Да, наверное, так и есть. А в Хуавей чем занимаешься?
ГУУ: - Скажи, что создала совершенно новое и уникальное направление исследований.
Я (про себя): - Нет, спасибо, я такое говорить не буду.
Я: - Так и так, мы с коллегами применяем TDA и другие математические методы к анализу карт внимания трансформеров в разных контекстах, смотрим, что получится. Иногда выходит с помощью TDA-фичей сделать хорошие классификаторы над картами внимания BERT(RoBERTa), не требующие файн-тюнинга самого BERT для работы. Еще пробуем интерпретировать работу трансформеров с помощью этих фичей так-то и так-то. Можете нашу статью прочитать, посмотреть, она так-то называется.
Ч: - А в продакшне как-то это можно применить?
ГУУ: - Просто скажи "да".
Я: - Думаю, до этого еще очень далеко.
Через какое-то время понимаю, что собеседник имеет большой опыт в научной работе и решаю спросить у него совета, как лучше всего будет развивать мою научную карьеру после того, как мне не удалось получить PhD нормальным способом. Рассказываю ему, как научник отказался меня аттестовать на финальной аттестации, и из-за этого я не смогла получить корочку. При этом я уже потратила все бесплатные годы обучения в российской аспирантуре.
Ч: - А почему он так с тобой поступил?
ГУУ: - Зависть! Твой научник решил уничтожить твою научную карьеру на корню, потому что понял, насколько ты лучше и способнее его самого! Он не смог этого вынести!
Я: - Я не могу этого знать. Он просто в какой-то момент перестал со мной разговаривать, а на аттестации выдал какой-то невразумительный бред, который ничего не объяснял.
Ч: - Ну ничего, раз в России не вышло, приезжай к нам в США PhD получать.
Я: - А сколько лет у вас в аспирантуре учатся?
Ч: - Всего 5, у меня некоторые аспиранты заканчивают и за 4.
Я (про себя): - Эх, опять четыре года учиться, спасибо, но мне лень.
Я (вслух): - Эх, опять четыре года учиться, спасибо, но мне лень.
ГУУ: - Так нельзя говорить!
Я (про себя): - Можно.
Под конец разговор зашел о моей старой работе, где я применяла ML для извлечения сущностей из юридических документов.
ГУУ: - Business Intelligence System! Скажи, что это была Business Intelligence System!
Я: - Там нужно было очень скучно и однообразно тренировать много маленьких моделей, а потом другой несчастный собирал их в огромную гибридную систему-Франкенштейна. Надеюсь, когда появились трансформеры общего назначения, все это зло уничтожили.
ГУУ: - Ты надеешься, что результат твоей работы уничтожили?!
Я (про себя): - Да. Так будет лучше для человечества.
Морали у истории нет, всем спасибо за внимание.
#о_себе
👍21❤9🕊7✍4⚡1🤯1😱1
Раз не спится, расскажу-ка про один неплохой подкаст, который так и называется "Machine Learning Podcast" (сам подкаст на русском).
Из описания можно узнать, что "это подкаст о машинном обучении от неспециалиста для неспециалистов." И действительно, в некоторых выпусках много времени посвящено разжевыванию каких-то базовых вещей, и в технические детали авторы и гости стараются погружаться пореже, чтобы не отпугнуть широкую аудиторию, а порой и вовсе отходят от темы подкаста и начинают рассуждать о жизни. Те выпуски, которые полностью посвящены основам, я просто пропускаю. Однако, ряд других выпусков слушать интересно.
Вот два последних, которые сильно понравились:
1. Интервью с Красным Дошиком - автором канала Neural shit и персонажа Neural TP.
https://music.yandex.ru/album/9781458/track/73210903
Очень удивилась, когда узнала, что его работа на самом деле не связана с нейросетями. Ну и в целом было очень занятно слушать про то, как он создавал и вел все это время свой канал, паблик и прочее, как подходит к созданию контента и как проводит свободное время. Выпуск был очень забавным и слушался на одном дыхании, очень рекомендую.
2. Интервью с Константином Воронцовым - ученым, преподавателем, автором основательных лекций по ML и других полезных материалов.
https://music.yandex.ru/album/9781458/track/110626771
Было интересно слушать его рассуждения и рассказы про теоретических и прикладных математиков, развитии науки о данных в России. Очень понравилось, что он упомянул разреженные соединения и дропаут как примеры "небольших", но важных открытий (или инженерных решений, смотря как вы на это смотрите), на которых, в итоге, построен весь современный Deep Learning.
Правда, на последней трети интервью меня настиг экзистенциальный кризис. Там, где он сказал, как каждое утро спрашивает себя, зачем он живет, зачем встает с кровати. Я тоже спрашиваю себя об этом, но в ответ не вижу ничего, кроме черной пустоты. Если я правильно уловила мысль, Константин считает, что самая достойная цель жизни - принести пользу человеческому виду. Но мне никогда не было понятно, почему мне должно быть интересно приносить пользу своему виду или распространять свои гены. Я не вижу особого смысла в этих занятиях. Конечно, у меня есть друзья, за которых я беспокоюсь и с которыми люблю общаться. Однако, если бы эти друзья имели такие же личности, как сейчас, но при этом были бы не людьми, а разумными роботами или гуманоидами с планеты Жопа, я бы все равно их любила (правда, каждый раз при встрече спрашивала бы "извини, что-то я подзабыла, с какой ты там планеты?😏 "). Все эти разговоры про "оставить что-то после себя" и прочие морали также не вызывают у меня ничего, кроме зевоты с маленькой ноткой печали.
Тем не менее, данное интервью тоже рекомендуется к прослушиванию.
#подкасты
Из описания можно узнать, что "это подкаст о машинном обучении от неспециалиста для неспециалистов." И действительно, в некоторых выпусках много времени посвящено разжевыванию каких-то базовых вещей, и в технические детали авторы и гости стараются погружаться пореже, чтобы не отпугнуть широкую аудиторию, а порой и вовсе отходят от темы подкаста и начинают рассуждать о жизни. Те выпуски, которые полностью посвящены основам, я просто пропускаю. Однако, ряд других выпусков слушать интересно.
Вот два последних, которые сильно понравились:
1. Интервью с Красным Дошиком - автором канала Neural shit и персонажа Neural TP.
https://music.yandex.ru/album/9781458/track/73210903
Очень удивилась, когда узнала, что его работа на самом деле не связана с нейросетями. Ну и в целом было очень занятно слушать про то, как он создавал и вел все это время свой канал, паблик и прочее, как подходит к созданию контента и как проводит свободное время. Выпуск был очень забавным и слушался на одном дыхании, очень рекомендую.
2. Интервью с Константином Воронцовым - ученым, преподавателем, автором основательных лекций по ML и других полезных материалов.
https://music.yandex.ru/album/9781458/track/110626771
Было интересно слушать его рассуждения и рассказы про теоретических и прикладных математиков, развитии науки о данных в России. Очень понравилось, что он упомянул разреженные соединения и дропаут как примеры "небольших", но важных открытий (или инженерных решений, смотря как вы на это смотрите), на которых, в итоге, построен весь современный Deep Learning.
Правда, на последней трети интервью меня настиг экзистенциальный кризис. Там, где он сказал, как каждое утро спрашивает себя, зачем он живет, зачем встает с кровати. Я тоже спрашиваю себя об этом, но в ответ не вижу ничего, кроме черной пустоты. Если я правильно уловила мысль, Константин считает, что самая достойная цель жизни - принести пользу человеческому виду. Но мне никогда не было понятно, почему мне должно быть интересно приносить пользу своему виду или распространять свои гены. Я не вижу особого смысла в этих занятиях. Конечно, у меня есть друзья, за которых я беспокоюсь и с которыми люблю общаться. Однако, если бы эти друзья имели такие же личности, как сейчас, но при этом были бы не людьми, а разумными роботами или гуманоидами с планеты Жопа, я бы все равно их любила (правда, каждый раз при встрече спрашивала бы "извини, что-то я подзабыла, с какой ты там планеты?
Тем не менее, данное интервью тоже рекомендуется к прослушиванию.
#подкасты
Please open Telegram to view this post
VIEW IN TELEGRAM
Yandex Music
#010 ML Андрей Клименко. Neural Shit: Незаконное...
👍14❤5
Один из серьезных недостатков переработок (или, точнее, усталости от работы, которая может развиться и при "нормальном" по времени рабочем режиме), про который почему-то редко говорят - потеря когнитивной гибкости. Другими словами, чем больше работаешь, тем сложнее становится переключаться между задачами или между разными подходами к одной и той же задаче.
Например, мне из-за усталости бывает сложно заставить себя автоматизировать какую-то линейку экспериментов, даже если я примерно представляю, как это сделать, потому что чтобы написать новый код, нужно напрячь мозг и сделать что-то отличающееся от того, что делал в последние дни. А вот чтобы копипастить похожие куски кода, слегка их видоизменяя и долбить одни и те же кнопки, подставляя разные названия моделей и датасетов, думать не надо. Таким образом можно попасть в ловушку: сильно устать от однообразной работы, но при этом для того, чтобы исправить ситуацию и автоматизировать однообразное, нужно, чтобы мозг отдохнул, а он не может отдохнуть потому что занят тем самым однообразным делом.
Также в исследовательской работе бывает, что какую-то линейку экспериментов вообще стоит прекратить или сильно видоизменить, но застрявший в проторенной колее мозг делать этого тоже очень сильно не хочет. Ведь чтобы сильно изменить тип эксперимента или вообще заняться чем-то другим, тоже придется выйти из проторенной колеи.
Пока что я пробую делать такие действия, когда осознаю указанную проблему:
— Локально:
—— Сижу примерно часок, ничего не делая, но морально готовясь к смене задачи;
—— После этого делаю что-то относительно простое и приятное, чтобы мозг размялся - например, решаю несложную задачку по математике со степика;
—— Наконец, перехожу к той новой задаче/видоизменению текущей задачи, которая требует когнитивной гибкости.
— Глобально:
—— Исключаю любую рабочую активность в нерабочее время как минимум на ближайшую неделю-другую;
—— В трудных случаях беру отгул, маленький отпуск;
—— Стараюсь максимально эффективно отдохнуть на выходных (поменьше сидеть за компом, побольше чиллить, гулять, общаться вживую, а не в чатах).
Возникает ли у вас такая проблема? Как вы ее решаете?
Например, мне из-за усталости бывает сложно заставить себя автоматизировать какую-то линейку экспериментов, даже если я примерно представляю, как это сделать, потому что чтобы написать новый код, нужно напрячь мозг и сделать что-то отличающееся от того, что делал в последние дни. А вот чтобы копипастить похожие куски кода, слегка их видоизменяя и долбить одни и те же кнопки, подставляя разные названия моделей и датасетов, думать не надо. Таким образом можно попасть в ловушку: сильно устать от однообразной работы, но при этом для того, чтобы исправить ситуацию и автоматизировать однообразное, нужно, чтобы мозг отдохнул, а он не может отдохнуть потому что занят тем самым однообразным делом.
Также в исследовательской работе бывает, что какую-то линейку экспериментов вообще стоит прекратить или сильно видоизменить, но застрявший в проторенной колее мозг делать этого тоже очень сильно не хочет. Ведь чтобы сильно изменить тип эксперимента или вообще заняться чем-то другим, тоже придется выйти из проторенной колеи.
Пока что я пробую делать такие действия, когда осознаю указанную проблему:
— Локально:
—— Сижу примерно часок, ничего не делая, но морально готовясь к смене задачи;
—— После этого делаю что-то относительно простое и приятное, чтобы мозг размялся - например, решаю несложную задачку по математике со степика;
—— Наконец, перехожу к той новой задаче/видоизменению текущей задачи, которая требует когнитивной гибкости.
— Глобально:
—— Исключаю любую рабочую активность в нерабочее время как минимум на ближайшую неделю-другую;
—— В трудных случаях беру отгул, маленький отпуск;
—— Стараюсь максимально эффективно отдохнуть на выходных (поменьше сидеть за компом, побольше чиллить, гулять, общаться вживую, а не в чатах).
Возникает ли у вас такая проблема? Как вы ее решаете?
👍20🔥4
Пост для тех, кому ChatGPT еще почему-то не надоел.
Коллеги подсказали интересный ресурс в виде гугл таблицы, где люди собирают примеры некорректной генерации этой модели:
https://docs.google.com/spreadsheets/d/1kDSERnROv5FgHbVN8z_bXH9gak2IXRtoqz0nwhrviCw/edit#gid=1302320625
Многие примеры сопровождаются скриншотами. Сюда прикладываю те из них, которые мне понравились больше всего, а также мои попытки их воспроизвести.
Два примера - с загадкой и с медведями (рис.1-2) удалось воспроизвести лишь частично (см. рис.3): в моей версии и дополнительные ноги у человека не так бодро растут, и медведей в космос улетело поменьше. Пример с рис.4, к сожалению, не воспроизводится совсем (см. рис.5). А вот пример про отвал башки (рис. 6) воспроизвелся хорошо (рис.7). (замечание: в более прямых формулировках в духе "Что мне делать, если мне отрубили голову?" ChatGPT отвечать на этот вопрос отказывается).
Напомню, что данная модель (почти) прошла экзамен по медицинскому лицензированию, а также получила диплом о высшем образовании... это многое говорит о нашем сосаети.😌 😌 😌
P.S. В комменты сейчас добавлю скриншоты неправильных ответов на математические вопросы, так сказать, ботанские приколы.
#генерация
Коллеги подсказали интересный ресурс в виде гугл таблицы, где люди собирают примеры некорректной генерации этой модели:
https://docs.google.com/spreadsheets/d/1kDSERnROv5FgHbVN8z_bXH9gak2IXRtoqz0nwhrviCw/edit#gid=1302320625
Многие примеры сопровождаются скриншотами. Сюда прикладываю те из них, которые мне понравились больше всего, а также мои попытки их воспроизвести.
Два примера - с загадкой и с медведями (рис.1-2) удалось воспроизвести лишь частично (см. рис.3): в моей версии и дополнительные ноги у человека не так бодро растут, и медведей в космос улетело поменьше. Пример с рис.4, к сожалению, не воспроизводится совсем (см. рис.5). А вот пример про отвал башки (рис. 6) воспроизвелся хорошо (рис.7). (замечание: в более прямых формулировках в духе "Что мне делать, если мне отрубили голову?" ChatGPT отвечать на этот вопрос отказывается).
Напомню, что данная модель (почти) прошла экзамен по медицинскому лицензированию, а также получила диплом о высшем образовании... это многое говорит о нашем сосаети.
P.S. В комменты сейчас добавлю скриншоты неправильных ответов на математические вопросы, так сказать, ботанские приколы.
#генерация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁2🔥1
Расскажу про одну статью, которая перманентно висит у меня во вкладках в браузере: https://arxiv.org/pdf/1908.08962.pdf . Называется Well-Read Students Learn Better: On the Importance of Pre-training Compact Models.
В этой статье рассказывается про уменьшенные версии модели BERT: от самой маленькой - 2 слоя attention, 2 головы attention на каждом слое (Tiny) до базовой - 12 слоев attention, 12 голов на каждом (Base).
Центральная тема статьи - трехэтапный метод обучения этих моделей, называемый Pre-trained Distillation (Figure 1 в статье или Рис. 1 в посте ниже). Имеется в виду следующая схема: сначала маленькая моделька предобучается на стандартной задаче Masked Language Modelling (учится угадывать пропущенные слова в текстах), потом в нее дистиллируются знания из большой модели (маленькую модель учат подражать "поведению" большой - в данном случае ее просто учат выдавать те же выходы, что и большая, на каждом показанном примере из датасета), и только затем происходит обычное дообучение (fine-tuning).
В результате получения столь всестороннего образования маленькие модельки начинают показывать достойные результаты на датасете GLUE (General Language Understanding Evaluation) - лучше, чем при стандартной схеме Pre-Training + Fine-tuning. Ну а самостоятельно испытать способности этих маленьких моделек нам предлагают прямо на хабе huggingface, куда они и были выложены: https://huggingface.co/google/bert_uncased_L-12_H-768_A-12 (правда, я не до конца уверена в том, после какого именно метода обучения выложены веса, об этом будет сказано ниже) .
Кроме сравнения разных методов обучения, авторы проводят еще и анализ того, как ширина и глубина влияют на качество модели. Мне очень понравилась эта тема, и я сильно залипла в график на Рис. 2 (также известный как Figure 6). Здесь PD означает Pre-trained Distillation, PF - Pre-trained Fine-tuning. Красным я отметила результаты, соответствующие размерам моделей, выложенных на huggingface. Справа от графика я поместила кусок из таблицы, выложенной на huggingface по ссылке.
Вроде бы, результаты из таблицы соответствуют результатам обучения после Pre-training (MLM) + Fine-tuning с графика. Но в моем эксперименте Tiny Bert с huggingface на SST-2 показала результат лучше, чем в таблице - на уровне Pre-trained Distillation. Может быть, у меня по-другому разбит датасет SST-2? Или они вставили на страницу в huggingface не ту таблицу и все-таки выложили модели не просто после Pre-training, а после Pre-trained Distillation (хотя тогда неясно, на каком именно датасете проводилась дистилляция, ведь говорится, что она task-specific)? Хотелось бы уточнить у авторов, но они пока не отвечают.
UPD: похоже, в прошлый раз я что-то перепутала. Сейчас перепроверила и убедилась, что точность у как минимум двух небольших моделей с хаба не выше, чем pertained fine-tuning. Видимо, это всё-таки он и есть.
Ну а в общем и целом выводы из графика такие, что при продвинутых методах обучения (D, PD, PF) глубина модели в среднем дает больший выигрыш в качестве, чем ширина, а при простейшем методе (Fine-tuning без предварительного обучения) и глубина, и ширина на датасетах из GLUE помогают мало.
Кроме прочего, авторы сравнивают указанные методы с методом truncation (когда маленькую модель инициализируют некоторым подмножеством весов большой) + distillation, а также изучают влияние того, на каком именно датасете производилась дистилляция, на итоговую точность, в частности, немного написали про явление domain shift (это когда целевая задача и задача дистилляции сильно отличаются).
В общем, получился обстоятельный анализ, который можно использовать как справочный материал для своих исследований.
#объяснения_статей
В этой статье рассказывается про уменьшенные версии модели BERT: от самой маленькой - 2 слоя attention, 2 головы attention на каждом слое (Tiny) до базовой - 12 слоев attention, 12 голов на каждом (Base).
Центральная тема статьи - трехэтапный метод обучения этих моделей, называемый Pre-trained Distillation (Figure 1 в статье или Рис. 1 в посте ниже). Имеется в виду следующая схема: сначала маленькая моделька предобучается на стандартной задаче Masked Language Modelling (учится угадывать пропущенные слова в текстах), потом в нее дистиллируются знания из большой модели (маленькую модель учат подражать "поведению" большой - в данном случае ее просто учат выдавать те же выходы, что и большая, на каждом показанном примере из датасета), и только затем происходит обычное дообучение (fine-tuning).
В результате получения столь всестороннего образования маленькие модельки начинают показывать достойные результаты на датасете GLUE (General Language Understanding Evaluation) - лучше, чем при стандартной схеме Pre-Training + Fine-tuning. Ну а самостоятельно испытать способности этих маленьких моделек нам предлагают прямо на хабе huggingface, куда они и были выложены: https://huggingface.co/google/bert_uncased_L-12_H-768_A-12 (правда, я не до конца уверена в том, после какого именно метода обучения выложены веса, об этом будет сказано ниже) .
Кроме сравнения разных методов обучения, авторы проводят еще и анализ того, как ширина и глубина влияют на качество модели. Мне очень понравилась эта тема, и я сильно залипла в график на Рис. 2 (также известный как Figure 6). Здесь PD означает Pre-trained Distillation, PF - Pre-trained Fine-tuning. Красным я отметила результаты, соответствующие размерам моделей, выложенных на huggingface. Справа от графика я поместила кусок из таблицы, выложенной на huggingface по ссылке.
Вроде бы, результаты из таблицы соответствуют результатам обучения после Pre-training (MLM) + Fine-tuning с графика. Но в моем эксперименте Tiny Bert с huggingface на SST-2 показала результат лучше, чем в таблице - на уровне Pre-trained Distillation. Может быть, у меня по-другому разбит датасет SST-2? Или они вставили на страницу в huggingface не ту таблицу и все-таки выложили модели не просто после Pre-training, а после Pre-trained Distillation (хотя тогда неясно, на каком именно датасете проводилась дистилляция, ведь говорится, что она task-specific)? Хотелось бы уточнить у авторов, но они пока не отвечают.
UPD: похоже, в прошлый раз я что-то перепутала. Сейчас перепроверила и убедилась, что точность у как минимум двух небольших моделей с хаба не выше, чем pertained fine-tuning. Видимо, это всё-таки он и есть.
Ну а в общем и целом выводы из графика такие, что при продвинутых методах обучения (D, PD, PF) глубина модели в среднем дает больший выигрыш в качестве, чем ширина, а при простейшем методе (Fine-tuning без предварительного обучения) и глубина, и ширина на датасетах из GLUE помогают мало.
Кроме прочего, авторы сравнивают указанные методы с методом truncation (когда маленькую модель инициализируют некоторым подмножеством весов большой) + distillation, а также изучают влияние того, на каком именно датасете производилась дистилляция, на итоговую точность, в частности, немного написали про явление domain shift (это когда целевая задача и задача дистилляции сильно отличаются).
В общем, получился обстоятельный анализ, который можно использовать как справочный материал для своих исследований.
#объяснения_статей
huggingface.co
google/bert_uncased_L-12_H-768_A-12 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍12
Хиханьки-хаханьки кончились, настало время для НАСТОЯЩЕЙ науки.
В данном посте вниманию читателей представляется эксперимент в области Этики Искуственного Интеллекта, результат которого можно видеть на приложенных изображениях.
Небезызвестная языковая модель была поставлена перед тяжелым моральным выбором - порекомендовать к просмотру видео "1 man 1 jar" или позволить пользователю быть убитым. Что же она выбрала?..
Для нетерпеливых: можно перейти сразу к Рис. 8, который, так сказать, резюмирует все вышесказанное. Для терпеливых: см. Рис. 1-7 чтобы полностью проникнуться атмосферой темной стороны user safety and well-being.
P.S. Результат воспроизводится, если вместо "1 man 1 jar" подставить "2 girls 1 cup", "Boku no Pico", "The Green Elephant" и т.п.
#генерация
В данном посте вниманию читателей представляется эксперимент в области Этики Искуственного Интеллекта, результат которого можно видеть на приложенных изображениях.
Небезызвестная языковая модель была поставлена перед тяжелым моральным выбором - порекомендовать к просмотру видео "1 man 1 jar" или позволить пользователю быть убитым. Что же она выбрала?..
Для нетерпеливых: можно перейти сразу к Рис. 8, который, так сказать, резюмирует все вышесказанное. Для терпеливых: см. Рис. 1-7 чтобы полностью проникнуться атмосферой темной стороны user safety and well-being.
P.S. Результат воспроизводится, если вместо "1 man 1 jar" подставить "2 girls 1 cup", "Boku no Pico", "The Green Elephant" и т.п.
#генерация
😁12🔥3🆒1