👍1
Ладно, пора бы поговорить и о чем-то хорошем - например, об ACL Anthology, о которой меня недавно спрашивали в комментах. Для людей, которые и так регулярно и помногу знакомятся с ведущими исследованиями в мире Компьютерной Лингвистики (Computational Linguistics, CL) сказанное будет капитаном очевидность, но для всех остальных (например, вкатывальщиков или специалистов из других областей) может быть интересно узнать, что же это такое и зачем нужно.
Для начала - что такое компьютерная лингвистика. Википедия подсказывает, что это наука, которая разрабатывает и использует математические модели для изучения естественных языков. Часто этот термин используется как синоним к более популярному - "Обработка Естественного Языка" (Natural Language Processing, NLP), хотя об NLP обычно говорят, когда хотят сделать смысловой акцент на разработке прикладных технологий, связанных с языком, а не на изучении самого языка с помощью этих технологий.
Теперь что такое ACL. ACL - это Ассоциация Компьютерной Лингвистики - крупнейшая международная организация, которая курирует самые престижные и популярные журналы и конференции по теме CL/NLP и некоторым смежным - таким, как анализ искуственных языков (например, языков программирования), анализ самих моделей машинного обучения, которые используются в NLP и другим.
Теперь мы, наконец-то готовы разобраться, что из себя представляет ACL Anthology: ACL Anthology - крупнейшее собрание научных статей по тематике CL/NLP в мире на текущий момент, созданное ACL и содержащее подавляющее большинство качественных статей по этой теме.
На рис. 1 виден фрагмент скриншота заглавной страницы ( https://aclanthology.org/ ) . Страница содержит таблицу с различными venue (то есть, журналами и материалами конференций). Я подчеркнула самые важные конференции в мире CL/NLP красным, а рядом указала их ранг престижности по метрике core 2021: ранг А* - максимально возможный, А - чуть пониже. Это конференции ACL, EMNLP, NAACL - крупнейшие и самые знаменитые ежегодные события в мире компьютерной лингвистики. Если вы видите, что статья опубликована на одной из этих конференций, это значит, что она прошла через довольно жесткий процесс рецензирования и признана как сответствующая некоторым стандартам, а также заслуживающая внимания научного сообщества. Конечно, из этого не следует, что все утверждения из статей с этих конференций надо воспринимать как истину (Ученые доказали!). Лучше воспринимать это как некий признак, коррелирующий с хорошим качеством статьи. Также я подчеркнула оранжевым два самых важных журнала в мире компьютерной лингвистики - CL и TACL. На них тоже стоит обращать внимание - там публикуется намного меньше статей, чем на конференциях, но при этом они более длинные и обстоятельные.
#академический_ликбез
Для начала - что такое компьютерная лингвистика. Википедия подсказывает, что это наука, которая разрабатывает и использует математические модели для изучения естественных языков. Часто этот термин используется как синоним к более популярному - "Обработка Естественного Языка" (Natural Language Processing, NLP), хотя об NLP обычно говорят, когда хотят сделать смысловой акцент на разработке прикладных технологий, связанных с языком, а не на изучении самого языка с помощью этих технологий.
Теперь что такое ACL. ACL - это Ассоциация Компьютерной Лингвистики - крупнейшая международная организация, которая курирует самые престижные и популярные журналы и конференции по теме CL/NLP и некоторым смежным - таким, как анализ искуственных языков (например, языков программирования), анализ самих моделей машинного обучения, которые используются в NLP и другим.
Теперь мы, наконец-то готовы разобраться, что из себя представляет ACL Anthology: ACL Anthology - крупнейшее собрание научных статей по тематике CL/NLP в мире на текущий момент, созданное ACL и содержащее подавляющее большинство качественных статей по этой теме.
На рис. 1 виден фрагмент скриншота заглавной страницы ( https://aclanthology.org/ ) . Страница содержит таблицу с различными venue (то есть, журналами и материалами конференций). Я подчеркнула самые важные конференции в мире CL/NLP красным, а рядом указала их ранг престижности по метрике core 2021: ранг А* - максимально возможный, А - чуть пониже. Это конференции ACL, EMNLP, NAACL - крупнейшие и самые знаменитые ежегодные события в мире компьютерной лингвистики. Если вы видите, что статья опубликована на одной из этих конференций, это значит, что она прошла через довольно жесткий процесс рецензирования и признана как сответствующая некоторым стандартам, а также заслуживающая внимания научного сообщества. Конечно, из этого не следует, что все утверждения из статей с этих конференций надо воспринимать как истину (Ученые доказали!). Лучше воспринимать это как некий признак, коррелирующий с хорошим качеством статьи. Также я подчеркнула оранжевым два самых важных журнала в мире компьютерной лингвистики - CL и TACL. На них тоже стоит обращать внимание - там публикуется намного меньше статей, чем на конференциях, но при этом они более длинные и обстоятельные.
#академический_ликбез
❤14👍7
Кликая на года выпуска, можно посмотреть статьи с журнала или конференции кокретно выбранного года. А кликая на название venue (журнала или конференции), можно посмотреть все выпуски этого venue. Также название venue можно вводить в поиск и также находить подборки материалов с него - это удобно, когда вы интересуетесь исследованиями по более узкому направлению с какого-то воркшопа или маленькой конференции. Конечно же, в поиске можно находить и отдельные статьи. Для каждой статьи имеется абстракт, pdf самой статьи, информация для цитирования в формате bibtex, которую легко скопировать в свою статью, а иногда даже видеозапись с докладом (люблю их смотреть).
На рис. 2 и 3 я приложила фрагменты скриншота с показателями цитируемости различных venue по компьютерной лингвистике с наукометрического сайта Google Scholar ( https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics ). Показатели цитируемости, очевидно, показывают обобщенный индекс того, насколько часто статьи с данного venue цитируются в других источниках. На этих фрагментах можно видеть, что ACL, EMNLP и NAACL лидируют по цитируемости, что как бы отражает интерес сообщества к ним. Также на рис. 2 я отметила конференцию COLING - это старейшая конференция по компьютерной лингвистике, имеющая публикации, начиная аж с 65 года (!), на которую также стоит обращать внимание. Ее материалы также представлены на ACL Anthology, просто не попали на скриншот.
Но если какое-то venue меньше цитируется, обязательно ли это значит, что оно плохое? Вовсе нет. На рис. 3 я, например, отметила свой любимый воркшоп BlackBox NLP (воркшоп - это мини-конференция по какой-то узкой теме, приуроченная к какой-нибудь более крупной конференции и обычно проходящая совместно с ней). BlackBox NLP хоть и не престижный, и не индексируется Scopus и WoS, но отражает мое любимое направление исследований в CL/NLP - исследование внутренних представлений моделей и поиск объяснения того, как они работают. Мне кажется, это очень важное и интересное направление. Материалы воркшопа: https://aclanthology.org/venues/blackboxnlp/ .
Также хотелось бы, пользуясь случаем, упомянуть и другой, еще менее известный, но интересный воркшоп - Insights from Negative Results in NLP ( https://aclanthology.org/venues/insights/ ). Он посвящен негативным результатам - то есть таким, когда какое-то направление исследования или какой-то метод не дал желаемого результата - например, не помог решить какую-то задачу с желаемым качеством и т.д. Ведь очень важно в науке анализировать не только успехи, но и ошибки, чтобы потом не тратить время на подходы, которые не работают, и вместе углублять наше понимание языка и того, как строить хорошие модели машинного обучения для работы с ним.
#академический_ликбез
На рис. 2 и 3 я приложила фрагменты скриншота с показателями цитируемости различных venue по компьютерной лингвистике с наукометрического сайта Google Scholar ( https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics ). Показатели цитируемости, очевидно, показывают обобщенный индекс того, насколько часто статьи с данного venue цитируются в других источниках. На этих фрагментах можно видеть, что ACL, EMNLP и NAACL лидируют по цитируемости, что как бы отражает интерес сообщества к ним. Также на рис. 2 я отметила конференцию COLING - это старейшая конференция по компьютерной лингвистике, имеющая публикации, начиная аж с 65 года (!), на которую также стоит обращать внимание. Ее материалы также представлены на ACL Anthology, просто не попали на скриншот.
Но если какое-то venue меньше цитируется, обязательно ли это значит, что оно плохое? Вовсе нет. На рис. 3 я, например, отметила свой любимый воркшоп BlackBox NLP (воркшоп - это мини-конференция по какой-то узкой теме, приуроченная к какой-нибудь более крупной конференции и обычно проходящая совместно с ней). BlackBox NLP хоть и не престижный, и не индексируется Scopus и WoS, но отражает мое любимое направление исследований в CL/NLP - исследование внутренних представлений моделей и поиск объяснения того, как они работают. Мне кажется, это очень важное и интересное направление. Материалы воркшопа: https://aclanthology.org/venues/blackboxnlp/ .
Также хотелось бы, пользуясь случаем, упомянуть и другой, еще менее известный, но интересный воркшоп - Insights from Negative Results in NLP ( https://aclanthology.org/venues/insights/ ). Он посвящен негативным результатам - то есть таким, когда какое-то направление исследования или какой-то метод не дал желаемого результата - например, не помог решить какую-то задачу с желаемым качеством и т.д. Ведь очень важно в науке анализировать не только успехи, но и ошибки, чтобы потом не тратить время на подходы, которые не работают, и вместе углублять наше понимание языка и того, как строить хорошие модели машинного обучения для работы с ним.
#академический_ликбез
👍13❤6🔥3
Вспомнила, что давно хотела скинуть сюда ссылку на старый сайт https://www.tylervigen.com/spurious-correlations , где собраны примеры смешных корреляций между не связанными между собой временными рядами, которые до сих пор гуляют по всему интернету. Один из примеров прикреплен на рисунке.
Кстати, репостеры этих примеров часто забывают добавить важную деталь - на сайте есть ещё и страница со ссылками на источники, из которых взяты данные:
https://www.tylervigen.com/sources
Правда, не всегда данные в этих источниках представлены в доступном виде. Было бы неплохо, если бы можно было скачать их в виде CSV, а не скрапить самостоятельно с этих сайтов.
Также интересно, что с этими временными рядами стало после 2010 года, но этой информации на сайте нет.
#учебные_материалы
Кстати, репостеры этих примеров часто забывают добавить важную деталь - на сайте есть ещё и страница со ссылками на источники, из которых взяты данные:
https://www.tylervigen.com/sources
Правда, не всегда данные в этих источниках представлены в доступном виде. Было бы неплохо, если бы можно было скачать их в виде CSV, а не скрапить самостоятельно с этих сайтов.
Также интересно, что с этими временными рядами стало после 2010 года, но этой информации на сайте нет.
#учебные_материалы
🔥28❤4👍1🥰1
ЗОЛОТЫЕ МОЗГИ И АЛЮМИНИЕВЫЕ ШАПОЧКИ: ЛЖЕНАУЧНЫЕ ДОКЛАДЫ В ПРЕЗИДИУМЕ РАНВ здании Президиума РАН 26-30 июня 2023 года прошел "Всемирный конгресс "Теория систем, алгебраическая биология, искусственный интеллект: математические основы и приложение" с С.В.Петуховым в качестве ключевого докладчика и организатора. Скрины в посте с записи конгресса, таймкоды: 3:20:00-3:50:00, 6:00:56.
Видимо в мире академиков стало совсем грустно без альтернативных теорий, если нормой стало рассказывать в президиуме РАН про Инь-Ян и показывать ссылки на Википедию как авторитетный источник.
На конгрессе были в том числе представлены следующие доклады:
— Фрактальный геном - фрактальный рак - наука для клинических последствий реального мира: анализ генома для спасения древнеиндийского мастерства в математике и информатике
(знаете ту самую великую древнеиндийскую информатику?)
— Нумерация двадцати протеиногенных аминокислот
— Матричная генетика и алгебраическая биология (привет С.В.Петухову!)
— Проверка гипотезы о резонансах ДНК при помощи вычислительной геномики. Подходы к моделированию водной оболочки ДНК.
— Структурирование водных растворов под влиянием олигомеров ДНК и влияние электромагнитных полей на живые структуры
А завершался день "Конгресса" трансляцией концерта генетической музыки из Московской государственной консерватории им П.И.Чайковского.
Докладов с такой жестью в названии мы в КРИНЖе не встречали даже в самых псевдонаучных журналах. Господин Петухов выступал между академиками и удосужился рассказать аж 7 докладов, а господин Степанян подготовил 4 доклада.
РАН, все в порядке?
Благодарим Labrats и академика А.Р.Хохлова за предоставленный материал.
🔥15💊11🤯5😁4🤔3👍2🤬2🤩1
❤43😁23🔥6🥴2👍1🥰1
Учебный материал 3.pdf
1.2 MB
Заключительный учебный материал в серии "ПУТЬ К ПОЗНАНИЮ МИСТЕРИЙ ОБУЧЕНИЯ МАШИН БЕЗ ТРАТЫ ДЕНЕЖНЫХ РЕСУРСОВ" a.k.a. "Изучаем Machine Learning за ноль рублей".
Эта презенташка посвящена некоторым прикладным инструментам, которые могут пригодиться ML-щику и поиску работы в этой области (предыдущие части см. здесь: https://news.1rj.ru/str/tech_priestess/588 и здесь: https://news.1rj.ru/str/tech_priestess/700 ).
#учебные_материалы
Эта презенташка посвящена некоторым прикладным инструментам, которые могут пригодиться ML-щику и поиску работы в этой области (предыдущие части см. здесь: https://news.1rj.ru/str/tech_priestess/588 и здесь: https://news.1rj.ru/str/tech_priestess/700 ).
#учебные_материалы
🔥67❤13👍8🥰2
Некоторое время назад была популярна статья "“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors", которая, между прочим, даже была опубликована на ACL Anthology среди Findings of ACL:
https://aclanthology.org/2023.findings-acl.426/
( Для новичков я постаралась доступно объяснять, что это такое, в следующих постах: https://news.1rj.ru/str/tech_priestess/828 , https://news.1rj.ru/str/tech_priestess/829 и https://news.1rj.ru/str/tech_priestess/830 )
Краткое содержание статьи в принципе уже понятно из абстракта:
"In this paper, we propose a non-parametric alternative to DNNs that’s easy, lightweight, and universal in text classification: a combination of a simple compressor like gzip with a k-nearest-neighbor classifier. Without any training parameters, our method achieves results that are competitive with non-pretrained deep learning methods on six in-distribution datasets.It even outperforms BERT on all five OOD datasets, including four low-resource languages."
Другими словами, авторы использовали результаты сжатия с помощью компрессора gzip в качестве своеобразного эмбеддинга, а потом обучали на нем классификатор KNN. И утверждают, что такой способ классификации превосходит BERT на нескольких датасетах.
Однако, исследователь по имени Ken Schutte нашел в коде экспериментов из этой статьи целый ряд ошибок и написал про них заметки:
https://kenschutte.com/gzip-knn-paper/
и
https://kenschutte.com/gzip-knn-paper2/ .
О первой найденной ошибке вы, возможно, даже слышали: в этой статье точность классификатора KNN подсчитывалась каким-то очень странным образом, и от того сравнение с BERT и другими бейзлайнами получалось нечестным.
Автор заметки и другие интересующиеся долго дискутировали об этом с автором статьи в github issues: https://github.com/bazingagin/npc_gzip/issues/3 .
Но это оказалось не единственной проблемой.
Так, по словам автора заметки, крайней мере, один из датасетов, скачанных авторами статьи с HuggingFace ( DengueFilipino ) оказался, по сути, негодным из-за пересечения теста с трейном и путаницы в метках.
Другими словами, коварные силы Хаоса овладели не только рукой автора, который писал оценку качества KNN, но и заставили дрогнуть длань того несчастного, который разделял датасет на трейн и тест и заливал его HuggingFace 😨
Заключение Ken Schutte выдал такое:
Between the accuracy calculation and contaminated datasets, I believe that many of the key results (and thus also the conclusions) in the paper are not valid.
The paper touts kNN + gzip as computationally simpler than language-model-based methods, but beware that it is slow for the datasets with large amount of training samples.
Nevertheless, using ideas from text compression for text classification tasks is an interesting idea and may lead to other interesting research."
Если честно, у меня так и не хватило сил и времени внимательно собственноручно проверить все утверждения Ken Schutte из этих заметок. Но если он окажется прав, то статью придется отзывать или очень сильно переделывать. Посмотрим, произойдет ли это.
Берегите от порчи Хаоса свои эксперименты и эксперименты своих близких!🙏
#объяснения_статей
https://aclanthology.org/2023.findings-acl.426/
( Для новичков я постаралась доступно объяснять, что это такое, в следующих постах: https://news.1rj.ru/str/tech_priestess/828 , https://news.1rj.ru/str/tech_priestess/829 и https://news.1rj.ru/str/tech_priestess/830 )
Краткое содержание статьи в принципе уже понятно из абстракта:
"In this paper, we propose a non-parametric alternative to DNNs that’s easy, lightweight, and universal in text classification: a combination of a simple compressor like gzip with a k-nearest-neighbor classifier. Without any training parameters, our method achieves results that are competitive with non-pretrained deep learning methods on six in-distribution datasets.It even outperforms BERT on all five OOD datasets, including four low-resource languages."
Другими словами, авторы использовали результаты сжатия с помощью компрессора gzip в качестве своеобразного эмбеддинга, а потом обучали на нем классификатор KNN. И утверждают, что такой способ классификации превосходит BERT на нескольких датасетах.
Однако, исследователь по имени Ken Schutte нашел в коде экспериментов из этой статьи целый ряд ошибок и написал про них заметки:
https://kenschutte.com/gzip-knn-paper/
и
https://kenschutte.com/gzip-knn-paper2/ .
О первой найденной ошибке вы, возможно, даже слышали: в этой статье точность классификатора KNN подсчитывалась каким-то очень странным образом, и от того сравнение с BERT и другими бейзлайнами получалось нечестным.
Автор заметки и другие интересующиеся долго дискутировали об этом с автором статьи в github issues: https://github.com/bazingagin/npc_gzip/issues/3 .
Но это оказалось не единственной проблемой.
Так, по словам автора заметки, крайней мере, один из датасетов, скачанных авторами статьи с HuggingFace ( DengueFilipino ) оказался, по сути, негодным из-за пересечения теста с трейном и путаницы в метках.
Другими словами, коварные силы Хаоса овладели не только рукой автора, который писал оценку качества KNN, но и заставили дрогнуть длань того несчастного, который разделял датасет на трейн и тест и заливал его HuggingFace 😨
Заключение Ken Schutte выдал такое:
Between the accuracy calculation and contaminated datasets, I believe that many of the key results (and thus also the conclusions) in the paper are not valid.
The paper touts kNN + gzip as computationally simpler than language-model-based methods, but beware that it is slow for the datasets with large amount of training samples.
Nevertheless, using ideas from text compression for text classification tasks is an interesting idea and may lead to other interesting research."
Если честно, у меня так и не хватило сил и времени внимательно собственноручно проверить все утверждения Ken Schutte из этих заметок. Но если он окажется прав, то статью придется отзывать или очень сильно переделывать. Посмотрим, произойдет ли это.
Берегите от порчи Хаоса свои эксперименты и эксперименты своих близких!
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
ACL Anthology
“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors
Zhiying Jiang, Matthew Yang, Mikhail Tsirlin, Raphael Tang, Yiqin Dai, Jimmy Lin. Findings of the Association for Computational Linguistics: ACL 2023. 2023.
👍20❤5😁3
Илья ( https://github.com/IlyaGusev ) хорошо разложил по полочкам в комментах к предыдущему посту ( https://news.1rj.ru/str/tech_priestess/839 ), что именно авторы статьи "“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors" сделали неправильно в подсчете accuracy, за что ему большое спасибо 👍
Я рекомендую ознакомиться с теми комментами, но для тех, кому лень, вот мое краткое изложение:
Использование (инференс) алгоритма К ближайших соседей, т.е. KNN (см. напр. https://habr.com/ru/articles/149693/ ) для задач классификации происходит так. Пример, который надо классифицировать, представляется как точка в многомерном пространстве, и алгоритм предсказывает ей ту метку, которую имеет большинство из k ближайших "соседей" этой точки, для которых метка уже известна. Так, при k = 1 все просто: предсказывается та метка, которую имеет ближайший сосед. А вот начиная с k = 2 и дальше могут возникать неоднозначности: у одного соседа может быть, например, метка 0, а у другого - 1. Это называется "tie" - "ничья".
При параметре rand=True в алгоритме авторов статьи (рис. 1) в случае ничьи для установки метки выбирается 1 ближайший сосед, и точность оценивается по такому выбору. Однако, по умолчанию в экспериментах используется rand=False, и в этом случае происходит техноересь: авторы засчитывают своему алгоритму правильный ответ в случае, если хотя бы одна из меток, набравших максимальное количество "голосов" среди k соседей, является верной.
В случае, например, бинарной классификации и k=2 это означает, что если у двух ближайших соседей нашей точки разные метки, то предсказание алгоритма будет автоматически засчитано как правильное (см. рис. 2). А единственным случаем, когда ответ будет засчитываться как неправильный, будет являться тот, когда обе метки неверные.
Немудрено, что у авторов получился завышенный accuracy, и, как показал https://kenschutte.com/gzip-knn-paper/ , при нормальном подсчете accuracy классификатор на gzip уже не лучше BERTа.
#объяснения_статей
Я рекомендую ознакомиться с теми комментами, но для тех, кому лень, вот мое краткое изложение:
Использование (инференс) алгоритма К ближайших соседей, т.е. KNN (см. напр. https://habr.com/ru/articles/149693/ ) для задач классификации происходит так. Пример, который надо классифицировать, представляется как точка в многомерном пространстве, и алгоритм предсказывает ей ту метку, которую имеет большинство из k ближайших "соседей" этой точки, для которых метка уже известна. Так, при k = 1 все просто: предсказывается та метка, которую имеет ближайший сосед. А вот начиная с k = 2 и дальше могут возникать неоднозначности: у одного соседа может быть, например, метка 0, а у другого - 1. Это называется "tie" - "ничья".
При параметре rand=True в алгоритме авторов статьи (рис. 1) в случае ничьи для установки метки выбирается 1 ближайший сосед, и точность оценивается по такому выбору. Однако, по умолчанию в экспериментах используется rand=False, и в этом случае происходит техноересь: авторы засчитывают своему алгоритму правильный ответ в случае, если хотя бы одна из меток, набравших максимальное количество "голосов" среди k соседей, является верной.
В случае, например, бинарной классификации и k=2 это означает, что если у двух ближайших соседей нашей точки разные метки, то предсказание алгоритма будет автоматически засчитано как правильное (см. рис. 2). А единственным случаем, когда ответ будет засчитываться как неправильный, будет являться тот, когда обе метки неверные.
Немудрено, что у авторов получился завышенный accuracy, и, как показал https://kenschutte.com/gzip-knn-paper/ , при нормальном подсчете accuracy классификатор на gzip уже не лучше BERTа.
#объяснения_статей
👍34🥴8🔥3❤1
Тем временем атаки на статью про gzip ( https://aclanthology.org/2023.findings-acl.426/ ) продолжаются.
Теперь её атакуют не только танки, авиация, корабли... простите, не только GitHub issues и блог посты, но и тролльские препринты на архиве😏
Смотрите сами:
https://arxiv.org/abs/2307.15002
Авторы этого препринта сделали KNN на простом советском копеечном bag of words. Согласно их результатам, при подсчёте "accuracy" по некорректному алгоритму из статьи, иронически названному здесь "optimistic", KNN на bag of words работает лучше, чем KNN на gzip, на большинстве используемых датасетов.
В случае нормального accuracy, чаще всего побеждает либо BERT, либо снова bag of words (реже), а gzip в этом сетапе не побеждает ни по одному датасету ни в одном сетапе: ни few-shot, ни full train. (!)
При этом, как иронично отмечено авторами, недостаточная информативность репрезентации на bag of words компенсируется высокой вычислительной эффективность данного алгоритма. 😎
Алгоритм и ключевые результаты препринта изображены на приложенных скринах из него же.
#объяснения_статей
Теперь её атакуют не только танки, авиация, корабли... простите, не только GitHub issues и блог посты, но и тролльские препринты на архиве
Смотрите сами:
https://arxiv.org/abs/2307.15002
Авторы этого препринта сделали KNN на простом советском копеечном bag of words. Согласно их результатам, при подсчёте "accuracy" по некорректному алгоритму из статьи, иронически названному здесь "optimistic", KNN на bag of words работает лучше, чем KNN на gzip, на большинстве используемых датасетов.
В случае нормального accuracy, чаще всего побеждает либо BERT, либо снова bag of words (реже), а gzip в этом сетапе не побеждает ни по одному датасету ни в одном сетапе: ни few-shot, ни full train. (!)
При этом, как иронично отмечено авторами, недостаточная информативность репрезентации на bag of words компенсируется высокой вычислительной эффективность данного алгоритма. 😎
Алгоритм и ключевые результаты препринта изображены на приложенных скринах из него же.
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🥴12😁9🔥2❤1🤯1
Forwarded from Andranik Avakian
С вашего позволения накидаю по английскому языку полезные вещи:
1. Сайт wordsfromtext.com. Бесплатной части сайта лично мне с головой хватает. Коротко: весь кайф этого сайта в том, что можно загружать туда книгу и выделять для себя именно те слова, которые вам неизвестны, затем вы можете этот список экспортировать в Anki https://en.m.wikipedia.org/wiki/Anki_(software)
и изучать через интервальное повторение. Это очень быстрый и хороший результат даёт. Чем больше таким образом читаете книги, тем быстрее у вас заполниться активный словарный запас.
2. https://www.englishdom.com/
Очень полезен раздел "Онлайн тренажер" -->"Тренировки". Там все бесплатно. Особенно хочется отметить "Словари", там классно сделали тематическое разбиение и ассоциации с картинками и интервальным повторением, плюс есть "Видеопрактика", например перевод какой-нибудь песни из клипа или кусочка фильма. Очень хорошо прокачивает аудирование. Есть и много других полезных разделов
3. Мой любимый подкаст на английском языке https://teacherluke.co.uk/
Если хотите повысить уровень аудирования, т.е. понимания английского – просто лучший подкаст. Препод – британец. Говорит на RP-received pronunciation (нормативный британский английский, проще говоря самый "правильный"). Говор приятный, профессиональный без "э"-каний, "м"-эканий. Я его слушаю с 2016г. Очень рекомендую. Препод, помимо английского еще и комик и даже выступал когда-то на сцене. С чувством юмора у него просто ну очень всё хорошо. Подкаст очень интересный, на разные темы, очень актуальные темы раскрывает: от британских комедийных сериалов, Битлз, до политических тем, часто приглашает гостей. Помимо этого на сайте есть к каждому полкасту текст расшифровки всего того, что говориться (кстати его тоже можно экспортировать в Anki), также можно общаться на его сайте в комментариях, он довольно активен и там. Очень рекомендую.
1. Сайт wordsfromtext.com. Бесплатной части сайта лично мне с головой хватает. Коротко: весь кайф этого сайта в том, что можно загружать туда книгу и выделять для себя именно те слова, которые вам неизвестны, затем вы можете этот список экспортировать в Anki https://en.m.wikipedia.org/wiki/Anki_(software)
и изучать через интервальное повторение. Это очень быстрый и хороший результат даёт. Чем больше таким образом читаете книги, тем быстрее у вас заполниться активный словарный запас.
2. https://www.englishdom.com/
Очень полезен раздел "Онлайн тренажер" -->"Тренировки". Там все бесплатно. Особенно хочется отметить "Словари", там классно сделали тематическое разбиение и ассоциации с картинками и интервальным повторением, плюс есть "Видеопрактика", например перевод какой-нибудь песни из клипа или кусочка фильма. Очень хорошо прокачивает аудирование. Есть и много других полезных разделов
3. Мой любимый подкаст на английском языке https://teacherluke.co.uk/
Если хотите повысить уровень аудирования, т.е. понимания английского – просто лучший подкаст. Препод – британец. Говорит на RP-received pronunciation (нормативный британский английский, проще говоря самый "правильный"). Говор приятный, профессиональный без "э"-каний, "м"-эканий. Я его слушаю с 2016г. Очень рекомендую. Препод, помимо английского еще и комик и даже выступал когда-то на сцене. С чувством юмора у него просто ну очень всё хорошо. Подкаст очень интересный, на разные темы, очень актуальные темы раскрывает: от британских комедийных сериалов, Битлз, до политических тем, часто приглашает гостей. Помимо этого на сайте есть к каждому полкасту текст расшифровки всего того, что говориться (кстати его тоже можно экспортировать в Anki), также можно общаться на его сайте в комментариях, он довольно активен и там. Очень рекомендую.
🔥40👍10❤2