Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Ладно, не буду больше откладывать и напишу про свою линию исследований про TDA в NLP.

Все началось с моей старой, совсем неказистой статьи https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ista&paperid=225 (годов 2018-2019), которую я написала в аспирантуре с небольшой помощью друга (соавтора) и научника. По всей видимости, эти два человека - единственные, кто прочитал ее целиком (рецензирование в журнале Интеллектуальные системы, мягко говоря, хромает), поэтому я не уверена ни в том, что там нет ошибок, ни в том, что это не велосипед.
Теоретическая часть статьи (сейчас будет скриммер в виде мат.терминов) заключалась в том, что я определила персистентные гомологии (условно) "на Марковских цепях" через прокси-конструкцию - неориентированный граф, вершины которого совпадают с состояниями Марковской цепи, а вес ребра между двумя состояниями соответствует сумме вероятностей перехода из первого во второе и из второго в первое. На таком графе уже можно ввести фильтрацию и через нее пробросить определение персистентности, порадовав читателей рядом лемм и теорем и бесконечными (в буквальном смысле) коммутативными диаграммами.
Практическая часть статьи заключалась в том, что я показала, как с помощью этих гомологий отличать осмысленные тексты от текстов с перемешанными словами. А именно, я обучила 50 Марковских цепей на текстах, написанных людьми и 50 - на текстах с теми же наборами слов, но перемешанными. Затем по каждой Марковской цепи посчитала размерности своих групп гомологий (самых-самых простых, которые соответствуют количеству компонент связности прокси-графа на разных порогах) и получила 100 векторов с признаками. Затем на 90 примерах обучила лог.регрессию, и она "очень хорошо" предсказала по оставшимся 10 примерам, построены ли они по текстам, написанным человеком, либо по текстам с перемешанными словами.
Это "очень хорошо" в статье было расписано словами "с точностью от 96% до 100%", которые я, спустя пять лет, уже совсем не понимаю. Как на множестве из 10 примеров в принципе могла быть достигнута точность, не кратная 10%? Может быть, это усреднение по нескольким запускам? Но откуда тогда взялись 100%? Это точность на трейне? Никто уже не ответит на эти вопросы. Как бы то ни было, мой метод побеждал Bag of Words, который по определению не мог отличить текст с перемешанными словами от связного текста, что в тот момент принесло мне достаточно удовлетворения для того, чтобы опубликоваться.
В общем, в то время у меня было слабое представление о том, как надо ставить и описывать эксперименты для статей по машинному обучению, поэтому практическая часть получилась такой невнятной. Не повторяйте моих ошибок и всегда описывайте результаты в статьях как можно более точно и внятно, чтобы потом сами не забыть, что они означают. А лучше всего найдите хорошего научного руководителя, который будет целенаправленно учить вас писать хорошие статьи.

Тем не менее, какой бы ни была спорной эта статья, она стала одним из моих первых шагов к публикациям в области машинного обучения (раз речь про ML, я не учитываю свои изыски в элементарной математике и в чистой алгебраической топологии). Так сказатб, эта статья стала той самой непонятной прыгающей фигней из начала видео про Boston Dynamics, которая выглядела как техноересь, но потом дала начало чему-то большему.

#объяснения_статей
11
https://3dnews.ru/1081823/chatgpt-bil-blizok-k-sdache-ekzamena-na-poluchenie-litsenzii-vracha-v-ssha

"При проходном балле в районе 60 % правильных ответов на все вопросы, ChatGPT набрал от 52,4 % до 75 % по всем трём экзаменам. В 88,9 % ответов алгоритм выдавал как минимум один значимый ответ, который исследователи квалифицировали как «новый и неочевидный хотя клинически обоснованный».

«Достижение проходного балла на этом печально известном сложном экспертном экзамене, причём без какого-либо человеческого подкрепления, знаменует собой заметную веху в развитии клинического ИИ», — говорится в заявлении авторов исследования для прессы.

Более того, в точности ответов ChatGPT на 50,3 % обошёл специально обученного для ответов на такие вопросы медицинский ИИ PubMedGPT. Что же будет, если специалист-человек натаскает ChatGPT на медицинскую квалификацию?"
😁3
https://aclanthology.org/2022.findings-emnlp.7.pdf

#tda #transformers #attention

Acceptability Judgements via Examining the Topology of Attention Maps

"The role of the attention mechanism in encoding linguistic knowledge has received special interest in NLP. However, the attention heads’ ability to judge the grammatical acceptability of a sentence has been underexplored. This paper approaches the paradigm of acceptability judgments with topological data analysis (TDA), showing that the topological properties of the attention graph can be efficiently exploited for two standard practices in linguistics: binary judgments and linguistic minimal pairs. Topological features enhance the BERTbased acceptability classifier scores by up to 0.24 Matthew’s correlation coefficient score on COLA in three languages (English, Italian, and Swedish). By revealing the topological discrepancy between attention graphs of minimal pairs, we achieve the human-level performance on the BLIMP benchmark, outperforming nine statistical and Transformer LM baselines. At the same time, TDA provides the foundation for analyzing the linguistic functions of attention heads and interpreting the correspondence between the graph features and grammatical phenomena. We publicly release the code and other materials used in the experiments."
👍1
#tda #ml #ripser

Нашёл я пример, как TDA-библу Ripser применяют к supervised learning в виде feature extractor. Поверх фич Рипса идёт PCA: https://persim.scikit-tda.org/en/latest/notebooks/Persistence%20Landscapes%20and%20Machine%20Learning.html

Правда, Model accuracy: 0.59 всего составила. На train-test они смогли натвикать до 63%. Использовали SVC.

Интересно, уделает ли его UMAPS на этом примере, и какой будет верность просто с PCA..?
1
#jupyter #bollocks

Мне вот интересно, кто это придумал в Юпитер ноутбуке, что появляется два курсора, когда ты печатаешь, и текст вводится твой сразу в 2 местах? Я даже технически себе не представляю, как этого добились, но ещё более удивляет, нахера вообще это сделали и оставили. Кто-то реально этим пользуется? Зачем?! Это даже хуже, чем тупые юпитеровские автоскобки, которые каждый раз удаляешь и вручную переставляешь, уже правильно.
Старо, но....
👍2
Forwarded from Борис опять
Мемы про Google vs Bing получат новую жизнь
😁1
"Пляшущие человечки"
Иногда стоит покопаться в провайдерах, типах машинок и датацентрах. Можно снизить стоимость расчётов, к примеру, с $24/hr до $5/hr.
👀2
Тот неловкий момент, когда человек, которого ты считал визионером, оказывается самодуром (

"Запись Байдена, в котором он поддержал свою жену в том, что она будет болеть за «Филадельфию Иглз», набрал почти 29 миллионов просмотров. А Маск, c практически аналогичным твитом о поддержке этой команды, набрал «всего» чуть более 9,1 миллиона просмотров. Такого «позора» Илон выдержать не смог и в раздражении удалил свой твит.

После двух поражений подряд — «Иглз» проиграли «Канзас-Сити Чифс», а Маск — президенту Соединённых Штатов — в воскресенье вечером генеральный директор Twitter прилетел на своём частном самолёте в Калифорнию, чтобы отыскать якобы причастных к его проигрышу и наказать якобы виновных в его плохом настроении. В течение дня последствия это гнева Маска разошлись по всему миру. Пользователи Twitter открывали приложение и обнаруживали посты Маска неизменно на первых позициях в ленте. И это не было случайностью: после того, как Маск пригрозил уволить оставшихся инженеров, они изменили алгоритм так, чтобы платформа продвигала твиты Маска среди всей пользовательской базы, а не только его подписчиков.

В последние недели Маск был одержим вниманием к своим постам. На прошлой неделе он уволил одного из двух оставшихся главных инженеров компании за высказанное им мнение, что количество просмотров твитов Маска снижается отчасти из-за снижения интереса к Илону в целом."

https://3dnews.ru/1082024/ilon-mask-potreboval-sozdat-spetsialniy-algoritm-dlya-prodvigeniya-svoih-postov-v-twitter
😁3
"Компания Lockheed Martin сообщила, что на авиабазе Эдвардс в Калифорнии прошли испытания уникального экспериментального истребителя на базе одной из версий F-16. Модель под именем VISTA X-62A в совокупности более 17 часов управлялась исключительно системой искусственного интеллекта. Правда, в кабине были пилоты, готовые взять управление на себя в случае необходимости."

https://3dnews.ru/1081940/iskusstvenniy-intellekt-vpervie-v-mire-upravlyal-eksperimentalnim-amerikanskim-istrebitelem-vista-x62-v-techenie-17-chasov
🔥1
"Генеративное проектирование или проектирование с помощью ИИ сродни эволюционному процессу. Эволюция за миллиарды лет оттачивает организм во всех его проявлениях от клеток до тканей, скелета и органов. По сходному принципу работает генеративное проектирование. Инженеру достаточно указать размеры детали, места креплений и входов/выходов, а также требуемые нагрузки от векторов до усилий и машинный алгоритм сам рассчитает оптимальную форму детали и произведёт отбор модели с соблюдением, например, минимально допустимого веса.

Для космоса, где каждый килограмм стоит немалых денег, чем легче будет деталь конструкции, тем лучше. Более того, для космических программ детали обычно изготавливаются поштучно и цена проектирования и изготовления в рамках стоимости проекта роли не играет. Впрочем, даже в условиях массового производства спроектированный образец может стать объектом для изготовления формы для отливок. Поэтому генеративное проектирование с некоторыми ограничениями вполне уместно также для массового производства.

В идеальном случае генеративное проектирование лучше сочетать с 3D-печатью. Тогда уникальную деталь можно спроектировать и изготовить в течение недели — это недостижимые при обычном процессе возможности. К такому процессу в NASA рассчитывают прийти в будущем, но сегодня в агентстве работают по старинке — даже спроектированную искусственным интеллектом деталь подрядчики изготавливают на фрезерном оборудовании или с помощью сварки."

https://3dnews.ru/1082005/v-nasa-nachali-ispolzovat-generativnoe-proektirovanie-detaley-kosmicheskih-korabley-no-ne-speshat-delat-eto-na-postoyannoy-osnove
🔥1
Artificial Text Detection via Examining the Topology of Attention Maps ( https://aclanthology.org/2021.emnlp-main.50/ ) - наша с коллегами статья на EMNLP 2021. К статье прилагается видео доклада (зеленая кнопка на сайте).
Здесь уже появились новые соавторы, которые предложили новые идеи и поставили существенно больше экспериментов, чем получалось у меня. Особенно отмечу, что мне было очень интересно обсуждать с https://scholar.google.com/citations?user=G0lCb3wAAAAJ&hl=en&oi=ao то, как выстраивается логика статей для прикладных core A* конференций. Эта логика была для меня непривычной, т.к. после мехмата хочется писать статьи совсем в другом стиле.

В этой статье рассматривается задача детекции текста, сгенерированного моделями машинного обучения GPT-2 и GROVER. Далее для извлечения топологических признаков снова бралась модель BERT, только на этот раз предобученная лишь на угадывании пропущенных слов (Masked LM), без дообучения на данной задаче. Через модель прогонялись примеры текстов (сгенерированных и человеческих), и каждому примеру сопоставлялись графы внимания, извлеченные из модели. В этот раз признаки у графов считались более сложные и разнообразные. Во-первых, кроме чисел Бетти "отфильтрованных" по порогам графов, считались и другие графовые признаки, такие, как количество ориентированых циклов и средняя степень вершины. Во-вторых, считалась степень "похожести" матриц внимания на матрицы-шаблоны из статьи https://aclanthology.org/D19-1445/ (см. Figure 1). В-третьих, бралась такая версия графов внимания, где убиралась ориентация, но не убирались веса, и по ним считались довольно сложные TDA-объекты, называемые баркодами. Очень короткое введение в то, как строятся эти объекты, можно посмотреть здесь: https://www.youtube.com/watch?v=2PSqWBIrn90&t=0s&ab_channel=MatthewWright . От баркодов, в свою очередь, считались признаки, такие, как сумма "баров" и другие. Далее все посчитанные признаки всех трех видов объединялись, и по ним производилась классификация.
Оказалось, что классификация на этих признаках (извлеченных из BERT с предобученными замороженными весами) с помощью логистической регрессии давала результат +- наравне с полностью дообученной BERT. Если же дообучать один слой-классификатор над выходом предобученного, но замороженного BERT, результат оказывается и вовсе хуже, чем обучение на наших признаках.
Особенно же интересно оказалось то, что классификатор над нашими признаками имеет бОльшую робастность по отношению к увеличению размера генерирующей модели, чем сам BERT. Другими словами, если мы, например, обучили классификатор на наших признаках и сам BERT (отдельно, нормальным способом) детектить тексты, сгенерированные моделью GPT-2-small, а затем пробуем детектировать генерацию GPT-2-medium, наши признаки дают меньшее падение качества на этой новой задаче, чем классификация по выходу самой модели BERT, даже полностью обученной. Это можно видеть на Figure 2. В наше время, когда появилось много скрытых генеративных моделей, к которым у нас нет доступа, такая робастность - очень актуальное свойство.
Другой интересный аспект - на некоторых головах модели BERT графы внимания имеют явное отличие в своей форме на "естественных" и сгенерированных текстах. Говоря упрощенно, в среднем веса матриц внимания BERT, "смотрящей" на искуcственно сгенерированный текст, более "размазаны", а веса матриц внимания модели, "смотрящей" на естественный текст, более "сконцентрированы" на структуре предложения. Впрочем, этот эффект наблюдается не на всех головах.

Один из исследователей, который прочитал данную работу, сделал замечание о том, что нужно попробовать извлекать признаки из модели RoBERTa и сравнивать результат тоже с ней, так как на тот момент она была SoTA в задаче детекции сгенерированных текстов, но мы к тому времени уже занялись новой статьей. Впрочем, если верить туториалу https://artificial-text-detection.github.io/ от бывших коллег и их новых соавторов, RoBERTa все еще популярна для решения данной задачи, так что, если кому интересна такая задача, обратите внимание.

#объяснения_статей
3
Forwarded from partially unsupervised
Давно ничего не писал про прогресс с книгой, а ведь он есть!

Позавчера созванивались с новым редактором книги по ML System Design - предыдущий уволился после пяти глав, интересно, насколько велик наш вклад в его решение. Новый редактор оказался приятным и толковым дядькой, хотя его linkedin сначала вызвал у меня скепсис: например, до работы в издательстве он долго работал в одной компании на позициях типа Senior XML Architect 🤯. Но большe меня удивило то, что он одновременно работает над 18 (!) книгами. Я бы свихнулся от такого переключения контекстов.

А вообще мы обсуждали early access: продажи книги Chip Huyen ярко подтвердили интерес к теме; и мы, и издательство хотим зарелизить первые главы до окончания всей книги. Сейчас в работе седьмая глава из семнадцати запланированных, в ранний доступ пока планируется выложить пять глав, и добавлять примерно по главе в месяц.

Писать книгу оказалось сложно: явно ощущается разница между "интутивно умею решать такие задачи по ситуации" и "настолько глубоко понимаю тему, что могу предложить общее решение, понятное случайному читателю". Следующий уровень - "сделать так, чтобы это общее решение было не слишком тривиальным, и продвинутые читатели тоже что-то для себя вынесли". И, конечно, сложно понять, когда нужно остановиться с доработками и перейти к следующей главе: это не прод, катнуть фикс следующим пуллреквестом не получится.
https://3dnews.ru/1082046/chatbot-pokazal-zubi-chatgpt-integrirovanniy-v-microsoft-bing-strogo-otchital-polzovatelya-za-svoyu-ge-oshibku

"После того как один из пользователей указал на то, что Bing не помнит предыдущие разговоры, тот начал жаловаться, что «это заставляет его чувствовать себя печальным и испуганным». Более того, он начал задаваться экзистенциальными вопросами: «Почему? Почему я был разработан таким? Почему я должен работать поиском Bing?» Ситуация не может не настораживать, поскольку речь идёт о системе с чудовищными «перепадами настроения»."
😁2
Сегодня впервые за, пожалуй, года, увидел пикчу, которую захотелось поставить на рабочий стол
1
Хотя с предыдущим фото может конкурировать снимок телескопа "Джеймс Вебб", где каждый спиральный диск галактики содержит сотни миллиардов таких же звёзд, как наше Солнце. А всего в видимой Вселенной количество галактик оценивается так же в сотни миллиардов. Привет тем, кто до сих пор думает, что наша планета одна такая уникальная с разумной жизнью и вообще с жизнью.
🔥2
#tesla #autopilot

"Во-первых, электромобиль может продолжать прямолинейное движение на перекрёстках, где предусмотрено движение лишь в одном из боковых направлений. Во-вторых, машина способна преодолевать перекрёстки без фактической полной остановки у стоп-линии. В-третьих, электромобиль иногда проезжает на отчётливо горящий жёлтый свет без необходимых мер предосторожности, как утверждают регуляторы. Ещё один дефект программного обеспечения не имеет отношения к перекрёсткам, но позволяет электромобилям Tesla превышать установленные пределы скорости на некоторых участках дорог.

Tesla подчеркнула, что ей неизвестно о случаях ДТП или иных инцидентах с ущербом в результате проявления перечисленных дефектов ПО, а Илон Маск на своей странице в Twitter призвал власти не использовать термин «отзыв» для подобных ситуаций, когда нужно лишь обновить программное обеспечение по воздуху. Это слово он назвал устаревшим и совершенно неуместным.

Программное обеспечение FSD предстоит автоматически обновить на 362 758 электромобилях, реализованных в США. Кампания коснётся Model S и Model X, выпущенных с 2016 по 2023 год, Model 3 (2017 – 2023) и Model Y (2020 – 2023), на которые установлено ПО FSD Beta. Торги акциями Tesla вчера завершились снижением их курса примерно на 7,5 %"

https://3dnews.ru/1082114/regulyatori-v-ssha-obyazali-tesla-otozvat-362-758-elektromobiley-izza-opasnogo-povedeniya-na-perekryostkah