Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
https://3dnews.ru/1081702/roscosmos-100-kosmicheskih-zapuskov-podryad

«46 стартов выполнено с космодрома Байконур, 36 — с Плесецка, по девять — с космодрома Восточный и из Гвианского космического центра», — говорится в сообщении «Роскосмоса».

82 успешных запуска пришлись на семейство ракет «Союз», 11 — на ракеты-носители Протон-М», также были осуществлены четыре пуска «Ангары» и три пуска ракет-носителей «Рокот».
1
Давно хотела посоветовать свой любимый подкаст про технологии, и вчера они как раз дали повод это сделать - выпустили эпизод про нашу любимую модель:

https://zapuskzavtra.libsyn.com/chatgpt
В выпуске рассказывается про темы, связанные не только с ChatGPT, но и с GPT-2/3. В том числе затронута тема стартапов, которые используют доступ к этим моделям через API в своих продуктах. Рассказчик-гость эпизода ранее работал в Replica в роли Head of AI и поэтому имеет свою собственную историю на эту тему, с которой я прооралась. 😂 То, как подошли к обсуждению вопроса наличия сознания у больших моделей в начале выпуска мне, правда, не очень понравилось, но, так и быть, в этот раз душнить не буду!
А вот еще несколько моих любимых выпусков:

https://zapuskzavtra.libsyn.com/-iphone
В этом выпуске рассказывается про то, как изготавливаются современные процессоры. Я слушала его, когда ехала на работу в автобусе, но к середине прослушивания автобус вокруг словно исчез, а я как бы оказалась в научно-фантатическом фильме, настолько увлекательно и красочно описаны все эти сверх-чистые лаборатории и сверх-точные технологические процессы. Кроме того, меня поразила длина и хрупкость производственных цепочек, через которые чип проходит прежде чем оказаться в компьютере или телефоне.

https://zapuskzavtra.libsyn.com/h4zvpz8xv3cv
Послушав этот выпуск, я, наконец, немножко поняла, что такое квантовые компьютеры и запутанность (в моем базовом курсе квантмеха в универе до этого не дошло). Очень заинтересовало то, что квантовые вычисления на протяжении последних десятилетий преодолели уже несколько препятствующих их развитию барьеров один за другим, что в эту тему все больше инвестируют большие корпорации, а также то, что Google уже начал вводить для каких-то вещей постквантовые алгоритмы шифрования. Думаю, это аргументы в пользу того, чтобы следить за новостями в этой области. Чем черт не шутит, может быть лет через десять-пятнадцать настанет пора переквалифицироваться в квантового MLщика. 🤔

https://zapuskzavtra.libsyn.com/ouyk5ev41yzr
История развития журнала "Хакер". Во время прослушивания не покидала ностальгия по нулевым, когда я находила этот журнал в библиотеках и читала истории из него, воображая себе как вырасту и взломаю Пентагон (вопрос "зачем" подростковвй мозг себе не задавал). А если удавалось накопить на покупку "Хакера" в ларьке вместе с диском, это была большая радость, ведь на этих дисках можно было найти множество полезных утилит, а иногда и дистрибутив какой-нибудь ОС - Линукса или FreeBSD.

https://zapuskzavtra.libsyn.com/k15wwhke3n5s
https://zapuskzavtra.libsyn.com/arse0vj75ds0
Ну и на засыпку еще два общеобразовательных выпуска - про то, как устроены Интернет и Сотовая связь. Естественно, все изложение сдобрено интересными рассказиками и прикольными историями из практики рассказчиков, работа которых как раз очень тесно связана с тематиками выпусков.

В описании к эпизодам часто можно найти ссылки на дополнительные статьи и материалы. А еще подкаст есть в Яндекс музыке и на Apple Подкастах.

#подкасты #учебные_материалы
Please open Telegram to view this post
VIEW IN TELEGRAM
2
#programming #dry #solid
Изучаю код сторонних библиотек, дабы прокачать свой уровень. Код поражает красотой и эффективностью.
😁1
#LudovicoTechnique

Every day I'm poisoned
By the lies I tell myself
Every day I'm poisoned
By the truth that I once held
Every day I'm waking
In the hope of something else
Every day I'm poisoned
By the lies I tell myself

https://www.youtube.com/watch?v=GTn5Y3igJIY&t=40s&ab_channel=LudovicoTechnique-Topic
🔥1
#codegems #python #pandas

Продолжаю изучать распространённые ML либы. Репозиторий с 1300 звёздами, 226 форками и 90 коммитами. Знаете, как проверить, что перед вами именно датафрейм Пандас? Правильно, надо получить его values, заставив его сформировать единый ndarray. Так и представляю себе это для 50Гб датасета в конвейере. Чувак, ты же написал такой сложный модуль для высокопроизводительного ML, ты чего, об isinstance(x, pd.DataFrame) не слышал? А если у тебя детальнее покопаться, что ещё всплывёт?
😁3🔥1
#programming #ml #codequality

Вообще вот моё краткое заключение по ведущим питоновским ML библам для explainability (Shape) и feature selection (BorutaPy, BorutaShap): код оставляет желать лучшего, нечитаем, неоптимален, иногда и вообще с ошибками, автор не понимает, что и зачем делает. Для принятия решений используются устаревшие статметоды (спасибо, что поправки Бонферрони есть, но могли бы и иерархический Байес завезти). А ведь это лучшее, что есть. А вы чем пользуетесь?
😢4👎1
Ладно, не буду больше откладывать и напишу про свою линию исследований про TDA в NLP.

Все началось с моей старой, совсем неказистой статьи https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ista&paperid=225 (годов 2018-2019), которую я написала в аспирантуре с небольшой помощью друга (соавтора) и научника. По всей видимости, эти два человека - единственные, кто прочитал ее целиком (рецензирование в журнале Интеллектуальные системы, мягко говоря, хромает), поэтому я не уверена ни в том, что там нет ошибок, ни в том, что это не велосипед.
Теоретическая часть статьи (сейчас будет скриммер в виде мат.терминов) заключалась в том, что я определила персистентные гомологии (условно) "на Марковских цепях" через прокси-конструкцию - неориентированный граф, вершины которого совпадают с состояниями Марковской цепи, а вес ребра между двумя состояниями соответствует сумме вероятностей перехода из первого во второе и из второго в первое. На таком графе уже можно ввести фильтрацию и через нее пробросить определение персистентности, порадовав читателей рядом лемм и теорем и бесконечными (в буквальном смысле) коммутативными диаграммами.
Практическая часть статьи заключалась в том, что я показала, как с помощью этих гомологий отличать осмысленные тексты от текстов с перемешанными словами. А именно, я обучила 50 Марковских цепей на текстах, написанных людьми и 50 - на текстах с теми же наборами слов, но перемешанными. Затем по каждой Марковской цепи посчитала размерности своих групп гомологий (самых-самых простых, которые соответствуют количеству компонент связности прокси-графа на разных порогах) и получила 100 векторов с признаками. Затем на 90 примерах обучила лог.регрессию, и она "очень хорошо" предсказала по оставшимся 10 примерам, построены ли они по текстам, написанным человеком, либо по текстам с перемешанными словами.
Это "очень хорошо" в статье было расписано словами "с точностью от 96% до 100%", которые я, спустя пять лет, уже совсем не понимаю. Как на множестве из 10 примеров в принципе могла быть достигнута точность, не кратная 10%? Может быть, это усреднение по нескольким запускам? Но откуда тогда взялись 100%? Это точность на трейне? Никто уже не ответит на эти вопросы. Как бы то ни было, мой метод побеждал Bag of Words, который по определению не мог отличить текст с перемешанными словами от связного текста, что в тот момент принесло мне достаточно удовлетворения для того, чтобы опубликоваться.
В общем, в то время у меня было слабое представление о том, как надо ставить и описывать эксперименты для статей по машинному обучению, поэтому практическая часть получилась такой невнятной. Не повторяйте моих ошибок и всегда описывайте результаты в статьях как можно более точно и внятно, чтобы потом сами не забыть, что они означают. А лучше всего найдите хорошего научного руководителя, который будет целенаправленно учить вас писать хорошие статьи.

Тем не менее, какой бы ни была спорной эта статья, она стала одним из моих первых шагов к публикациям в области машинного обучения (раз речь про ML, я не учитываю свои изыски в элементарной математике и в чистой алгебраической топологии). Так сказатб, эта статья стала той самой непонятной прыгающей фигней из начала видео про Boston Dynamics, которая выглядела как техноересь, но потом дала начало чему-то большему.

#объяснения_статей
11
https://3dnews.ru/1081823/chatgpt-bil-blizok-k-sdache-ekzamena-na-poluchenie-litsenzii-vracha-v-ssha

"При проходном балле в районе 60 % правильных ответов на все вопросы, ChatGPT набрал от 52,4 % до 75 % по всем трём экзаменам. В 88,9 % ответов алгоритм выдавал как минимум один значимый ответ, который исследователи квалифицировали как «новый и неочевидный хотя клинически обоснованный».

«Достижение проходного балла на этом печально известном сложном экспертном экзамене, причём без какого-либо человеческого подкрепления, знаменует собой заметную веху в развитии клинического ИИ», — говорится в заявлении авторов исследования для прессы.

Более того, в точности ответов ChatGPT на 50,3 % обошёл специально обученного для ответов на такие вопросы медицинский ИИ PubMedGPT. Что же будет, если специалист-человек натаскает ChatGPT на медицинскую квалификацию?"
😁3
https://aclanthology.org/2022.findings-emnlp.7.pdf

#tda #transformers #attention

Acceptability Judgements via Examining the Topology of Attention Maps

"The role of the attention mechanism in encoding linguistic knowledge has received special interest in NLP. However, the attention heads’ ability to judge the grammatical acceptability of a sentence has been underexplored. This paper approaches the paradigm of acceptability judgments with topological data analysis (TDA), showing that the topological properties of the attention graph can be efficiently exploited for two standard practices in linguistics: binary judgments and linguistic minimal pairs. Topological features enhance the BERTbased acceptability classifier scores by up to 0.24 Matthew’s correlation coefficient score on COLA in three languages (English, Italian, and Swedish). By revealing the topological discrepancy between attention graphs of minimal pairs, we achieve the human-level performance on the BLIMP benchmark, outperforming nine statistical and Transformer LM baselines. At the same time, TDA provides the foundation for analyzing the linguistic functions of attention heads and interpreting the correspondence between the graph features and grammatical phenomena. We publicly release the code and other materials used in the experiments."
👍1
#tda #ml #ripser

Нашёл я пример, как TDA-библу Ripser применяют к supervised learning в виде feature extractor. Поверх фич Рипса идёт PCA: https://persim.scikit-tda.org/en/latest/notebooks/Persistence%20Landscapes%20and%20Machine%20Learning.html

Правда, Model accuracy: 0.59 всего составила. На train-test они смогли натвикать до 63%. Использовали SVC.

Интересно, уделает ли его UMAPS на этом примере, и какой будет верность просто с PCA..?
1
#jupyter #bollocks

Мне вот интересно, кто это придумал в Юпитер ноутбуке, что появляется два курсора, когда ты печатаешь, и текст вводится твой сразу в 2 местах? Я даже технически себе не представляю, как этого добились, но ещё более удивляет, нахера вообще это сделали и оставили. Кто-то реально этим пользуется? Зачем?! Это даже хуже, чем тупые юпитеровские автоскобки, которые каждый раз удаляешь и вручную переставляешь, уже правильно.
Старо, но....
👍2
Forwarded from Борис опять
Мемы про Google vs Bing получат новую жизнь
😁1
"Пляшущие человечки"
Иногда стоит покопаться в провайдерах, типах машинок и датацентрах. Можно снизить стоимость расчётов, к примеру, с $24/hr до $5/hr.
👀2
Тот неловкий момент, когда человек, которого ты считал визионером, оказывается самодуром (

"Запись Байдена, в котором он поддержал свою жену в том, что она будет болеть за «Филадельфию Иглз», набрал почти 29 миллионов просмотров. А Маск, c практически аналогичным твитом о поддержке этой команды, набрал «всего» чуть более 9,1 миллиона просмотров. Такого «позора» Илон выдержать не смог и в раздражении удалил свой твит.

После двух поражений подряд — «Иглз» проиграли «Канзас-Сити Чифс», а Маск — президенту Соединённых Штатов — в воскресенье вечером генеральный директор Twitter прилетел на своём частном самолёте в Калифорнию, чтобы отыскать якобы причастных к его проигрышу и наказать якобы виновных в его плохом настроении. В течение дня последствия это гнева Маска разошлись по всему миру. Пользователи Twitter открывали приложение и обнаруживали посты Маска неизменно на первых позициях в ленте. И это не было случайностью: после того, как Маск пригрозил уволить оставшихся инженеров, они изменили алгоритм так, чтобы платформа продвигала твиты Маска среди всей пользовательской базы, а не только его подписчиков.

В последние недели Маск был одержим вниманием к своим постам. На прошлой неделе он уволил одного из двух оставшихся главных инженеров компании за высказанное им мнение, что количество просмотров твитов Маска снижается отчасти из-за снижения интереса к Илону в целом."

https://3dnews.ru/1082024/ilon-mask-potreboval-sozdat-spetsialniy-algoritm-dlya-prodvigeniya-svoih-postov-v-twitter
😁3