Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Попробовала вручную потестировать ChatGPT на логическом датасете: https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/formal_fallacies_syllogisms_negation , задав ей 30 вопросов из него.
В этом задании модели дается логический вывод, сформулированный на естественном языке, и задается вопрос, правилен ли этот логический вывод или нет.
Результаты получились неутешительными: модель дала 57% правильных ответов (17 из 30), в то время как случайное угадывание дает 50%. Если прокрутить вниз страницу по ссылке, можно увидеть, что этот результат близок к коридору, в котором находятся результаты публично доступных моделей.
При этом соотношение правильных/неправильных ответов постоянно флуктуировало: среди первых десяти вопросов соотношение правильных/неправильных ответов было 4/6, среди второго десятка - 8/2, среди третьего - 5/5.
В общем, пока не видно свидетельств в пользу того, чтобы ChatGPT действительно понимал логические рассуждения (что и неудивительно, учитывая, что его архитектура вряд ли существенно отличается от GPT-3). А это значит, что все еще рискованно использовать его для решения задач, в которых требуется произвести серьезные рассуждения на какую-то тему, а не просто показать хорошую память или налить воду.
Напоследок на всякий случай напомню, что мое "тестирование" ChatGPT ненадежно из-за того, что количество примеров, которые я могу вбить вручную, не очень большое, а значит, и оценка получается неточная. Жаль, что OpenAI все еще не торопится выкладывать результаты полноценного тестирования ChatGPT на датасетах разной направленности с сотнями и тысячами тестовых примеров. Люди могли бы более осмысленно использовать этот инструмент, если бы с помощью такого полноценного тестирования были четко и ясно обозначены границы его применимости. Правда, тогда бы и хайп про AGI мог слегка приутихнуть... 😏
P.S. На картинках примеры неправильных ответов. Рис.1 - классическая логическая ошибка, неправильный вывод считается правильным. Рис.2 - ошибка обратного характера.

#генерация
3
Вроде изучаю Питон уже 6-й год, а только сейчас узнал про casefold
Anonymous Poll
0%
Я знаю и пользуюсь
7%
Я знаю и не пользуюсь. lower() рулит!
93%
Я не знаю и не пользуюсь. lower() forever!
1
Интересно, какого фига matplotlib по уравнению rho=2*cos(phi) мне рисует кардиоиду? Фольфрам же даёт окружность. Плотли даёт вообще какую-то хрень...

Намутил issue
🤔4
#ml #explainability #shap

Что, если кэфы Шеппли вычисляются слишком долго? Давайте попробуем при их вычислении уйти от подстановки всех значений переменной в сторону полного переобучения модели БЕЗ этой переменной (Naive Shapley), подумал автор этого поста. Идея интересная, только реальным сравнением и можно выявить слабости существующих инструментов (см. пост выше про баг в матплотлибе). Но, мне кажется, картинка из бенча самого автора весьма выразительна.
1👀1
#violinplots #fun #shockyourboss

а какие у Вас любимые типы графиков? ))
1
А Вы знали, что в задачах несбалансированной классификации задание бОльшего веса для миноритарного класса уничтожает калиброванность классификатора?
Anonymous Poll
36%
Это вопрос спорный
14%
Это утверждение неверно
50%
А ведь и правда! Буду знать!
0%
Уже это знала/знал.
На чём будет правильнее считать важность признаков бизнес-процесса с SHAP (модель, как обычно, обучается на train, для early stopping (validation set) берётся часть train)? коммент "почему так" приветствуется.
Anonymous Poll
21%
на train
50%
на test
29%
на whole dataset
0%
нет разницы
#ml #shap #interpretability #robustness

Вы работаете над задачей объяснения вклада признаков в результат некоторого бизнес-процесса. Натренировали неплохую модель (видите, что на test предсказания значимо лучше случайного гадания aka DummyClassifier). Посчитали кэфы Шепли, отсортировали по модулю, и собираетесь уже презентовать в статье/руководству/заказчику. И вдруг, перезапустив обучение, видите, что с новым инстансом классификатора список фичей существенно изменил порядок: некоторые фичи в списке упали, другие взлетели.
😢1
Forwarded from New Yorko Times (Yury Kashnitsky)
Санёк с Wall Street
#career #coolstorybob #friday #жзл

Как-то в ODS я рассказывал про своего друга, теперь – расширенная версия. Ничего сверхъестественного в его истории, просто как будто сериал про Wall street, запасайтесь попкорном. Wall street тут чисто как клише, речь пойдет про жизнь в ее Лондонском аналоге – the City.

С Саней мы дружим с института – вместе учились на факультете авиации МФТИ. Учился он достаточно, чтоб не терять стипендию, но без чудес. Вместе пили пиво, ходили на концерты альтернативки, вставали на сноуборд, косили траву на военных сборах, ездили волонтерить в Европу (где тоже косили траву) и знакомились с девчонками. Когда у меня все катали матан, он так же пытался меня подстебывать типа я задрот. Сам же стал активно ботать на 5 курсе, когда собрался поступать в РЭШ. Я в него, честно-то, не особо верил, но с 3-й попытки он сдал TOEFL на 112, GMAT нам физтехам проще даётся, да и с экономикой как-то проскочил.

Начались трудовыебудни, жил он с дедом на 15 тыс. рублей в месяц, готовил котлеты, дед их поедал. На неделе было по 7-8 дедлайнов. Как-то ещё умудрился девушку найти, брал у меня в долг 10к на торт и цветы, чтоб с мамой и бабушкой познакомиться (в 2017-ом мы оба женились). В РЭШ народ был еще более лютый, чем на физтехе, Саня по рейтингу был где-то на 25-ом месте, но повезло, именно он выбил грант на обучение.

Саня услышал в РЭШке про возможность постажироваться в Barclays, и понеслось. Как банный лист к заднице, приставал ко всем, кто прошёл эту программу, опять заботал просто все что можно было, и вот он в Лондоне с окладом 5к фунтов и налогами 10% (а не 40, как обычно, ибо стажировка). В барклайсе спокойно решал задачку типа регрессии с временными рядами, никакого кипиша, как в РЭШке, не было, жил припеваючи, с боссом ладил, пиво пил. Оказывается, когда тебя подсиживают ещё человек 16-17, надо быть начеку: знакомиться с руководителями прочих подразделений, даже ходить на собесы (!) внутри того же барклайса. Решают даже такие мелочи, что как-то ехал Саня в лифте, зашёл супер-босс и как-то разговор за 40 сек. не склеился. В итоге не предложили Сане контракт, хотя вся команда его за была, и босс был им доволен, а вот супер-босс нашёл на его место кого-то еще. Саня ходил 3 дождливых дня вдоль Темзы и пил джин.

В Москву (точнее, Жуковский) он вернулся зимой, как оказалось, почти на 3 месяца. Стал атаковать топовые инвест-банки, взяв прицел на JP Morgan и Goldman Sachs. И пошли собеседования... почти каждый день. Опять Саня заботал просто все брейн-тизеры и деривативы, на собесы ходил как на работу, даже волноваться перестал, в конце вёл себя просто нагло, сразу отвечая на вопросы, даже не скрывая, что знает ответ. В итоге JP Morgan устроил ему 18 (!) собесов, а на очной встрече в Лондоне эйчар честно признался, что есть 4 равноценных кандидата, и он не знает, кого брать. Отшили из-за week communication skills и отсутствия боевого опыта C++, хотя это и так из резюме было видно. А вот Голдман принял после 14 собесов.
11
Forwarded from New Yorko Times (Yury Kashnitsky)
Когда математики в ступоре и опять про важность софт-скиллов
#math #science

Статья в моем блоге: https://yorko.github.io/2022/rus-abc-conjecture/

Эта история не нова, завязалась она в 2012-ом и, как кажется, развязалась – в 2018-ом. Кто следил за историей док-ва abc-гипотезы - поставьте 🤓 к посту, а для остальных я вкратце перескажу суть этой истории, от которой любители математики могут почувствовать настоящий фриссон – тот самый мороз по коже.

abc-гипотеза – одна из главных в теории чисел, она связывает сложение, умножение и простые числа где-то на “самом низком уровне”. В английском “conjecture” означает, что большинство верит в верность утверждения, но оно еще не доказано (в переводе на русский эта коннотация теряется, гипотеза – это всего лишь гипотеза). Я не буду тут играть в тру математика, смысл abc-гипотезы я не смогу толком оценить (после доклада декана ФКН Аржанцева по алгебраической геометрии я даже бабушке перестал говорить, что математик). Но важность abc-гипотезы можно оценить по вторичным признакам: во-первых, она еще не доказана, а значит, скорее всего с помощью существующих математических аппаратов ее либо невозможно либо очень сложно доказать (вряд ли уж за почти 40 лет человечество проглядело простое элегантное доказательство, хотя как знать). Когда наконец будет доказана, значит, математика скорее всего выработает принципиально новый аппарат и продвинется далеко вперед. Во-вторых, как говорят математики, великая теорема Ферма – просто следствие abc-гипотезы, значит, если доказать abc-гипотезу, то можно “за бесплатно” получить доказательство пресловутой великой теоремы Ферма, формулировку которой поймет любой школьник, а на доказательство которой понадобилось более 350 лет человечества и несколько лет затворничества одного конкретного человека – британца Эндрю Уайлса.

И вот в 2012 году японец Синъити Мотидзуки выкладывает 4 статьи объемом более 500 стр. в сумме и утверждает, что доказал abc-гипотезу. Первая статья под названием «Интер-универсальная теория Тейхмюллера 1: Построение театров Ходжа», начинается с утверждения, что цель работы в «разработке арифметической версии теории Тейхмюллера для цифровых полей ограниченных эллиптической кривой… с помощью применения теории полуграфов анабелиоидов, фробениоидов, эталь тета-функций и логарифмических оболочек». Звучит как что-то на марсианском. Причем не только для нас, но и для специалистов. «Смотря на неё, ты чувствуешь будто читаешь статью из будущего или далёкого космоса», – написал в своем блоге Джордан Элленберг, профессор математики в Висконсинского университета.

Сообщество математиков было в полнейшем ступоре. Игнорировать статью не получалось: Мотидзуки к своим 43 годам уже добился всего чего можно в математике, в 16 лет он поступил в университет Принстона, а в 22 года уже получил докторскую степень под руководством лауреата Филдсовской премии в области алгебраической геометрии Герда Фальтингса. Но и вникнуть в доказательство было почти невозможно: Мотидзуки цитирует в основном себя самого, в статьях, цитирующих опять же Мотидзуки, и т.д. по рекурсии – получается гора из почти 2000 статей. Лучшие умы алгебраической геометрии оценивали, что им нужно около года вникать в теории Мотидзуки, чтоб хотя бы сформировать хоть какое-то мнение о его теории. Не помогало и то что Мотидзуки не очень спешил пояснять свои “театры Ходжа” и прочие головоломные исхищрения, его не раз приглашали в топовые универы с курсами лекций, но японец довольно высокомерно отказывался, считая, что ни за неделю, ни за месяц нельзя объяснить его доказательство.

И получается патовая ситуация. Труд математиков могут оценить только математики (peer review), но в данном случае верификация слишком сложна, как будто подрываются сами основы самой, казалось бы, точнейшей и чистейшей из наук – математики. А пока лучшие умы вникают в новую статью, нам простым смердам остается только гадать, что происходит, надо ли гению распинаться и пояснять свои выкладки или мы, человечество поймем все веке эдак в 24-ом, пусть лучше гений тем временем еще дальше продвинет науку.