Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#codegems

Смотрю и поражаюсь - как же можно такой говнокод писать?
😭1
#yellowbrick

Либа yellowbrick с красивыми и полезными визулизациями для DS. Мне понравились Cook’s Distance, Class Balance, Parallel Coordinates, Feature Dropping Curves, Missing Values Bar.

"The Yellowbrick library is a diagnostic visualization platform for machine learning that allows data scientists to steer the model selection process. Yellowbrick extends the Scikit-Learn API with a new core object: the Visualizer. Visualizers allow visual models to be fit and transformed as part of the Scikit-Learn Pipeline process, providing visual diagnostics throughout the transformation of high dimensional data."

https://www.scikit-yb.org/en/latest/tutorial.html
1
#pycaret

pycaret - ещё одна удобная либа для машинного обучения. Проанализирует датасет, разобъёт признаки на группы, проведёт препроцессинг, обработает пропуски. Всё настраивается.

В одну строчку на итоговом датасете можно обучить много моделек (включая современные градиентные бустинги) и посмотреть их сравнительные метрики, затюнить гиперпараметры (можно использовать оптуну), сделать простое (даже слишком простое) ансамблирование. Поддерживается логирование экспериментов (mlflow etc).

Я не уверен пока, поддерживается ли симметричное early stopping. Очень понравился их Fairness Report, я изобретал сам нечто похожее, а тут у них уже есть готовенькое и красивое.
Можно даже одним вызовом создать API для инференса, докер контейнер, и якобы даже развернуть в облаке (не тестил).

https://www.youtube.com/watch?v=gRGVwNggMX0
👍3
#gpt #alphaproof

"По ряду причин решение математических задач, требующих способности к продвинутым рассуждениям, пока не по силам большинству ИИ-систем. Дело в том, что такие типы задач требуют формирования и использования абстракций. Также требуется сложное иерархическое планирование, постановка подцелей, откат и поиски новых путей, что является сложным вопросом для ИИ.

Обе новые ИИ-модели обладают способностью к продвинутым математическим рассуждениям для решения сложных математических задач. AlphaProof была создана с использованием обучения с подкреплением, получив способность доказывать математические утверждения на формальном языке программирования Lean. Для её создания использовалась предварительно обученная языковая модель AlphaZero, алгоритм обучения с подкреплением, который ранее сам себя научил играть в шахматы, сёги и го. В свою очередь, AlphaGeometry 2 представляет собой усовершенствованную версию существующей ИИ-системы AlphaGeometry, представленной в январе и предназначенной для решения задач по геометрии.

В то время как AlphaProof была обучена решению задач по широкому кругу математических тем, AlphaGeometry 2 оптимизирована для решения задач, связанных с перемещениями объектов и уравнениями, включающими углы, соотношения и расстояния. Поскольку AlphaGeometry 2 была обучена на значительно большем количестве синтетических данных, чем предшественник, она может справиться с гораздо более сложными геометрическими задачами.

Чтобы проверить возможности новых ИИ-систем, исследователи Google DeepMind поручили им решить шесть задач Международной математической олимпиады (IMO) этого года и доказать правильность ответов. AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, одна из которых была самой сложной на олимпиаде, в то время как AlphaGeometry 2 решила задачу по геометрии. Две задачи по комбинаторике остались нерешёнными.

Два известных математика, Тим Гауэрс (Tim Gowers) и Джозеф Майерс (Joseph Myers), проверили представленные системами решения. Они присудили каждому из четырёх правильных ответов максимальное количество баллов (семь из семи), что дало системам в общей сложности 28 баллов из максимальных 42. Участник олимпиады, набравший столько же баллов, был бы награждён серебряной медалью и немного не дотянул бы до золота, которое присуждается набравшим 29 баллов и больше.

Впервые ИИ-система смогла достичь результатов в решении математических задач IMO на уровне медалиста. «Как математик, я нахожу это очень впечатляющим и значительным скачком по сравнению с тем, что было возможно ранее», — заявил Гауэрс во время пресс-конференции.

Создание систем ИИ, способных решать сложные математические задачи, может проложить путь для захватывающего сотрудничества человека и ИИ, считает Кэти Коллинз (Katie Collins), исследователь из Кембриджского университета. Это, в свою очередь, может помочь нам узнать больше о том, как мы, люди, справляемся с математикой. «Мы всё ещё многого не знаем о том, как люди решают сложные математические задачи», — говорит она."

https://3dnews.ru/1108526/iimodeli-google-deepmind-reshili-zadachi-matematicheskoy-olimpiadi-na-urovne-serebryanogo-medalista
#featureselection

Подобрался к более детальной проверке идеи из этого поста. Результаты поистине изумительные.

Как мы и знали раньше (из оригинального исследования автора, + моей проверки), корреляция "аппроксимированных предсказаний" и "честных предсказаний", хотя иногда и поднимается выше 90% (если количество признаков-кандидатов близко к полному количеству признаков), в среднем звёзд с неба не хватает.

Я взял датасет poker из pycaret, т.к. там достаточно наблюдений (100k), и дополнительно к к-ту корреляции посчитал RMSE честных и аппроксимированных предсказаний. Выяснился печальный факт, что RMSE просто среднего таргета по выборке (dummy) зачастую побеждает авторский способ оценки (naive).

Я расстроился, но, помня красивые графики автора, всё-таки посчитал реальные ошибки ground truth vs naive predictions, а уже от них NDCG в разрезе наборов признаков-кандидатов.

И был просто шокирован.
ndcg(naive_opt_fin_rmse)=0.99995 по 50 наборам признаков-кандидатов с числом признаков от 1 до 9 (всего в датасете их 10).

То есть, из Shap-значений нельзя вытащить прям точные аппроксимации честных прогнозов (слишком высокая RMSE). Но и не надо: даже эти аппроксимации позволяют с высокой точностью ранжировать наборы признаков-кандидатов (удивительно высокий NDCG).

Почему? Загадка. Видимо, движения "в нужном направлении" достаточно для точного ранжирования, и это важнее, чем абсолютная величина совпадения прогнозов. Здесь, похоже, действуют какие-то тонкие математические эффекты, которых я не понимаю. Но эта идея реально работает.

На датасете poker "честное переобучение" модельки занимает у меня 8 секунд, а оценка авторским методом 0,005 секунд. Ускорение в 1500+ раз при 0.99995 условной точности ранжирования.

"Условной", потому что на больших списках ndcg становится "логарифмически нечувствительным" к хорошему ранжированию. Например, случайное ранжирование в этой же задаче (с теми же релевантностями) на списке размером 50 выдаёт NDCG=0.987.

Если же отказаться от абсолютной шкалы целевой ML-метрики, и в качестве релевантностей использовать целые числа [1,2,..,N], NDCG случайного ранжирования становится в среднем 0,827, а NDCG авторского ранжирования 0,968. Ну то есть, это прекрасный значимый результат.
🔥4
#law #facebook

"Стало известно, что Meta Platforms пришла к соглашению со штатом Техас по урегулированию поданного им иска с обвинением компании в незаконном использовании технологии распознавания лиц для сбора биометрических данных техасцев без их согласия, за что согласилась выплатить в течение пяти лет громадную сумму в $1,4 млрд.

Офис генерального прокурора сообщил, что Facebook загрузила и хранит без согласия клиентов миллиарды биометрических идентификаторов после введения в 2011 году функции «Предложения тегов» (Tag Suggestions), которая позволяет автоматически распознавать лица друзей на фотографиях пользователя. Как указали в прокураторе, Meta делала это, хотя знала, что закон Техаса о сборе или использовании биометрических идентификаторов (Texas Capture or Use of Biometric Identifiers Act, CUBI) запрещает компаниям собирать биометрические идентификаторы техасцев без предварительного уведомления и получения их согласия.

В конце 2021 года Meta заявила, что закрывает свою систему распознавания лиц на Facebook, сославшись на «растущие опасения по поводу использования этой технологии в целом».

Как сообщили в прокуратуре, сумма, подлежащая выплате в рамках урегулирования, является крупнейшей из когда-либо полученных в результате иска одного штата."

Капец у них суды грабят компании. По какой-то херне могут придраться и отжать миллиарды. На месте Цака я бы штату Техас все сервисы компании-то закрыл, пофиг на возможные убытки. Но наверняка это считается дискриминацией и за это полагается еще больший штраф )

https://3dnews.ru/1108769/meta-soglasilas-viplatit-14-mlrd-za-uregulirovanie-iska-shtata-tehasa-o-nezakonnom-sbore-biometricheskih-dannih-tehastsev
🤯3
#pinns

Новая интересная область - численное решение диффур нейросетями. Производная ищется не по весам, а по координатам (и времени), а функция потерь и есть дифференциальное уравнение. Оверфит приветствуется, и прочие интересные тонкости )

https://youtu.be/ynj08DeoHr0?si=6dRXOZktaNWYqxke
#astronomy #biology

«Мы не говорим о том, что произойдет, если Земля погибнет — если она будет биологически уничтожена, тогда это биохранилище не будет иметь значения, — поясняют авторы работы. — Оно призвано помочь предотвратить стихийные бедствия и, возможно, расширить возможности космических путешествий. Жизнь драгоценна и, насколько нам известно, редка во Вселенной. Это биохранилище предлагает другой, параллельный подход к сохранению драгоценного биоразнообразия Земли».

https://3dnews.ru/1108838/bez-elektrichestva-i-gidkogo-azota-uchyonie-predlogili-sozdat-bank-zemnih-biomaterialov-na-lune
👍2
#intel #stocks

"Близость достижения цели Intel по освоению пяти новых техпроцессов за четыре года инвесторов не впечатлила, а текущая структура расходов, включая себестоимость процессоров новых семейств Lunar Lake и Arrow Lake, добавила пессимизма инвесторам. Компания вынуждена сокращать расходы буквально по всем направлениям и будет вынуждена экономить на капитальных затратах, которые и были одним из главных условий потенциального преображения бизнеса процессорного гиганта. Кроме того, Intel откажется на какое-то время от выплаты дивидендов, а это держателей акций тоже не может порадовать в условиях их сохраняющейся уже не первый год отрицательной динамики. Фактически, акции Intel за пять лет подешевели более чем на 40 %, и примерно в такой же пропорции они обесценились с начала текущего года."

https://3dnews.ru/1108912/posle-otkritiya-torgov-aktsii-intel-ruhnuli-na-28-na-fone-udruchayushchego-kvartalnogo-otchyota
#series #openings #witcher

Посмотрел 1-ю серию Ведьмака - смотреть интересно, поединки на мечах отличные!

PS. Серии с 6-й скатилось в тупость ( Всё как и с супергероями-пацанами.

https://www.youtube.com/watch?v=KebuamM0ZvE