NEW BOT Телеграм, страница - 33140235

Aspiring Data Science

@AspiringDataScience

385 subscribers

465 photos

12 videos

12 files

2.15K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

385 subscribers

Aspiring Data Science

#codegems

Смотрю и поражаюсь - как же можно такой говнокод писать?

😭1

97 viewsAnatoly Alekseev, 02:45

Aspiring Data Science

#yellowbrick

Либа yellowbrick с красивыми и полезными визулизациями для DS. Мне понравились Cook’s Distance, Class Balance, Parallel Coordinates, Feature Dropping Curves, Missing Values Bar.

"The Yellowbrick library is a diagnostic visualization platform for machine learning that allows data scientists to steer the model selection process. Yellowbrick extends the Scikit-Learn API with a new core object: the Visualizer. Visualizers allow visual models to be fit and transformed as part of the Scikit-Learn Pipeline process, providing visual diagnostics throughout the transformation of high dimensional data."

https://www.scikit-yb.org/en/latest/tutorial.html

✍1

117 viewsAnatoly Alekseev, 06:29

Aspiring Data Science

#pycaret

pycaret - ещё одна удобная либа для машинного обучения. Проанализирует датасет, разобъёт признаки на группы, проведёт препроцессинг, обработает пропуски. Всё настраивается.

В одну строчку на итоговом датасете можно обучить много моделек (включая современные градиентные бустинги) и посмотреть их сравнительные метрики, затюнить гиперпараметры (можно использовать оптуну), сделать простое (даже слишком простое) ансамблирование. Поддерживается логирование экспериментов (mlflow etc).

Я не уверен пока, поддерживается ли симметричное early stopping. Очень понравился их Fairness Report, я изобретал сам нечто похожее, а тут у них уже есть готовенькое и красивое.
Можно даже одним вызовом создать API для инференса, докер контейнер, и якобы даже развернуть в облаке (не тестил).

https://www.youtube.com/watch?v=gRGVwNggMX0

👍3

125 viewsAnatoly Alekseev, edited 07:00

Aspiring Data Science

#gpt #alphaproof

"По ряду причин решение математических задач, требующих способности к продвинутым рассуждениям, пока не по силам большинству ИИ-систем. Дело в том, что такие типы задач требуют формирования и использования абстракций. Также требуется сложное иерархическое планирование, постановка подцелей, откат и поиски новых путей, что является сложным вопросом для ИИ.

Обе новые ИИ-модели обладают способностью к продвинутым математическим рассуждениям для решения сложных математических задач. AlphaProof была создана с использованием обучения с подкреплением, получив способность доказывать математические утверждения на формальном языке программирования Lean. Для её создания использовалась предварительно обученная языковая модель AlphaZero, алгоритм обучения с подкреплением, который ранее сам себя научил играть в шахматы, сёги и го. В свою очередь, AlphaGeometry 2 представляет собой усовершенствованную версию существующей ИИ-системы AlphaGeometry, представленной в январе и предназначенной для решения задач по геометрии.

В то время как AlphaProof была обучена решению задач по широкому кругу математических тем, AlphaGeometry 2 оптимизирована для решения задач, связанных с перемещениями объектов и уравнениями, включающими углы, соотношения и расстояния. Поскольку AlphaGeometry 2 была обучена на значительно большем количестве синтетических данных, чем предшественник, она может справиться с гораздо более сложными геометрическими задачами.

Чтобы проверить возможности новых ИИ-систем, исследователи Google DeepMind поручили им решить шесть задач Международной математической олимпиады (IMO) этого года и доказать правильность ответов. AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, одна из которых была самой сложной на олимпиаде, в то время как AlphaGeometry 2 решила задачу по геометрии. Две задачи по комбинаторике остались нерешёнными.

Два известных математика, Тим Гауэрс (Tim Gowers) и Джозеф Майерс (Joseph Myers), проверили представленные системами решения. Они присудили каждому из четырёх правильных ответов максимальное количество баллов (семь из семи), что дало системам в общей сложности 28 баллов из максимальных 42. Участник олимпиады, набравший столько же баллов, был бы награждён серебряной медалью и немного не дотянул бы до золота, которое присуждается набравшим 29 баллов и больше.

Впервые ИИ-система смогла достичь результатов в решении математических задач IMO на уровне медалиста. «Как математик, я нахожу это очень впечатляющим и значительным скачком по сравнению с тем, что было возможно ранее», — заявил Гауэрс во время пресс-конференции.

Создание систем ИИ, способных решать сложные математические задачи, может проложить путь для захватывающего сотрудничества человека и ИИ, считает Кэти Коллинз (Katie Collins), исследователь из Кембриджского университета. Это, в свою очередь, может помочь нам узнать больше о том, как мы, люди, справляемся с математикой. «Мы всё ещё многого не знаем о том, как люди решают сложные математические задачи», — говорит она."

https://3dnews.ru/1108526/iimodeli-google-deepmind-reshili-zadachi-matematicheskoy-olimpiadi-na-urovne-serebryanogo-medalista

3DNews - Daily Digital Digest

ИИ-модели Google DeepMind решили задачи математической олимпиады на уровне серебряного медалиста

Google DeepMind, базирующееся в Лондоне дочернее предприятие Google, специализирующееся на исследованиях в сфере искусственного интеллекта (ИИ), представило ИИ-модели AlphaProof и AlphaGeometry 2, способные решать сложные математические задачи, с которыми…

143 viewsAnatoly Alekseev, 07:41

Aspiring Data Science

137 viewsAnatoly Alekseev, 08:46

Aspiring Data Science

#recommenders

Введение в рекомендательные системы, достаточно понятным языком.

https://www.youtube.com/live/SY3WQPz0kOw?si=u3WhK97bN5osPJJB

Рекомендательные системы: подходы и применение. Data Science, ML, анализ данных.

Вебинар на котором раскроется одна из самых важных и популярных задач, которым приходится заниматься сейчас специалистам по анализу данных.
Спикер: Дима, более 3-х лет Data Scientist в Х5 Group, Data Scientist и аналитик в JobToday.com

Что разберём:
🔹Где…

137 viewsAnatoly Alekseev, edited 03:56

Aspiring Data Science

#startups

https://youtu.be/mEKjFzGT8wc?si=Vw6J1No51ewZcZlR

Программист в одиночку сделал стартап

О том как я попытался запустить свой первый startup и полностью безоговорочно провалился

Я создал сервер в дискорде, чтобы было место для объединения инициативных ребят, залетай: https://discord.gg/HBjj6myr

Ссылка на сам продукт: https://cubicdone.com…

127 viewsAnatoly Alekseev, edited 03:00

Aspiring Data Science

#featureselection

Подобрался к более детальной проверке идеи из этого поста. Результаты поистине изумительные.

Как мы и знали раньше (из оригинального исследования автора, + моей проверки), корреляция "аппроксимированных предсказаний" и "честных предсказаний", хотя иногда и поднимается выше 90% (если количество признаков-кандидатов близко к полному количеству признаков), в среднем звёзд с неба не хватает.

Я взял датасет poker из pycaret, т.к. там достаточно наблюдений (100k), и дополнительно к к-ту корреляции посчитал RMSE честных и аппроксимированных предсказаний. Выяснился печальный факт, что RMSE просто среднего таргета по выборке (dummy) зачастую побеждает авторский способ оценки (naive).

Я расстроился, но, помня красивые графики автора, всё-таки посчитал реальные ошибки ground truth vs naive predictions, а уже от них NDCG в разрезе наборов признаков-кандидатов.

И был просто шокирован.
ndcg(naive_opt_fin_rmse)=0.99995 по 50 наборам признаков-кандидатов с числом признаков от 1 до 9 (всего в датасете их 10).

То есть, из Shap-значений нельзя вытащить прям точные аппроксимации честных прогнозов (слишком высокая RMSE). Но и не надо: даже эти аппроксимации позволяют с высокой точностью ранжировать наборы признаков-кандидатов (удивительно высокий NDCG).

Почему? Загадка. Видимо, движения "в нужном направлении" достаточно для точного ранжирования, и это важнее, чем абсолютная величина совпадения прогнозов. Здесь, похоже, действуют какие-то тонкие математические эффекты, которых я не понимаю. Но эта идея реально работает.

На датасете poker "честное переобучение" модельки занимает у меня 8 секунд, а оценка авторским методом 0,005 секунд. Ускорение в 1500+ раз при 0.99995 условной точности ранжирования.

"Условной", потому что на больших списках ndcg становится "логарифмически нечувствительным" к хорошему ранжированию. Например, случайное ранжирование в этой же задаче (с теми же релевантностями) на списке размером 50 выдаёт NDCG=0.987.

Если же отказаться от абсолютной шкалы целевой ML-метрики, и в качестве релевантностей использовать целые числа [1,2,..,N], NDCG случайного ранжирования становится в среднем 0,827, а NDCG авторского ранжирования 0,968. Ну то есть, это прекрасный значимый результат.

Aspiring Data Science

#featureselection

Классная идея применения коэффициентов Шэпли для отбора признаков!

Задача FS вообще NP-сложная и сводится к выбору оптимального значения бинарного вектора длины n_features (n_features это количество признаков-кандидатов в исходной выборке).…

🔥4

186 viewsAnatoly Alekseev, edited 04:09

Aspiring Data Science

#law #facebook

"Стало известно, что Meta Platforms пришла к соглашению со штатом Техас по урегулированию поданного им иска с обвинением компании в незаконном использовании технологии распознавания лиц для сбора биометрических данных техасцев без их согласия, за что согласилась выплатить в течение пяти лет громадную сумму в $1,4 млрд.

Офис генерального прокурора сообщил, что Facebook загрузила и хранит без согласия клиентов миллиарды биометрических идентификаторов после введения в 2011 году функции «Предложения тегов» (Tag Suggestions), которая позволяет автоматически распознавать лица друзей на фотографиях пользователя. Как указали в прокураторе, Meta делала это, хотя знала, что закон Техаса о сборе или использовании биометрических идентификаторов (Texas Capture or Use of Biometric Identifiers Act, CUBI) запрещает компаниям собирать биометрические идентификаторы техасцев без предварительного уведомления и получения их согласия.

В конце 2021 года Meta заявила, что закрывает свою систему распознавания лиц на Facebook, сославшись на «растущие опасения по поводу использования этой технологии в целом».

Как сообщили в прокуратуре, сумма, подлежащая выплате в рамках урегулирования, является крупнейшей из когда-либо полученных в результате иска одного штата."

Капец у них суды грабят компании. По какой-то херне могут придраться и отжать миллиарды. На месте Цака я бы штату Техас все сервисы компании-то закрыл, пофиг на возможные убытки. Но наверняка это считается дискриминацией и за это полагается еще больший штраф )

https://3dnews.ru/1108769/meta-soglasilas-viplatit-14-mlrd-za-uregulirovanie-iska-shtata-tehasa-o-nezakonnom-sbore-biometricheskih-dannih-tehastsev

3DNews - Daily Digital Digest

Meta✴ выплатит $1,4 млрд за незаконный сбор биометрических данных жителей Техаса

Стало известно, что Meta Platforms пришла к соглашению со штатом Техас по урегулированию поданного им иска с обвинением компании в незаконном использовании технологии распознавания лиц для сбора биометрических данных техасцев без их согласия, за что согласилась…

🤯3

100 viewsAnatoly Alekseev, edited 13:16

Aspiring Data Science

#pinns

Новая интересная область - численное решение диффур нейросетями. Производная ищется не по весам, а по координатам (и времени), а функция потерь и есть дифференциальное уравнение. Оверфит приветствуется, и прочие интересные тонкости )

https://youtu.be/ynj08DeoHr0?si=6dRXOZktaNWYqxke

Данил Сахаров | MULTIPINN: лучшие практики по обучению физически-информированных нейросетей

Спикер: Данил Сахаров, Лаборатория прикладных цифровых технологий НГУ

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке ML in Physics: https://ods.ai/tracks/df24-ml-in-physics
___
Наши соц.сети:
Telegram:…

112 viewsAnatoly Alekseev, edited 02:44

Aspiring Data Science

#astronomy #biology

«Мы не говорим о том, что произойдет, если Земля погибнет — если она будет биологически уничтожена, тогда это биохранилище не будет иметь значения, — поясняют авторы работы. — Оно призвано помочь предотвратить стихийные бедствия и, возможно, расширить возможности космических путешествий. Жизнь драгоценна и, насколько нам известно, редка во Вселенной. Это биохранилище предлагает другой, параллельный подход к сохранению драгоценного биоразнообразия Земли».

https://3dnews.ru/1108838/bez-elektrichestva-i-gidkogo-azota-uchyonie-predlogili-sozdat-bank-zemnih-biomaterialov-na-lune

3DNews - Daily Digital Digest

Без электричества и жидкого азота: учёные предложили создать на Луне банк земных биоматериалов

Смитсоновский национальный институт зоопарков и природоохранной биологии (NZCBI) совместно с Национальным музем авиации и космонавтики при Смитсоновском институте и другими организациями предложил план по созданию на Луне банка земных биоматериалов.

👍2

116 viewsAnatoly Alekseev, 12:01

Aspiring Data Science

#matching

36 млн товаров матчатся на одном GPU A100 c 80Гб VRAM.

https://youtu.be/e-huYC0C0Pw?si=webcHt7IDkUQR8lI

Иван Мордовец | Продуктовый матчинг для большого маркетплейса в деталях

Спикер: Иван Мордовец, Samokat.Tech

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции ML in Marketing: https://ods.ai/tracks/df24-ml-in-marketing
______
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest…

162 viewsAnatoly Alekseev, edited 07:44

Aspiring Data Science

#databases #columnar #cassandra

https://www.youtube.com/watch?v=Y7amXOCMYhE

Особенности колоночных БД на примере Cassandra // Демо-занятие курса «Базы данных»

1. Колоночные базы хранят данные в нестандартном формате, предназначены для обработки больших данных и ориентированны на скорость вставки данных.
2. Начинающие специалисты, требуется общее понимание реляционной модели хранения данных в БД и знание что существуют…

111 viewsAnatoly Alekseev, 12:18

Aspiring Data Science

#intel #stocks

"Близость достижения цели Intel по освоению пяти новых техпроцессов за четыре года инвесторов не впечатлила, а текущая структура расходов, включая себестоимость процессоров новых семейств Lunar Lake и Arrow Lake, добавила пессимизма инвесторам. Компания вынуждена сокращать расходы буквально по всем направлениям и будет вынуждена экономить на капитальных затратах, которые и были одним из главных условий потенциального преображения бизнеса процессорного гиганта. Кроме того, Intel откажется на какое-то время от выплаты дивидендов, а это держателей акций тоже не может порадовать в условиях их сохраняющейся уже не первый год отрицательной динамики. Фактически, акции Intel за пять лет подешевели более чем на 40 %, и примерно в такой же пропорции они обесценились с начала текущего года."

https://3dnews.ru/1108912/posle-otkritiya-torgov-aktsii-intel-ruhnuli-na-28-na-fone-udruchayushchego-kvartalnogo-otchyota

3DNews - Daily Digital Digest

Акции Intel рухнули на 28 % после удручающего финансового отчёта

От квартального отчёта Intel аналитики не ждали приятных сюрпризов изначально, но собственные прогнозы компании по выручке и норме прибыли на текущий квартал оказались заведомо хуже ожиданий рынка, в результате чего после открытия торгов в США котировки акций…

105 viewsAnatoly Alekseev, 15:31

Aspiring Data Science

#animals #fun

https://www.youtube.com/watch?v=kPxCvoVt5y0

Orphaned Animal Cuteness Overload

Hi everyone,

I’m very lucky to have a close relationship with all the orphaned animals who live on the farm and in this video I want to show you how much they all love attention, which I’m sure you’d agree is not that different to humans lol

You’ll be able…

106 viewsAnatoly Alekseev, 04:35

Aspiring Data Science

#recommenders #metrics

Оказывается, поставлю ли я 5-ку фильму после просмотра, и хочу ли я смотреть этот фильм сегодня вечером - это не одно и то же )

https://www.youtube.com/watch?v=DAdnbffMkcE

Что такое хорошо и что такое плохо: метрики для рекомендательных систем / Ирина Пчелинцева (Яндекс)

При поддержке AvitoTech мы впервые публикуем все видео с UseData Conf 2019 в открытый доступ. Учитесь, вдохновляйтесь и перенимайте лучшие практики у спикеров, не выходя из дома.

Календарь конференций - https://ontico.ru
--------
UseDataConf 2019

Тезисы…

👍1

120 viewsAnatoly Alekseev, 07:52

Aspiring Data Science

#series #openings #witcher

Посмотрел 1-ю серию Ведьмака - смотреть интересно, поединки на мечах отличные!

PS. Серии с 6-й скатилось в тупость ( Всё как и с супергероями-пацанами.

https://www.youtube.com/watch?v=KebuamM0ZvE

Netflix The Witcher - Opening Intro - Season 1

My favourite part of a television series is usually its opening sequence, and since I really enjoyed The Witcher as a show, I really think it also deserves a proper intro sequence.

This is my take on a possible intro, with no spoilers but carefully selected…

116 viewsAnatoly Alekseev, edited 09:48