Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
ping
🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.

Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned
Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.
Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.
Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.
Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.
First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.
Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset
Графики частичной зависимости (PDP) невероятно простой и полезный инструмент в оценке влияния параметра на таргет. Во всем датасете меняем колонку с нужным параметром на одинаковое значение и усредняем предикт обученной ранее модели по всем строкам. И так делаем по всему диапазонну фичи. В зависимости от выбранной модели полученная кривая может выглядеть разным способом. Я обучил несколько моделей на данных VahanBima (одна из ведущих страховых компаний Индии), где по характеристикам пользователя предлагается оценить его ценность для компании (CLTV). В качестве одной из характеристик используется полная запрашиваемая клиентом сумма (Total Amount Claimed, в рупиях). Каждая из не линейных моделей (нейронка, случайный лес, ExtranTrees, бустинг gbm, xgboost) выделила пик LTV в районе 10К-15К по Total Amount Claimed. А вот линейная модель GLM продолжила свой рост дальше (после отметки 15К число обучающих примеров заметно меньше, поэтому GLM просто их не заметила).
Минусы подхода:
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.

Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer