Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
С помощью PCA выделяем первую компоненту и этого достаточно для идентификации фона.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Остальные компоненты сохраняют в себе движущиеся элементы видео.
👍7
ping
🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.

Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned
Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.
Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.
Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.
Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.
First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.
Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset