This media is not supported in your browser
VIEW IN TELEGRAM
PCA часто используется для скучного проецирования эмбедингов в пространство меньшей размерности или борьбы с мультиколлинеарностью. Но он также умеет удалять статичный фон на видео, например на этом.
This media is not supported in your browser
VIEW IN TELEGRAM
Остальные компоненты сохраняют в себе движущиеся элементы видео.
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.
Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned
Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned
Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.
Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.