NEW BOT Телеграм, страница

PCA часто используется для скучного проецирования эмбедингов в пространство меньшей размерности или борьбы с мультиколлинеарностью. Но он также умеет удалять статичный фон на видео, например на этом.

209 views20:58

Data Funk

Разворачиваем каждый кадр (трехмерный тензор) в вектор и собираем их по времени (здесь три полосы это три цветовых канала).

235 views20:59

Data Funk

С помощью PCA выделяем первую компоненту и этого достаточно для идентификации фона.

👍1

273 views20:59

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

Остальные компоненты сохраняют в себе движущиеся элементы видео.

👍7

293 views20:59

Data Funk

ping

🤯2

183 views11:11

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.

Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned

287 views11:11

Data Funk

Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.

171 views06:45

Data Funk

Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.

181 viewsedited 06:45

Data Funk

Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products

214 views06:45

Data Funk

Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution

🔥1

248 views06:45

Data Funk

Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.

165 views17:33

Data Funk

Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.

182 views17:34

Data Funk

First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.

200 views17:34

Data Funk

Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset

256 views17:35

About

Blog

Apps

Platform