NEW BOT Телеграм, страница

Data Funk

В базе публикаций Scopus можно оценить как меняется тематика статей по множеству направлений исследований. На картинке пятилетняя динамика топ-3 тегов, отсортированных по pagerank на графах ключевых слов используемых в статьях Computer Science. В публикациях прекращают использовать ранее популярные термины вроде сложных или нейронных сетей и теперь это просто глубокое обучение. Кроме deep learning сохраняют популярность работы связанные с блокчейном и интернетом вещей. С другой стороны стали уделять меньше внимания алгоритмам и оптимизации. Быстро теряет популярность употребление слова human - современные модели больше не сравнивают с человеком.

Датасет взят тут -> https://www.kaggle.com/datasets/ammarabbasi/scientific-publication-khalifa-university-sci-tech

👍3

367 views12:24

Data Funk

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

Комплексное преобразование Фурье позволяет разложить двумерную картинку на множество гармонических компонент. Собрал их обратно, добавляя по одной, пока не появится исходный портрет Стива Джобса.

🔥8

186 views11:22

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

PCA часто используется для скучного проецирования эмбедингов в пространство меньшей размерности или борьбы с мультиколлинеарностью. Но он также умеет удалять статичный фон на видео, например на этом.

208 views20:58

Data Funk

Разворачиваем каждый кадр (трехмерный тензор) в вектор и собираем их по времени (здесь три полосы это три цветовых канала).

234 views20:59

Data Funk

С помощью PCA выделяем первую компоненту и этого достаточно для идентификации фона.

👍1

272 views20:59

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

Остальные компоненты сохраняют в себе движущиеся элементы видео.

👍7

292 views20:59

Data Funk

ping

🤯2

182 views11:11

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.

Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned

286 views11:11

Data Funk

Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.

170 views06:45

Data Funk

Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.

180 viewsedited 06:45

Data Funk

Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products

213 views06:45

Data Funk

Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution

🔥1

247 views06:45

Data Funk

Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.

164 views17:33

Data Funk

Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.

181 views17:34

Data Funk

First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.

199 views17:34

Data Funk

Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset

255 views17:35

About

Blog

Apps

Platform