Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
Ранее у меня был пост про анализ видео в трендах youtube. Главный вывод которого - не зависимо от качества видео, число лайков\дизлайков\комментариев со временем у каждого видео меняется как количество просмотров в некоторой степени. Сегодня пост про инстаграм. Тут, как и в любой среде с множеством субъектов, формируются характерные паттерны поведения. Например, доля лиц, которые лайкнули фото и при этом не являются фолловерами автора поста к числу всех лайкнувших стабильно падает по мере увеличения числа опубликованных материалов этого автора. А количество опубликованных постов пропорционально числу фолловеров в степени 0.77. Больше подписчиков и больше постов ведет к снижению доли внешних лайков. Профиль замыкается на пользователях с определенными интересами. Другой паттерн сети - число подписчиков почти всегда меньше числа подписок (если вы только не суперзвезда) и меняется также по показательному закону со степенью 0.61.

Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k
Ложная корреляция увлекательная штука. Между случайными событиями, вроде курса криптовалют и погоды в какой-либо точке мира, на небольшом временном отрезке может быть отличная линейная зависимость.

Датасет с курсом крипты от Bitfinex взят тут -> https://www.kaggle.com/tencars/392-crypto-currency-pairs-at-minute-resolution

Датасет с погодой от DarkSky взят тут -> https://www.kaggle.com/eeemonts/weatherclimate-data-covid19
Через гугл форму был проведен опрос "Вы когда-нибудь ели ___ ?" в котором перечислялись разные продукты. Более 750 респондентов со всего мира заполнили форму, ответив по каждому продукту да\нет. Полученные бинарные данные можно анализировать разными методами, но мне было интересно опробовать логическую (не логистическую) регрессию. Ее придумали сначала для работы с данными микро чипов. Суть сводится к тому, что с помощью отжига строятся деревья логических выражений (как комбинация XOR функций по подмножествам бинарных колонок, которые затем конвертируются в AND\OR\NOT), а поверх этих логических формул можно сделать либо линейную, либо логистическую регрессию.
К имеющейся табличке ответов я добавил строчки сгенерированные случайно, с помощью LogicReg пробуя отличить ответ человека от рандома. Классификатор логической регрессии выдал 4 формулы, которые являются паттернами предпочтений людей:

Hawaiian pizza and Sushi and Jalapeño,

Lutefisk or Cockroach or Fugu or Balut or Century egg or Pig's trotters or Monkey brains,

Alligator meat or Rocky Mountain oyster or Durian or Frog legs,

(Salo or Rocky Mountain oyster or Locusts) and (not Pig's trotters or Salo)

Судя по третьей формуле, те кто пробовал мясо аллигатора близки с теми, кто ел дуриан, лапки лягушек или "устриц скалистых гор" (я только сейчас узнал что это).
Для отрисовки бинарной таблички на 2d хорошо подходит logistic PCA. Продукты из разных формул я обвел овалами что бы показать их близость. Для меня стало некоторым открытием, что проекция logistic PCA очень хорошо соотносится с логическими формулами, полученными на комбинации XOR функций.

Датасет взят тут -> https://www.kaggle.com/bsoyka3/have-you-ever-eaten-these-foods
Спустя 3 месяца вспомнил что есть этот канал, и пока все не отписались, пора запостить новых картинок. В руки попало немного данных анкет из OKCupid (сервис знакомств, вместе с Tinder и рядом других сервисов образуют компанию Match Group). Там можно поискать зависимости между тем, пишут о себе люди. Например, связь между полом и указанной высотой вполне очевидна (в среднем парни отмечают свой рост на 15 см выше девушек). При указании телосложения девушки в 51 раз чаще называют себя curvy (пышка), да парни определенно не любят себя так называть😁
Зато мужчины в 2.8 раза чаще по сравнению с женщинами отмечают что у них атлетическое телосложение (в 2.8 раза чаще выдумывают?). Ежегодный доход решили указать 12.9% девушек и 23.4% парней, и если они не врут, то медианные зарплаты мужчин на 20.000 долларов выше чем у женщин (60к против 40к). Впрочем, интересно будет выяснить как зависит эта разница от возраста и профессии, а также от того, употребляет ли человек алкоголь, курит ли, кто по знаку зодиака и т.д. все это указано в датасете.

Датасет взят тут -> https://www.kaggle.com/subhamyadav580/dating-site
В продолжении поста:
На графике представлено распределение доходов для обоих полов в США в зависимости от возраста + медиана распределения.
Доход растет примерно до 50+ лет у всех, далее у женщин он начинает уменьшаться, а у мужчин остается на том же уровне, но тут дело в том, что женщины в США до текущего года выходили на пенсию раньше мужчин. Если отбросить разницу в доходах после 60, то все равно медианная разница между полами составляет заметные 20000 долларов. Постепенно сокращаясь до 10000 к 50+ годам. Можно сделать осторожный вывод: более ранний выход женщин на пенсию усиливает и без того заметное экономическое неравенство между полами.
А вот с ростом все гораздо интереснее. Низкие парни (ниже 160 см) зарабатывают меньше девушек того же роста. При высоте 160-170 см наблюдается паритет в доходах, а после 170 см мужчины имеют доход выше, чем женщины с соответствующим ростом.