Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
В этом году Phoenix Critics Circle отдали награду Best Picture фильму 'Минари', и по формуле из поста выше назначаем ему 94 балла. Картина 'Земля кочевников' стала победителем номинации Outstanding Producer of Theatrical Motion Pictures в премии Гильдии продюсеров США PGA Awards (89 баллов) + забрала награду Best Picture в премиях Broadcast Film Critics Association Awards (присуждается Ассоциацией кинокритиков вещательных компаний, 88 баллов), Phoenix Film Critics Society Awards (64 балла), Dallas-Fort Worth Film Critics Association Awards (50 баллов), Chicago Film Critics Association Awards (49 баллов). Премия Seattle Film Critics Awards в этом году не вручалась, а значит их 51 балл ни кому не достается. Но и без этого понятно, что фаворит в номинации Лучший фильм - 'Земля кочевников' (итого 340 баллов). С большим отставанием 'Минари' (94 балла).
Ранее у меня был пост про анализ видео в трендах youtube. Главный вывод которого - не зависимо от качества видео, число лайков\дизлайков\комментариев со временем у каждого видео меняется как количество просмотров в некоторой степени. Сегодня пост про инстаграм. Тут, как и в любой среде с множеством субъектов, формируются характерные паттерны поведения. Например, доля лиц, которые лайкнули фото и при этом не являются фолловерами автора поста к числу всех лайкнувших стабильно падает по мере увеличения числа опубликованных материалов этого автора. А количество опубликованных постов пропорционально числу фолловеров в степени 0.77. Больше подписчиков и больше постов ведет к снижению доли внешних лайков. Профиль замыкается на пользователях с определенными интересами. Другой паттерн сети - число подписчиков почти всегда меньше числа подписок (если вы только не суперзвезда) и меняется также по показательному закону со степенью 0.61.

Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k
Ложная корреляция увлекательная штука. Между случайными событиями, вроде курса криптовалют и погоды в какой-либо точке мира, на небольшом временном отрезке может быть отличная линейная зависимость.

Датасет с курсом крипты от Bitfinex взят тут -> https://www.kaggle.com/tencars/392-crypto-currency-pairs-at-minute-resolution

Датасет с погодой от DarkSky взят тут -> https://www.kaggle.com/eeemonts/weatherclimate-data-covid19
Через гугл форму был проведен опрос "Вы когда-нибудь ели ___ ?" в котором перечислялись разные продукты. Более 750 респондентов со всего мира заполнили форму, ответив по каждому продукту да\нет. Полученные бинарные данные можно анализировать разными методами, но мне было интересно опробовать логическую (не логистическую) регрессию. Ее придумали сначала для работы с данными микро чипов. Суть сводится к тому, что с помощью отжига строятся деревья логических выражений (как комбинация XOR функций по подмножествам бинарных колонок, которые затем конвертируются в AND\OR\NOT), а поверх этих логических формул можно сделать либо линейную, либо логистическую регрессию.
К имеющейся табличке ответов я добавил строчки сгенерированные случайно, с помощью LogicReg пробуя отличить ответ человека от рандома. Классификатор логической регрессии выдал 4 формулы, которые являются паттернами предпочтений людей:

Hawaiian pizza and Sushi and Jalapeño,

Lutefisk or Cockroach or Fugu or Balut or Century egg or Pig's trotters or Monkey brains,

Alligator meat or Rocky Mountain oyster or Durian or Frog legs,

(Salo or Rocky Mountain oyster or Locusts) and (not Pig's trotters or Salo)

Судя по третьей формуле, те кто пробовал мясо аллигатора близки с теми, кто ел дуриан, лапки лягушек или "устриц скалистых гор" (я только сейчас узнал что это).
Для отрисовки бинарной таблички на 2d хорошо подходит logistic PCA. Продукты из разных формул я обвел овалами что бы показать их близость. Для меня стало некоторым открытием, что проекция logistic PCA очень хорошо соотносится с логическими формулами, полученными на комбинации XOR функций.

Датасет взят тут -> https://www.kaggle.com/bsoyka3/have-you-ever-eaten-these-foods
Спустя 3 месяца вспомнил что есть этот канал, и пока все не отписались, пора запостить новых картинок. В руки попало немного данных анкет из OKCupid (сервис знакомств, вместе с Tinder и рядом других сервисов образуют компанию Match Group). Там можно поискать зависимости между тем, пишут о себе люди. Например, связь между полом и указанной высотой вполне очевидна (в среднем парни отмечают свой рост на 15 см выше девушек). При указании телосложения девушки в 51 раз чаще называют себя curvy (пышка), да парни определенно не любят себя так называть😁
Зато мужчины в 2.8 раза чаще по сравнению с женщинами отмечают что у них атлетическое телосложение (в 2.8 раза чаще выдумывают?). Ежегодный доход решили указать 12.9% девушек и 23.4% парней, и если они не врут, то медианные зарплаты мужчин на 20.000 долларов выше чем у женщин (60к против 40к). Впрочем, интересно будет выяснить как зависит эта разница от возраста и профессии, а также от того, употребляет ли человек алкоголь, курит ли, кто по знаку зодиака и т.д. все это указано в датасете.

Датасет взят тут -> https://www.kaggle.com/subhamyadav580/dating-site