Бинарная часть датасета (состав мороженного), сжатая с помощью логистического PCA, прекрасно показывает что бренды сильно различаются по используемым ингредиентам. Так Ben & Jerry's можно почти со 100% идентифицировать по сочетанию жидкого сахара и каррагинана, Breyers чаще остальных использует камедь и сыворотки (и имеет худшие отзывы), Haagen-Dazs предпочитает использовать яичные желтки, гуару и также жидкий сахар, а Talenti - декстрозу (глюкоза полученная из кукурузы) и бобы рожкового дерева. Один из ключевых факторов хороших отзывов - содержание мальтита (подсластитель из крахмала), а вот другой подсластитель - ацесульфам всегда ведет к снижению оценок пользователей.
Датасет взят тут -> https://www.kaggle.com/tysonpo/ice-cream-dataset
Датасет взят тут -> https://www.kaggle.com/tysonpo/ice-cream-dataset
Kaggle
Ice Cream Dataset
Flavors and reviews from Ben & Jerry's, Häagen-Dazs, and more
Скоро состоится вручение статуэток Оскар. В прошлом году, проведя анализ претендентов и победителей главной награды Академии киноискусств за прошедшие 20 лет, я предложил один из вариантов предсказания победителя по проходящим перед вручением Оскара менее заметным кинопремиям. Настало время сделать прогноз и дождаться результатов. И так, в номинации Best Picture участвуют: 'Девушка, подающая надежды', 'Звук металла', 'Земля кочевников', 'Иуда и чёрный Мессия', 'Манк', 'Минари', 'Отец', 'Суд над чикагской семеркой'.
Forwarded from Data Funk
У тебя получалось угадать какой фильм станет лучшим на очередной премии Оскар? Часто решение по главной награде Академии киноискусств многих удивляет, но это только если не обращать внимание на предшествующие кинопремии, проходящие за 1-2 месяца до главного события мира кино. Например номинация Best Picture от Phoenix Critics Circle, PCC Award из Аризоны за свои 7 лет существования совпала 5 раз с Лучшим фильмом Оскар. Не так уж и плохо, правда? Ниже ты увидишь премии и других ассоциаций кинокритиков. Просто сложи числа тех номинаций где уже выйграл твой любимый фильм, и если результат превысил 100 баллов то у него есть не плохие шансы забрать главную статуэтку Академии киноискусств. Начиная с 2000 года эта формула взяла 20 победителей из 21 прошедших, предложив 28 претендентов.
Датасет взят тут -> https://www.kaggle.com/iwooloowi/film-awards-imdb
Датасет взят тут -> https://www.kaggle.com/iwooloowi/film-awards-imdb
В этом году Phoenix Critics Circle отдали награду Best Picture фильму 'Минари', и по формуле из поста выше назначаем ему 94 балла. Картина 'Земля кочевников' стала победителем номинации Outstanding Producer of Theatrical Motion Pictures в премии Гильдии продюсеров США PGA Awards (89 баллов) + забрала награду Best Picture в премиях Broadcast Film Critics Association Awards (присуждается Ассоциацией кинокритиков вещательных компаний, 88 баллов), Phoenix Film Critics Society Awards (64 балла), Dallas-Fort Worth Film Critics Association Awards (50 баллов), Chicago Film Critics Association Awards (49 баллов). Премия Seattle Film Critics Awards в этом году не вручалась, а значит их 51 балл ни кому не достается. Но и без этого понятно, что фаворит в номинации Лучший фильм - 'Земля кочевников' (итого 340 баллов). С большим отставанием 'Минари' (94 балла).
Ранее у меня был пост про анализ видео в трендах youtube. Главный вывод которого - не зависимо от качества видео, число лайков\дизлайков\комментариев со временем у каждого видео меняется как количество просмотров в некоторой степени. Сегодня пост про инстаграм. Тут, как и в любой среде с множеством субъектов, формируются характерные паттерны поведения. Например, доля лиц, которые лайкнули фото и при этом не являются фолловерами автора поста к числу всех лайкнувших стабильно падает по мере увеличения числа опубликованных материалов этого автора. А количество опубликованных постов пропорционально числу фолловеров в степени 0.77. Больше подписчиков и больше постов ведет к снижению доли внешних лайков. Профиль замыкается на пользователях с определенными интересами. Другой паттерн сети - число подписчиков почти всегда меньше числа подписок (если вы только не суперзвезда) и меняется также по показательному закону со степенью 0.61.
Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k
Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k
Ложная корреляция увлекательная штука. Между случайными событиями, вроде курса криптовалют и погоды в какой-либо точке мира, на небольшом временном отрезке может быть отличная линейная зависимость.
Датасет с курсом крипты от Bitfinex взят тут -> https://www.kaggle.com/tencars/392-crypto-currency-pairs-at-minute-resolution
Датасет с погодой от DarkSky взят тут -> https://www.kaggle.com/eeemonts/weatherclimate-data-covid19
Датасет с курсом крипты от Bitfinex взят тут -> https://www.kaggle.com/tencars/392-crypto-currency-pairs-at-minute-resolution
Датасет с погодой от DarkSky взят тут -> https://www.kaggle.com/eeemonts/weatherclimate-data-covid19
Через гугл форму был проведен опрос "Вы когда-нибудь ели ___ ?" в котором перечислялись разные продукты. Более 750 респондентов со всего мира заполнили форму, ответив по каждому продукту да\нет. Полученные бинарные данные можно анализировать разными методами, но мне было интересно опробовать логическую (не логистическую) регрессию. Ее придумали сначала для работы с данными микро чипов. Суть сводится к тому, что с помощью отжига строятся деревья логических выражений (как комбинация XOR функций по подмножествам бинарных колонок, которые затем конвертируются в AND\OR\NOT), а поверх этих логических формул можно сделать либо линейную, либо логистическую регрессию.
Google Docs
Have You Ever Eaten These Foods?
IMPORTANT: Please read the instructions for each section carefully, as they contain important details.
Please answer honestly. Thank you for your participation!
Results for this survey will be updated occasionally on Kaggle: https://kaggle.com/ds/997793
Please answer honestly. Thank you for your participation!
Results for this survey will be updated occasionally on Kaggle: https://kaggle.com/ds/997793
К имеющейся табличке ответов я добавил строчки сгенерированные случайно, с помощью LogicReg пробуя отличить ответ человека от рандома. Классификатор логической регрессии выдал 4 формулы, которые являются паттернами предпочтений людей:
Hawaiian pizza and Sushi and Jalapeño,
Lutefisk or Cockroach or Fugu or Balut or Century egg or Pig's trotters or Monkey brains,
Alligator meat or Rocky Mountain oyster or Durian or Frog legs,
(Salo or Rocky Mountain oyster or Locusts) and (not Pig's trotters or Salo)
Судя по третьей формуле, те кто пробовал мясо аллигатора близки с теми, кто ел дуриан, лапки лягушек или "устриц скалистых гор" (я только сейчас узнал что это).
Hawaiian pizza and Sushi and Jalapeño,
Lutefisk or Cockroach or Fugu or Balut or Century egg or Pig's trotters or Monkey brains,
Alligator meat or Rocky Mountain oyster or Durian or Frog legs,
(Salo or Rocky Mountain oyster or Locusts) and (not Pig's trotters or Salo)
Судя по третьей формуле, те кто пробовал мясо аллигатора близки с теми, кто ел дуриан, лапки лягушек или "устриц скалистых гор" (я только сейчас узнал что это).
Для отрисовки бинарной таблички на 2d хорошо подходит logistic PCA. Продукты из разных формул я обвел овалами что бы показать их близость. Для меня стало некоторым открытием, что проекция logistic PCA очень хорошо соотносится с логическими формулами, полученными на комбинации XOR функций.
Датасет взят тут -> https://www.kaggle.com/bsoyka3/have-you-ever-eaten-these-foods
Датасет взят тут -> https://www.kaggle.com/bsoyka3/have-you-ever-eaten-these-foods
Спустя 3 месяца вспомнил что есть этот канал, и пока все не отписались, пора запостить новых картинок. В руки попало немного данных анкет из OKCupid (сервис знакомств, вместе с Tinder и рядом других сервисов образуют компанию Match Group). Там можно поискать зависимости между тем, пишут о себе люди. Например, связь между полом и указанной высотой вполне очевидна (в среднем парни отмечают свой рост на 15 см выше девушек). При указании телосложения девушки в 51 раз чаще называют себя curvy (пышка), да парни определенно не любят себя так называть😁