Выше я как-то писал про индийскую кухню, сегодня продолжение темы о еде. Сайт Food.com. Более полумиллиона рецептов по множеству категорий блюд с подробным описанием состава каждого из них. Среди характеристик описания: Calories (калории), Carbohydrate Content (содержание углеводов), Cholesterol Content (содержание холестерина), Cooking Time (время готовки), Fat Content (жирность), Fiber Content (содержание клетчатки), Preparation Time (время подготовки), Protein Content (содержание белка), Recipe Servings (количество порций), Saturated Fat Content (содержание насыщенных жиров), Sodium Content (содержание натрия), Sugar Content (содержание сахара).
Этого достаточно что бы предсказать любую из существующих категорий блюд с помощью простого лог.рега. с хорошим качеством. Из полученных линеек я извлек важность каждой характеристики и составил матрицу [категории_блюд x важность_фичей] дальше это отправляется в PCA. Интересно, что первые два вектора PCA разложения описывают более 54% дисперсии этой матрицы. На картинках можно видеть как меняются важности перечисленных фичей по осям PCA для ряда категорий блюд, а также между близлежащими категориями интуитивно прослеживается сходство. Положительный importance означает что увеличивая соответсвующую характеристику мы лучше можем предсказать конкретную категорию блюда, отрицательный наоборот - точность угадывания конкретной категории возрастает, если уменьшать данную фичу.
Датасет взят тут -> https://www.kaggle.com/irkaal/foodcom-recipes-and-reviews
Датасет взят тут -> https://www.kaggle.com/irkaal/foodcom-recipes-and-reviews
Kaggle
Food.com - Recipes and Reviews
Data on over 500,000 recipes and 1,400,000 reviews from Food.com
Открыл для себя правило - размер датасета обратно пропорционален потраченному на него времени. Увидел маленькую табличку с 239 видами мороженного (239 строк) от 4 брендов (Ben & Jerry's, Breyers, Haagen-Dazs, Talenti), с более чем сотней колонок - ингредиенты состава мороженного, и средней оценкой пользователей с сайтов брендов. Первая мысль - попробовать все возможные идеи анализа которые смог вспомнить, ведь датасет маленький и все будет работать быстро. Этот процесс обманчиво затягивает. Месяц периодических подходов к табличке заканчивается почти тем же, чем и начинался.
Бинарная часть датасета (состав мороженного), сжатая с помощью логистического PCA, прекрасно показывает что бренды сильно различаются по используемым ингредиентам. Так Ben & Jerry's можно почти со 100% идентифицировать по сочетанию жидкого сахара и каррагинана, Breyers чаще остальных использует камедь и сыворотки (и имеет худшие отзывы), Haagen-Dazs предпочитает использовать яичные желтки, гуару и также жидкий сахар, а Talenti - декстрозу (глюкоза полученная из кукурузы) и бобы рожкового дерева. Один из ключевых факторов хороших отзывов - содержание мальтита (подсластитель из крахмала), а вот другой подсластитель - ацесульфам всегда ведет к снижению оценок пользователей.
Датасет взят тут -> https://www.kaggle.com/tysonpo/ice-cream-dataset
Датасет взят тут -> https://www.kaggle.com/tysonpo/ice-cream-dataset
Kaggle
Ice Cream Dataset
Flavors and reviews from Ben & Jerry's, Häagen-Dazs, and more
Скоро состоится вручение статуэток Оскар. В прошлом году, проведя анализ претендентов и победителей главной награды Академии киноискусств за прошедшие 20 лет, я предложил один из вариантов предсказания победителя по проходящим перед вручением Оскара менее заметным кинопремиям. Настало время сделать прогноз и дождаться результатов. И так, в номинации Best Picture участвуют: 'Девушка, подающая надежды', 'Звук металла', 'Земля кочевников', 'Иуда и чёрный Мессия', 'Манк', 'Минари', 'Отец', 'Суд над чикагской семеркой'.
Forwarded from Data Funk
У тебя получалось угадать какой фильм станет лучшим на очередной премии Оскар? Часто решение по главной награде Академии киноискусств многих удивляет, но это только если не обращать внимание на предшествующие кинопремии, проходящие за 1-2 месяца до главного события мира кино. Например номинация Best Picture от Phoenix Critics Circle, PCC Award из Аризоны за свои 7 лет существования совпала 5 раз с Лучшим фильмом Оскар. Не так уж и плохо, правда? Ниже ты увидишь премии и других ассоциаций кинокритиков. Просто сложи числа тех номинаций где уже выйграл твой любимый фильм, и если результат превысил 100 баллов то у него есть не плохие шансы забрать главную статуэтку Академии киноискусств. Начиная с 2000 года эта формула взяла 20 победителей из 21 прошедших, предложив 28 претендентов.
Датасет взят тут -> https://www.kaggle.com/iwooloowi/film-awards-imdb
Датасет взят тут -> https://www.kaggle.com/iwooloowi/film-awards-imdb
В этом году Phoenix Critics Circle отдали награду Best Picture фильму 'Минари', и по формуле из поста выше назначаем ему 94 балла. Картина 'Земля кочевников' стала победителем номинации Outstanding Producer of Theatrical Motion Pictures в премии Гильдии продюсеров США PGA Awards (89 баллов) + забрала награду Best Picture в премиях Broadcast Film Critics Association Awards (присуждается Ассоциацией кинокритиков вещательных компаний, 88 баллов), Phoenix Film Critics Society Awards (64 балла), Dallas-Fort Worth Film Critics Association Awards (50 баллов), Chicago Film Critics Association Awards (49 баллов). Премия Seattle Film Critics Awards в этом году не вручалась, а значит их 51 балл ни кому не достается. Но и без этого понятно, что фаворит в номинации Лучший фильм - 'Земля кочевников' (итого 340 баллов). С большим отставанием 'Минари' (94 балла).
Ранее у меня был пост про анализ видео в трендах youtube. Главный вывод которого - не зависимо от качества видео, число лайков\дизлайков\комментариев со временем у каждого видео меняется как количество просмотров в некоторой степени. Сегодня пост про инстаграм. Тут, как и в любой среде с множеством субъектов, формируются характерные паттерны поведения. Например, доля лиц, которые лайкнули фото и при этом не являются фолловерами автора поста к числу всех лайкнувших стабильно падает по мере увеличения числа опубликованных материалов этого автора. А количество опубликованных постов пропорционально числу фолловеров в степени 0.77. Больше подписчиков и больше постов ведет к снижению доли внешних лайков. Профиль замыкается на пользователях с определенными интересами. Другой паттерн сети - число подписчиков почти всегда меньше числа подписок (если вы только не суперзвезда) и меняется также по показательному закону со степенью 0.61.
Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k
Датасет взят тут -> https://www.kaggle.com/krpurba/im-instagram-70k