Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
На сайте французской сети парфюмерии Sephora множество людей оставляют отзывы о её продукции, и это прекрасная возможность сравнить средние рейтинги рецензий клиентов со средними ценами множества брендов в разных категориях ассортимента. Для анализа я использовал только те бренды, которые в конкретной категории имеют более 10 разных товаров с множеством оценок.

Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.

Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Среди математиков, для определения их важности, в шутку используют "Число Эрдёша". Пал Эрдёш один из величайших ученых 20 века, написавший множество статей с соавторами. Те в свою очередь являются соавторами с другими, и т.д. И "Число Эрдёша" определяется как количество рукопожатий от конкретного ученого до Пала Эрдёша (для ведущих математиков оно не превышает 8). Та самая теория о шести рукопожатиях в деле. В остальных областях знаний ситуация схожая. Достаточно взглянуть на arXiv (бесплатная, открытая база научных публикаций). Там собрано почти 1.5 млн статей по более чем 170 направлениям исследований. Несмотря на то, что год за годом число авторов в каждой области растет (от тысячи до сотни тысяч авторов в различных категориях исследований, смотри одну из картинок), средняя дистанция (число рукопожатий) между авторами сначала растёт, а потом начинает падать (смотри другую картинку).
Дело в том, что когда направление исследований только зарождается, оно основано на небольшом количестве людей и институтов, которые пишут соответствующие статьи со своими коллегами\учениками. Разрастаясь эта сеть образует граф с все увеличивающейся средней дистанцией между авторами, а когда в эту область включаются независимые друг от друга лаборатории, сеть превращается в набор небольшого числа крупных кластеров и огромного числа маленьких кластеров авторов, снижая среднее число рукопожатий между ними.

Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Сегодня речь об индийской кухне. Чем она отличается от европейской (Continental cuisine)? Наличием множества специй - пажитник, куркума, шафран, карри, чили, тмин, кардамон, кориандр и т.д. Кроме того, типично индийское блюдо скорее всего содержит топленое масло, рис и разнообразные орехи. А десерты будут с неочищенным пальмовым сахаром. Европейская кухня - оливки, масло, дрожжи, яйца, шоколад, множество ягод, овощей и конечно злаки. Интуитивно понятные отличия одной кухни от другой подтверждаются и простой линейной регрессией на рецептах большого количества блюд собранных с популярного индийского сайта рецептов archanaskitchen.com.

Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Сайт Metacritic нередко обвиняют во влиянии на продажи игр\фильмов\музыкальных альбомов. Говоря о последних, можно заметить что рейтинг данный выбранными критиками какому-либо альбому будет в среднем ниже, чем рейтинг от пользователей сайта. Причем если альбом вышел в начале 2000-ых, то вероятность такого исхода была почти 0.9. С течением времени эта вероятность падала, и для альбома выпущенных в 2017-2019 была даже обратная тенденция: критики чаще давали более высокие оценки чем пользователи. Текущий 2020 год изменил ситуацию и видимо сейчас на Metacritic период релаксации - когда Probability(user score > critic score) колеблется около 0.5 в пределах погрешности. На графиках также представлены погрешности ±σ, ±2σ, ±3σ.
Интересный вопрос в том, почему критики в среднем перестали оценивать альбомы заметно ниже по сравнению с обычными пользователями сайта. Если посмотреть на схожий график по жанрам, то можно увидеть что сильнее всего разница между критиками и пользователями (в пользу последних) проявляется на жанре Pop, Alternative Rock и Pop Rock. Популярные жанры нравились юзерам, но не критикам. Сегодня эти жанры лишь наследие 2000-ых. И то, что тогда было под жанром направлений Pop и Rock (и еще пары ключевых жанров) сегодня образовало собственные массивные течения в музыке. Это и Art Pop и Synthpop, а также Electropop, Dream Pop, тут же Indie Folk, Singer-Songwriter, Neo-Psychedelia, Post-Punk, Hip-Hop, Garage Rock и многое-многое другое. И во всех этих новых направлениях оценки критиков становятся все ближе к оценкам пользователей Metacritic.

Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings
Один из моих любимых ресурсов - towardsdatascience.com. Пробежавшись по статьям за 3 последних года, заметил, что в среднем статья оценивается выше (средней оценки по всем статьям) если в ней присутствуют теги programming, machine-learning, education, python, а также trading, money, finance, careers. А анти рейтинге оказались covid19, coronavirus, politics, tableau, power-bi, julia, r. Средний посетитель towardsdatascience.com изучает python и ML ради карьеры и способов заработать на своих знаниях, и ему не очень нравится читать про политику, корону, аналитические инструменты и менее популярные языки.

Датасет взят тут -> https://www.kaggle.com/alexbenzik/towards-data-science-37k-articles
Глядя на 2020 год сквозь призму towardsdatascience.com, можно видеть что по сравнению с 2019 некоторые темы в целом умерли: svm, digital-marketing, seq2seq, tensorflow2, game-of-thrones. Другие наоборот появились: covid19, mlops, deep-r-l-explained. А статьи с такими темами как графы знаний, исследование причинности, neo4j и биология стали набирать значительно больше лайков по сравнению с 2019-ым. Если тенденция продолжится, то в 2021 году графы станут одним из основных обязательных инструментов в руках датасаентиста.
Один из самых популярных игрушечных датасетов - diamonds. Я взял версию побольше - данные с сайта brilliantearth.com с описанием 119К бриллиантов и их цены. Она конечно зависит во многом от веса камня (price ~ carat^1.22). Происхождения камня: искусственные из лаборатории или натуральные, вторые дороже. Также от цвета. Вообще бриллианты измеряются по цветовой по шкале от D (полностью прозрачный) до Z (очень мутный). Первые конечно редкие, дорогие и мелкие (в среднем по 0.64 карата), все что весит больше карата скорее всего будет из цветовой категории I, J, и ниже (заметно мутные) и вырощенны в лаборатории. Цена на лабораторные камни подобных мутных оттенков может упасть сразу на 30%-50% за карат по сравнению с прозрачными натуральными камнями.
Другой важный показатель - сlarity, в среднем искусственные бриллианты имеют больше заметных вкраплений, что снижает их цену. Среди десятка форм камней на brilliantearth.com самой важной оказалась Round, дешёвые лабораторные алмазы часто ограняют в круглую форму. Огранка, в зависимости от симметрии и отражающих качеств алмаза также играет важную роль при определении цены.

Датасет взят тут -> https://www.kaggle.com/miguelcorraljr/brilliant-diamonds
Когда онлайн магазины пытаются подсунуть вам что-нибудь еще в корзину при покупке, то скорее всего они используют либо матричную факторизацию, либо цепи Маркова, либо ассоциативные правила. Последний алгоритм особо интересен сочетанием простоты и красоты даваемых результатов. Например, вы заказали себе cpu для нового компа, но оказывается что шансы на приобретение cpu + memory выше, чем независимое их приобретение, и поэтому онлайн магазин с удовольствием вам подсказывает что возможно вы хотите прикупить еще и memory. Это и называется ассоциативное правило. Магазины обычно их составляют очень много (миллионы) и тут с ними главное не ошибиться.