Alexa собирает и предоставляет информацию о 1 миллионе сайтов интернета. В бесплатной версии можно видеть только топ 50 из каждой подкатегории (их около 500), но даже этого хватает что бы заметить распределение базовых категорий по 10К самых популярных сайтов интернета.
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Crunchbase собирает информацию о финансировании частных и государственных компаний. Там можно найти суммарный объем привлеченных инвестиций и год основания компании. В разрезе рынка, который она занимает, это дает еще один способ взглянуть на динамику инвестиционных настроений. Начиная с 2000 года некоторые рынки неизменно сокращаются: Clean Technology, Software, Health Care, Semiconductors, Hardware + Software. А такие, как Hospitality, Real Estate, Education, News, Apps, Financial Service наоборот только набирают силу. К сожалению имеющие данные доступны только до 2014 года, вполне может быть что за прошедшие 6 лет тенденции частично сменились.
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
На летних олимпийских играх США регулярно занимает первые места по суммарному количеству медалей в атлетике. В 2016 году 128 американских атлетов забрали 46 медалей, а 50 представителей атлетов Ямайки 28 медалей! Где готовят спортсменов эффективнее? Я не знаю. Но я могу поделить число медалей на число спортсменов от каждой команды (умножить на 100 и назвать это performance). Для графика были использованы только страны/команды, которые могли себе позволить отправить 40 и более атлетов на каждые игры.
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
New York Times назвал сайт BoardGameGeek центром настольных игр интернета (спасибо wiki). И одна из самых популярных игр сегодня конечно та, где вы с друзьями боретесь против мировой инфекции - Pandemic (8.6 баллов из 10). Но если ты держишь в руках коробку не знакомой игры и прикидываешь насколько она хороша, убедись что она издана после 2014 года и максимальное время игры превышает 73 минуты. На картинке дерево решений, для не слишком сложных игр, даст тебе еще несколько советов по выбору.
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
"Никогда не ловили себя на мысли, что Google — это всего лишь фронтенд для Stack Overflow?" - комментарий на Хабре. Stack Overflow - сайт №1 для всех кто пишет код. Вы задаете вопрос об ошибке в вашем коде, сопроводив его тегами, и другие участники легко могут найти его и дать вам подходящий ответ. Вопросы можно лайкать или дизлайкать. Если сумма лайков превышает сумму дизлайков на 30 и более голосов и ваш пост ни разу не редактировался, то его условно можно считать качественным постом (high-quality post). Вопросы с одними тегами качественнее чем с другими, и все это меняется со временем.
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
На сайте французской сети парфюмерии Sephora множество людей оставляют отзывы о её продукции, и это прекрасная возможность сравнить средние рейтинги рецензий клиентов со средними ценами множества брендов в разных категориях ассортимента. Для анализа я использовал только те бренды, которые в конкретной категории имеют более 10 разных товаров с множеством оценок.
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Среди математиков, для определения их важности, в шутку используют "Число Эрдёша". Пал Эрдёш один из величайших ученых 20 века, написавший множество статей с соавторами. Те в свою очередь являются соавторами с другими, и т.д. И "Число Эрдёша" определяется как количество рукопожатий от конкретного ученого до Пала Эрдёша (для ведущих математиков оно не превышает 8). Та самая теория о шести рукопожатиях в деле. В остальных областях знаний ситуация схожая. Достаточно взглянуть на arXiv (бесплатная, открытая база научных публикаций). Там собрано почти 1.5 млн статей по более чем 170 направлениям исследований. Несмотря на то, что год за годом число авторов в каждой области растет (от тысячи до сотни тысяч авторов в различных категориях исследований, смотри одну из картинок), средняя дистанция (число рукопожатий) между авторами сначала растёт, а потом начинает падать (смотри другую картинку).
Дело в том, что когда направление исследований только зарождается, оно основано на небольшом количестве людей и институтов, которые пишут соответствующие статьи со своими коллегами\учениками. Разрастаясь эта сеть образует граф с все увеличивающейся средней дистанцией между авторами, а когда в эту область включаются независимые друг от друга лаборатории, сеть превращается в набор небольшого числа крупных кластеров и огромного числа маленьких кластеров авторов, снижая среднее число рукопожатий между ними.
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Kaggle
arXiv Dataset
arXiv dataset and metadata of 1.7M+ scholarly papers across STEM
Сегодня речь об индийской кухне. Чем она отличается от европейской (Continental cuisine)? Наличием множества специй - пажитник, куркума, шафран, карри, чили, тмин, кардамон, кориандр и т.д. Кроме того, типично индийское блюдо скорее всего содержит топленое масло, рис и разнообразные орехи. А десерты будут с неочищенным пальмовым сахаром. Европейская кухня - оливки, масло, дрожжи, яйца, шоколад, множество ягод, овощей и конечно злаки. Интуитивно понятные отличия одной кухни от другой подтверждаются и простой линейной регрессией на рецептах большого количества блюд собранных с популярного индийского сайта рецептов archanaskitchen.com.
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Сайт Metacritic нередко обвиняют во влиянии на продажи игр\фильмов\музыкальных альбомов. Говоря о последних, можно заметить что рейтинг данный выбранными критиками какому-либо альбому будет в среднем ниже, чем рейтинг от пользователей сайта. Причем если альбом вышел в начале 2000-ых, то вероятность такого исхода была почти 0.9. С течением времени эта вероятность падала, и для альбома выпущенных в 2017-2019 была даже обратная тенденция: критики чаще давали более высокие оценки чем пользователи. Текущий 2020 год изменил ситуацию и видимо сейчас на Metacritic период релаксации - когда Probability(user score > critic score) колеблется около 0.5 в пределах погрешности. На графиках также представлены погрешности ±σ, ±2σ, ±3σ.
Интересный вопрос в том, почему критики в среднем перестали оценивать альбомы заметно ниже по сравнению с обычными пользователями сайта. Если посмотреть на схожий график по жанрам, то можно увидеть что сильнее всего разница между критиками и пользователями (в пользу последних) проявляется на жанре Pop, Alternative Rock и Pop Rock. Популярные жанры нравились юзерам, но не критикам. Сегодня эти жанры лишь наследие 2000-ых. И то, что тогда было под жанром направлений Pop и Rock (и еще пары ключевых жанров) сегодня образовало собственные массивные течения в музыке. Это и Art Pop и Synthpop, а также Electropop, Dream Pop, тут же Indie Folk, Singer-Songwriter, Neo-Psychedelia, Post-Punk, Hip-Hop, Garage Rock и многое-многое другое. И во всех этих новых направлениях оценки критиков становятся все ближе к оценкам пользователей Metacritic.
Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings
Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings
Kaggle
Contemporary album ratings and reviews
+30.000 aggregated album ratings and reviews from different review aggregators