Музыка является субъективной вещью, тем не менее в ней есть жанры, а Spotify еще и выделяет ряд характеристик для каждого трека: acousticness (акустичность), liveness (живое исполнение), speechiness (присутствие речи), instrumentalness (наличие вокала), energy (интенсивность/активность трека), danceability(танцевальность, стабильность ритма), valence (валентность/позитивность) и др. Все они измеряются от 0 до 1. Рок композиции отличаются от прочих низкими значениями danceability и speechiness, для rap треков все ровно наоборот и дополнительно присутствует высокий темп. Но интереснее наблюдать как эволюционируют жанры. Rock становится со временем менее позитивным (как и R&B) и акустичным, но более энергичным. На этом фоне выделяются попса и rap, с их небольшим ростом позитивности, но также утратой акустичности.
Датасет взят тут -> https://www.kaggle.com/imuhammad/audio-features-and-lyrics-of-spotify-songs
Датасет взят тут -> https://www.kaggle.com/imuhammad/audio-features-and-lyrics-of-spotify-songs
На Хабре хватает статей про аналитику статей на Хабре. Вот мои 5 копеек. На картинке представлены теги, масштабированные по степени влияния на рейтинг статьи.
Датасет взят тут -> https://www.kaggle.com/awant08/habrahabr-articles
Датасет взят тут -> https://www.kaggle.com/awant08/habrahabr-articles
Alexa собирает и предоставляет информацию о 1 миллионе сайтов интернета. В бесплатной версии можно видеть только топ 50 из каждой подкатегории (их около 500), но даже этого хватает что бы заметить распределение базовых категорий по 10К самых популярных сайтов интернета.
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Crunchbase собирает информацию о финансировании частных и государственных компаний. Там можно найти суммарный объем привлеченных инвестиций и год основания компании. В разрезе рынка, который она занимает, это дает еще один способ взглянуть на динамику инвестиционных настроений. Начиная с 2000 года некоторые рынки неизменно сокращаются: Clean Technology, Software, Health Care, Semiconductors, Hardware + Software. А такие, как Hospitality, Real Estate, Education, News, Apps, Financial Service наоборот только набирают силу. К сожалению имеющие данные доступны только до 2014 года, вполне может быть что за прошедшие 6 лет тенденции частично сменились.
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
На летних олимпийских играх США регулярно занимает первые места по суммарному количеству медалей в атлетике. В 2016 году 128 американских атлетов забрали 46 медалей, а 50 представителей атлетов Ямайки 28 медалей! Где готовят спортсменов эффективнее? Я не знаю. Но я могу поделить число медалей на число спортсменов от каждой команды (умножить на 100 и назвать это performance). Для графика были использованы только страны/команды, которые могли себе позволить отправить 40 и более атлетов на каждые игры.
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
New York Times назвал сайт BoardGameGeek центром настольных игр интернета (спасибо wiki). И одна из самых популярных игр сегодня конечно та, где вы с друзьями боретесь против мировой инфекции - Pandemic (8.6 баллов из 10). Но если ты держишь в руках коробку не знакомой игры и прикидываешь насколько она хороша, убедись что она издана после 2014 года и максимальное время игры превышает 73 минуты. На картинке дерево решений, для не слишком сложных игр, даст тебе еще несколько советов по выбору.
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
"Никогда не ловили себя на мысли, что Google — это всего лишь фронтенд для Stack Overflow?" - комментарий на Хабре. Stack Overflow - сайт №1 для всех кто пишет код. Вы задаете вопрос об ошибке в вашем коде, сопроводив его тегами, и другие участники легко могут найти его и дать вам подходящий ответ. Вопросы можно лайкать или дизлайкать. Если сумма лайков превышает сумму дизлайков на 30 и более голосов и ваш пост ни разу не редактировался, то его условно можно считать качественным постом (high-quality post). Вопросы с одними тегами качественнее чем с другими, и все это меняется со временем.
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
На сайте французской сети парфюмерии Sephora множество людей оставляют отзывы о её продукции, и это прекрасная возможность сравнить средние рейтинги рецензий клиентов со средними ценами множества брендов в разных категориях ассортимента. Для анализа я использовал только те бренды, которые в конкретной категории имеют более 10 разных товаров с множеством оценок.
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Среди математиков, для определения их важности, в шутку используют "Число Эрдёша". Пал Эрдёш один из величайших ученых 20 века, написавший множество статей с соавторами. Те в свою очередь являются соавторами с другими, и т.д. И "Число Эрдёша" определяется как количество рукопожатий от конкретного ученого до Пала Эрдёша (для ведущих математиков оно не превышает 8). Та самая теория о шести рукопожатиях в деле. В остальных областях знаний ситуация схожая. Достаточно взглянуть на arXiv (бесплатная, открытая база научных публикаций). Там собрано почти 1.5 млн статей по более чем 170 направлениям исследований. Несмотря на то, что год за годом число авторов в каждой области растет (от тысячи до сотни тысяч авторов в различных категориях исследований, смотри одну из картинок), средняя дистанция (число рукопожатий) между авторами сначала растёт, а потом начинает падать (смотри другую картинку).
Дело в том, что когда направление исследований только зарождается, оно основано на небольшом количестве людей и институтов, которые пишут соответствующие статьи со своими коллегами\учениками. Разрастаясь эта сеть образует граф с все увеличивающейся средней дистанцией между авторами, а когда в эту область включаются независимые друг от друга лаборатории, сеть превращается в набор небольшого числа крупных кластеров и огромного числа маленьких кластеров авторов, снижая среднее число рукопожатий между ними.
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Kaggle
arXiv Dataset
arXiv dataset and metadata of 1.7M+ scholarly papers across STEM
Сегодня речь об индийской кухне. Чем она отличается от европейской (Continental cuisine)? Наличием множества специй - пажитник, куркума, шафран, карри, чили, тмин, кардамон, кориандр и т.д. Кроме того, типично индийское блюдо скорее всего содержит топленое масло, рис и разнообразные орехи. А десерты будут с неочищенным пальмовым сахаром. Европейская кухня - оливки, масло, дрожжи, яйца, шоколад, множество ягод, овощей и конечно злаки. Интуитивно понятные отличия одной кухни от другой подтверждаются и простой линейной регрессией на рецептах большого количества блюд собранных с популярного индийского сайта рецептов archanaskitchen.com.
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset