В конце 19 века было не просто оставить отзыв на новую ленту братьев Люмьер. Сейчас у тебя под рукой IMDB, Кинопоиск и Rotten Tomatoes. Критикам есть где развернуться, они паразитируют на кино, они же делают ему рекламу. И как утверждает Rotten Tomatoes чем выше у фильма оценка рецензентов, тем вероятно больший доход его ожидает. По отзывам этого агрегатора также можно проследить как менялась история кинематографа. На графике вдоль оси даты проката кино расположились ключевые слова рецензий на эти фильмы.
Датасет взят тут -> https://www.kaggle.com/aaronjun/rotten-tomato-1960-2020
Датасет взят тут -> https://www.kaggle.com/aaronjun/rotten-tomato-1960-2020
Министерство транспорта США предоставляет подробную статистику авиа перелетов, в том числе и задержки рейсов. Если самолет взлетел на 15 и более минут позже запланированного времени, борт считается задержанным. На графиках представлена вероятность задержки от планируемого локального времени вылета и дня в течение года. Ранним осенним утром можешь почти не беспокоится что твой рейс отложат.
Датасет взят тут -> https://www.kaggle.com/yuanyuwendymu/airline-delay-and-cancellation-data-2009-2018
Датасет взят тут -> https://www.kaggle.com/yuanyuwendymu/airline-delay-and-cancellation-data-2009-2018
Миллион долларов! Столько вручил Netflix в сентябре 2009 команде улучшившей прогноз оценок фильмов на 10%. В этом соревновании Simon Funk (псевдоним), из Apple, занял третье место, предложив алгоритм, ставший серебренной пулей всех последующих рекомендательных систем. Сегодня Netflix, Spotify, AirBnB и другие компании используют этот алгоритм - FunkSVD, для того что бы предложить своим пользователям лучший продукт. Глядя на все оценки\лайки\покупки юзеров, FunkSVD сопоставляет каждому из них и продукту вектор небольшой длины, описывающий их скрытые предпочтения\характеристики. На картинке как раз такое отображение для нескольких приложений Google Play, построенное по тысячам оценок пользователей. Заметно как приложения условно группируются по темам: продуктивность, общение и инструменты, развлечения.
Датасет взят тут -> https://www.kaggle.com/mehdislim01/google-play-store-apps-reviews-110k-comment
Датасет взят тут -> https://www.kaggle.com/mehdislim01/google-play-store-apps-reviews-110k-comment
Судя по гугл тренду интерес к Kickstarter медленно, но стабильно падает начиная с его золотого времени в 2014 году. Тем не менее ориентируясь на средний чек проектов по разным темам можно оценить в какую сторону движутся интересы людей. Используя тематическое моделирование (LDA) описаний проектов (набравших минимум 500$) можно выделить 6 основных тем. Они представлены на графике вместе с медианным значением чека по каждому году. Наибольшие деньги по-прежнему готовы отдавать за audio/video разработки, но радует что люди все больше вкладывают в сферу образования learning/students.
Датасет взят тут -> https://www.kaggle.com/alonsopuente/kickstarter-projects-metadata
Датасет взят тут -> https://www.kaggle.com/alonsopuente/kickstarter-projects-metadata
Музыка является субъективной вещью, тем не менее в ней есть жанры, а Spotify еще и выделяет ряд характеристик для каждого трека: acousticness (акустичность), liveness (живое исполнение), speechiness (присутствие речи), instrumentalness (наличие вокала), energy (интенсивность/активность трека), danceability(танцевальность, стабильность ритма), valence (валентность/позитивность) и др. Все они измеряются от 0 до 1. Рок композиции отличаются от прочих низкими значениями danceability и speechiness, для rap треков все ровно наоборот и дополнительно присутствует высокий темп. Но интереснее наблюдать как эволюционируют жанры. Rock становится со временем менее позитивным (как и R&B) и акустичным, но более энергичным. На этом фоне выделяются попса и rap, с их небольшим ростом позитивности, но также утратой акустичности.
Датасет взят тут -> https://www.kaggle.com/imuhammad/audio-features-and-lyrics-of-spotify-songs
Датасет взят тут -> https://www.kaggle.com/imuhammad/audio-features-and-lyrics-of-spotify-songs
На Хабре хватает статей про аналитику статей на Хабре. Вот мои 5 копеек. На картинке представлены теги, масштабированные по степени влияния на рейтинг статьи.
Датасет взят тут -> https://www.kaggle.com/awant08/habrahabr-articles
Датасет взят тут -> https://www.kaggle.com/awant08/habrahabr-articles
Alexa собирает и предоставляет информацию о 1 миллионе сайтов интернета. В бесплатной версии можно видеть только топ 50 из каждой подкатегории (их около 500), но даже этого хватает что бы заметить распределение базовых категорий по 10К самых популярных сайтов интернета.
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Crunchbase собирает информацию о финансировании частных и государственных компаний. Там можно найти суммарный объем привлеченных инвестиций и год основания компании. В разрезе рынка, который она занимает, это дает еще один способ взглянуть на динамику инвестиционных настроений. Начиная с 2000 года некоторые рынки неизменно сокращаются: Clean Technology, Software, Health Care, Semiconductors, Hardware + Software. А такие, как Hospitality, Real Estate, Education, News, Apps, Financial Service наоборот только набирают силу. К сожалению имеющие данные доступны только до 2014 года, вполне может быть что за прошедшие 6 лет тенденции частично сменились.
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
На летних олимпийских играх США регулярно занимает первые места по суммарному количеству медалей в атлетике. В 2016 году 128 американских атлетов забрали 46 медалей, а 50 представителей атлетов Ямайки 28 медалей! Где готовят спортсменов эффективнее? Я не знаю. Но я могу поделить число медалей на число спортсменов от каждой команды (умножить на 100 и назвать это performance). Для графика были использованы только страны/команды, которые могли себе позволить отправить 40 и более атлетов на каждые игры.
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
New York Times назвал сайт BoardGameGeek центром настольных игр интернета (спасибо wiki). И одна из самых популярных игр сегодня конечно та, где вы с друзьями боретесь против мировой инфекции - Pandemic (8.6 баллов из 10). Но если ты держишь в руках коробку не знакомой игры и прикидываешь насколько она хороша, убедись что она издана после 2014 года и максимальное время игры превышает 73 минуты. На картинке дерево решений, для не слишком сложных игр, даст тебе еще несколько советов по выбору.
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
"Никогда не ловили себя на мысли, что Google — это всего лишь фронтенд для Stack Overflow?" - комментарий на Хабре. Stack Overflow - сайт №1 для всех кто пишет код. Вы задаете вопрос об ошибке в вашем коде, сопроводив его тегами, и другие участники легко могут найти его и дать вам подходящий ответ. Вопросы можно лайкать или дизлайкать. Если сумма лайков превышает сумму дизлайков на 30 и более голосов и ваш пост ни разу не редактировался, то его условно можно считать качественным постом (high-quality post). Вопросы с одними тегами качественнее чем с другими, и все это меняется со временем.
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
На сайте французской сети парфюмерии Sephora множество людей оставляют отзывы о её продукции, и это прекрасная возможность сравнить средние рейтинги рецензий клиентов со средними ценами множества брендов в разных категориях ассортимента. Для анализа я использовал только те бренды, которые в конкретной категории имеют более 10 разных товаров с множеством оценок.
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website