Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
Министерство транспорта США предоставляет подробную статистику авиа перелетов, в том числе и задержки рейсов. Если самолет взлетел на 15 и более минут позже запланированного времени, борт считается задержанным. На графиках представлена вероятность задержки от планируемого локального времени вылета и дня в течение года. Ранним осенним утром можешь почти не беспокоится что твой рейс отложат.

Датасет взят тут -> https://www.kaggle.com/yuanyuwendymu/airline-delay-and-cancellation-data-2009-2018
Миллион долларов! Столько вручил Netflix в сентябре 2009 команде улучшившей прогноз оценок фильмов на 10%. В этом соревновании Simon Funk (псевдоним), из Apple, занял третье место, предложив алгоритм, ставший серебренной пулей всех последующих рекомендательных систем. Сегодня Netflix, Spotify, AirBnB и другие компании используют этот алгоритм - FunkSVD, для того что бы предложить своим пользователям лучший продукт. Глядя на все оценки\лайки\покупки юзеров, FunkSVD сопоставляет каждому из них и продукту вектор небольшой длины, описывающий их скрытые предпочтения\характеристики. На картинке как раз такое отображение для нескольких приложений Google Play, построенное по тысячам оценок пользователей. Заметно как приложения условно группируются по темам: продуктивность, общение и инструменты, развлечения.

Датасет взят тут -> https://www.kaggle.com/mehdislim01/google-play-store-apps-reviews-110k-comment
Судя по гугл тренду интерес к Kickstarter медленно, но стабильно падает начиная с его золотого времени в 2014 году. Тем не менее ориентируясь на средний чек проектов по разным темам можно оценить в какую сторону движутся интересы людей. Используя тематическое моделирование (LDA) описаний проектов (набравших минимум 500$) можно выделить 6 основных тем. Они представлены на графике вместе с медианным значением чека по каждому году. Наибольшие деньги по-прежнему готовы отдавать за audio/video разработки, но радует что люди все больше вкладывают в сферу образования learning/students.

Датасет взят тут -> https://www.kaggle.com/alonsopuente/kickstarter-projects-metadata
Музыка является субъективной вещью, тем не менее в ней есть жанры, а Spotify еще и выделяет ряд характеристик для каждого трека: acousticness (акустичность), liveness (живое исполнение), speechiness (присутствие речи), instrumentalness (наличие вокала), energy (интенсивность/активность трека), danceability(танцевальность, стабильность ритма), valence (валентность/позитивность) и др. Все они измеряются от 0 до 1. Рок композиции отличаются от прочих низкими значениями danceability и speechiness, для rap треков все ровно наоборот и дополнительно присутствует высокий темп. Но интереснее наблюдать как эволюционируют жанры. Rock становится со временем менее позитивным (как и R&B) и акустичным, но более энергичным. На этом фоне выделяются попса и rap, с их небольшим ростом позитивности, но также утратой акустичности.

Датасет взят тут -> https://www.kaggle.com/imuhammad/audio-features-and-lyrics-of-spotify-songs
На Хабре хватает статей про аналитику статей на Хабре. Вот мои 5 копеек. На картинке представлены теги, масштабированные по степени влияния на рейтинг статьи.

Датасет взят тут -> https://www.kaggle.com/awant08/habrahabr-articles
Alexa собирает и предоставляет информацию о 1 миллионе сайтов интернета. В бесплатной версии можно видеть только топ 50 из каждой подкатегории (их около 500), но даже этого хватает что бы заметить распределение базовых категорий по 10К самых популярных сайтов интернета.

Датасет взят тут -> https://www.kaggle.com/ashkangoharfar/sites-information-data-from-alexacom-dataset
Crunchbase собирает информацию о финансировании частных и государственных компаний. Там можно найти суммарный объем привлеченных инвестиций и год основания компании. В разрезе рынка, который она занимает, это дает еще один способ взглянуть на динамику инвестиционных настроений. Начиная с 2000 года некоторые рынки неизменно сокращаются: Clean Technology, Software, Health Care, Semiconductors, Hardware + Software. А такие, как Hospitality, Real Estate, Education, News, Apps, Financial Service наоборот только набирают силу. К сожалению имеющие данные доступны только до 2014 года, вполне может быть что за прошедшие 6 лет тенденции частично сменились.

Датасет взят тут -> https://www.kaggle.com/arindam235/startup-investments-crunchbase
На летних олимпийских играх США регулярно занимает первые места по суммарному количеству медалей в атлетике. В 2016 году 128 американских атлетов забрали 46 медалей, а 50 представителей атлетов Ямайки 28 медалей! Где готовят спортсменов эффективнее? Я не знаю. Но я могу поделить число медалей на число спортсменов от каждой команды (умножить на 100 и назвать это performance). Для графика были использованы только страны/команды, которые могли себе позволить отправить 40 и более атлетов на каждые игры.

Датасет взят тут -> https://www.kaggle.com/sushmabiswas/120-years-of-olympic-data
New York Times назвал сайт BoardGameGeek центром настольных игр интернета (спасибо wiki). И одна из самых популярных игр сегодня конечно та, где вы с друзьями боретесь против мировой инфекции - Pandemic (8.6 баллов из 10). Но если ты держишь в руках коробку не знакомой игры и прикидываешь насколько она хороша, убедись что она издана после 2014 года и максимальное время игры превышает 73 минуты. На картинке дерево решений, для не слишком сложных игр, даст тебе еще несколько советов по выбору.

Датасет взят тут -> https://www.kaggle.com/extralime/20000-boardgames-dataset
"Никогда не ловили себя на мысли, что Google — это всего лишь фронтенд для Stack Overflow?" - комментарий на Хабре. Stack Overflow - сайт №1 для всех кто пишет код. Вы задаете вопрос об ошибке в вашем коде, сопроводив его тегами, и другие участники легко могут найти его и дать вам подходящий ответ. Вопросы можно лайкать или дизлайкать. Если сумма лайков превышает сумму дизлайков на 30 и более голосов и ваш пост ни разу не редактировался, то его условно можно считать качественным постом (high-quality post). Вопросы с одними тегами качественнее чем с другими, и все это меняется со временем.

Датасет взят тут -> https://www.kaggle.com/imoore/60k-stack-overflow-questions-with-quality-rate
На сайте французской сети парфюмерии Sephora множество людей оставляют отзывы о её продукции, и это прекрасная возможность сравнить средние рейтинги рецензий клиентов со средними ценами множества брендов в разных категориях ассортимента. Для анализа я использовал только те бренды, которые в конкретной категории имеют более 10 разных товаров с множеством оценок.

Датасет взят тут -> https://www.kaggle.com/raghadalharbi/all-products-available-on-sephora-website
Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.

Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset