Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset
Среди математиков, для определения их важности, в шутку используют "Число Эрдёша". Пал Эрдёш один из величайших ученых 20 века, написавший множество статей с соавторами. Те в свою очередь являются соавторами с другими, и т.д. И "Число Эрдёша" определяется как количество рукопожатий от конкретного ученого до Пала Эрдёша (для ведущих математиков оно не превышает 8). Та самая теория о шести рукопожатиях в деле. В остальных областях знаний ситуация схожая. Достаточно взглянуть на arXiv (бесплатная, открытая база научных публикаций). Там собрано почти 1.5 млн статей по более чем 170 направлениям исследований. Несмотря на то, что год за годом число авторов в каждой области растет (от тысячи до сотни тысяч авторов в различных категориях исследований, смотри одну из картинок), средняя дистанция (число рукопожатий) между авторами сначала растёт, а потом начинает падать (смотри другую картинку).
Дело в том, что когда направление исследований только зарождается, оно основано на небольшом количестве людей и институтов, которые пишут соответствующие статьи со своими коллегами\учениками. Разрастаясь эта сеть образует граф с все увеличивающейся средней дистанцией между авторами, а когда в эту область включаются независимые друг от друга лаборатории, сеть превращается в набор небольшого числа крупных кластеров и огромного числа маленьких кластеров авторов, снижая среднее число рукопожатий между ними.
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv
Kaggle
arXiv Dataset
arXiv dataset and metadata of 1.7M+ scholarly papers across STEM
Сегодня речь об индийской кухне. Чем она отличается от европейской (Continental cuisine)? Наличием множества специй - пажитник, куркума, шафран, карри, чили, тмин, кардамон, кориандр и т.д. Кроме того, типично индийское блюдо скорее всего содержит топленое масло, рис и разнообразные орехи. А десерты будут с неочищенным пальмовым сахаром. Европейская кухня - оливки, масло, дрожжи, яйца, шоколад, множество ягод, овощей и конечно злаки. Интуитивно понятные отличия одной кухни от другой подтверждаются и простой линейной регрессией на рецептах большого количества блюд собранных с популярного индийского сайта рецептов archanaskitchen.com.
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset
Сайт Metacritic нередко обвиняют во влиянии на продажи игр\фильмов\музыкальных альбомов. Говоря о последних, можно заметить что рейтинг данный выбранными критиками какому-либо альбому будет в среднем ниже, чем рейтинг от пользователей сайта. Причем если альбом вышел в начале 2000-ых, то вероятность такого исхода была почти 0.9. С течением времени эта вероятность падала, и для альбома выпущенных в 2017-2019 была даже обратная тенденция: критики чаще давали более высокие оценки чем пользователи. Текущий 2020 год изменил ситуацию и видимо сейчас на Metacritic период релаксации - когда Probability(user score > critic score) колеблется около 0.5 в пределах погрешности. На графиках также представлены погрешности ±σ, ±2σ, ±3σ.
Интересный вопрос в том, почему критики в среднем перестали оценивать альбомы заметно ниже по сравнению с обычными пользователями сайта. Если посмотреть на схожий график по жанрам, то можно увидеть что сильнее всего разница между критиками и пользователями (в пользу последних) проявляется на жанре Pop, Alternative Rock и Pop Rock. Популярные жанры нравились юзерам, но не критикам. Сегодня эти жанры лишь наследие 2000-ых. И то, что тогда было под жанром направлений Pop и Rock (и еще пары ключевых жанров) сегодня образовало собственные массивные течения в музыке. Это и Art Pop и Synthpop, а также Electropop, Dream Pop, тут же Indie Folk, Singer-Songwriter, Neo-Psychedelia, Post-Punk, Hip-Hop, Garage Rock и многое-многое другое. И во всех этих новых направлениях оценки критиков становятся все ближе к оценкам пользователей Metacritic.
Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings
Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings
Kaggle
Contemporary album ratings and reviews
+30.000 aggregated album ratings and reviews from different review aggregators
Один из моих любимых ресурсов - towardsdatascience.com. Пробежавшись по статьям за 3 последних года, заметил, что в среднем статья оценивается выше (средней оценки по всем статьям) если в ней присутствуют теги programming, machine-learning, education, python, а также trading, money, finance, careers. А анти рейтинге оказались covid19, coronavirus, politics, tableau, power-bi, julia, r. Средний посетитель towardsdatascience.com изучает python и ML ради карьеры и способов заработать на своих знаниях, и ему не очень нравится читать про политику, корону, аналитические инструменты и менее популярные языки.
Датасет взят тут -> https://www.kaggle.com/alexbenzik/towards-data-science-37k-articles
Датасет взят тут -> https://www.kaggle.com/alexbenzik/towards-data-science-37k-articles
Глядя на 2020 год сквозь призму towardsdatascience.com, можно видеть что по сравнению с 2019 некоторые темы в целом умерли: svm, digital-marketing, seq2seq, tensorflow2, game-of-thrones. Другие наоборот появились: covid19, mlops, deep-r-l-explained. А статьи с такими темами как графы знаний, исследование причинности, neo4j и биология стали набирать значительно больше лайков по сравнению с 2019-ым. Если тенденция продолжится, то в 2021 году графы станут одним из основных обязательных инструментов в руках датасаентиста.
Один из самых популярных игрушечных датасетов - diamonds. Я взял версию побольше - данные с сайта brilliantearth.com с описанием 119К бриллиантов и их цены. Она конечно зависит во многом от веса камня (price ~ carat^1.22). Происхождения камня: искусственные из лаборатории или натуральные, вторые дороже. Также от цвета. Вообще бриллианты измеряются по цветовой по шкале от D (полностью прозрачный) до Z (очень мутный). Первые конечно редкие, дорогие и мелкие (в среднем по 0.64 карата), все что весит больше карата скорее всего будет из цветовой категории I, J, и ниже (заметно мутные) и вырощенны в лаборатории. Цена на лабораторные камни подобных мутных оттенков может упасть сразу на 30%-50% за карат по сравнению с прозрачными натуральными камнями.
Другой важный показатель - сlarity, в среднем искусственные бриллианты имеют больше заметных вкраплений, что снижает их цену. Среди десятка форм камней на brilliantearth.com самой важной оказалась Round, дешёвые лабораторные алмазы часто ограняют в круглую форму. Огранка, в зависимости от симметрии и отражающих качеств алмаза также играет важную роль при определении цены.
Датасет взят тут -> https://www.kaggle.com/miguelcorraljr/brilliant-diamonds
Датасет взят тут -> https://www.kaggle.com/miguelcorraljr/brilliant-diamonds
Kaggle
Brilliant Diamonds
Dataset of natural and lab-created diamonds
Когда онлайн магазины пытаются подсунуть вам что-нибудь еще в корзину при покупке, то скорее всего они используют либо матричную факторизацию, либо цепи Маркова, либо ассоциативные правила. Последний алгоритм особо интересен сочетанием простоты и красоты даваемых результатов. Например, вы заказали себе cpu для нового компа, но оказывается что шансы на приобретение cpu + memory выше, чем независимое их приобретение, и поэтому онлайн магазин с удовольствием вам подсказывает что возможно вы хотите прикупить еще и memory. Это и называется ассоциативное правило. Магазины обычно их составляют очень много (миллионы) и тут с ними главное не ошибиться.
При заказе продуктов люди часто берут что угодно + хлеб, но это не значит что если человек положил себе в корзину что-либо, ему нужно подсказать купить хлеб. Скорее всего он его купит из без нашей подсказки. Ниже по ссылке вы можете найти датасет с транзакциями 285М юзеров в одном из онлайн магазинов (на самом деле там даже несколько датасетов) за небольшие полгода его работы. По этим данным можно узнать много о поведении людей, например если вы купили слипоны, фен и мышку для ноута, то скорее всего вам понадобятся еще и шлёпки. На картинке представлено небольшое количество парных правил, стрелки показывают что вам можно порекомендовать, если вы решили взять какой-то товар.
Датасет взят тут -> https://www.kaggle.com/mkechinov/ecommerce-behavior-data-from-multi-category-store
Датасет взят тут -> https://www.kaggle.com/mkechinov/ecommerce-behavior-data-from-multi-category-store
Kaggle
eCommerce behavior data from multi category store
This dataset contains 285 million users' events from eCommerce website
Пока не нашел интересный датасет, решил немного порисовать с помощью Extreme Learning Machine (ELM). В основе ELM лежит простая идея - берем двухслойную нейронную сеть, первый слой делаем широким, задаем рандомно и замораживаем, а второй учим как обычную линейную модель. Всё.
В результате у тебя: 1) вместо безумной функции потерь с множеством экстремумов есть выпуклая задача оптимизации с гарантированным глобальным минимумом, 2) опубликованное доказательство того, что ELM обладает всеми свойствами глобальных аппроксиматоров, 3) все плюшки интерпретируемости линейных моделей. Плюс к этому: скорость обучения превышает метод обратного распространения ошибки в сотни и тысячи раз, PCA и NMF - это просто частные кейсы ELM, функция активации необязательно должна быть гладкой даже локально, а также вся теория линейной алгебры с её LU, QR и прочими разложениями.
В результате у тебя: 1) вместо безумной функции потерь с множеством экстремумов есть выпуклая задача оптимизации с гарантированным глобальным минимумом, 2) опубликованное доказательство того, что ELM обладает всеми свойствами глобальных аппроксиматоров, 3) все плюшки интерпретируемости линейных моделей. Плюс к этому: скорость обучения превышает метод обратного распространения ошибки в сотни и тысячи раз, PCA и NMF - это просто частные кейсы ELM, функция активации необязательно должна быть гладкой даже локально, а также вся теория линейной алгебры с её LU, QR и прочими разложениями.
Ограничился первым слоем в 300 случайных нейронов с ReLU, а дальше включал их очереди, что бы посмотреть как ELM пытается выучить картинки. Ниже алгоритм пытается нарисовать сову, Николаса Кейджа и знак супермена.