NEW BOT Телеграм, страница

Data Funk

Разные видео на YouTube, при схожем количестве просмотров, имеют разное количество лайков. Блогеры борются за наше внимание и комментарии. Но анализируя ежедневную статистику видеороликов из ленты "В тренде" можно увидеть интересную закономерность. Число лайков и комментариев у конкретного ролика со временем растут чуть быстрее чем корень от числа его просмотров. А число дизлайков растет почти линейно от числа просмотров. Это значит что отношение числа лайков к числу дизлайков для ролика почти всегда будет падать с увеличением числа просмотров (а точнее, Likes\Dislikes ~ 1/View_count^0.42). Интересные выводы можно сделать, несмотря на множество предпочтений, механизмы оценивания информации внутри нас заданы крайне жестко.

Датасет взят тут -> https://www.kaggle.com/rsrishav/youtube-trending-video-dataset

196 views10:50

Data Funk

Среди математиков, для определения их важности, в шутку используют "Число Эрдёша". Пал Эрдёш один из величайших ученых 20 века, написавший множество статей с соавторами. Те в свою очередь являются соавторами с другими, и т.д. И "Число Эрдёша" определяется как количество рукопожатий от конкретного ученого до Пала Эрдёша (для ведущих математиков оно не превышает 8). Та самая теория о шести рукопожатиях в деле. В остальных областях знаний ситуация схожая. Достаточно взглянуть на arXiv (бесплатная, открытая база научных публикаций). Там собрано почти 1.5 млн статей по более чем 170 направлениям исследований. Несмотря на то, что год за годом число авторов в каждой области растет (от тысячи до сотни тысяч авторов в различных категориях исследований, смотри одну из картинок), средняя дистанция (число рукопожатий) между авторами сначала растёт, а потом начинает падать (смотри другую картинку).

175 views15:57

Data Funk

Дело в том, что когда направление исследований только зарождается, оно основано на небольшом количестве людей и институтов, которые пишут соответствующие статьи со своими коллегами\учениками. Разрастаясь эта сеть образует граф с все увеличивающейся средней дистанцией между авторами, а когда в эту область включаются независимые друг от друга лаборатории, сеть превращается в набор небольшого числа крупных кластеров и огромного числа маленьких кластеров авторов, снижая среднее число рукопожатий между ними.

Датасет взят тут -> https://www.kaggle.com/Cornell-University/arxiv

Kaggle

arXiv Dataset

arXiv dataset and metadata of 1.7M+ scholarly papers across STEM

202 views15:59

Data Funk

Сегодня речь об индийской кухне. Чем она отличается от европейской (Continental cuisine)? Наличием множества специй - пажитник, куркума, шафран, карри, чили, тмин, кардамон, кориандр и т.д. Кроме того, типично индийское блюдо скорее всего содержит топленое масло, рис и разнообразные орехи. А десерты будут с неочищенным пальмовым сахаром. Европейская кухня - оливки, масло, дрожжи, яйца, шоколад, множество ягод, овощей и конечно злаки. Интуитивно понятные отличия одной кухни от другой подтверждаются и простой линейной регрессией на рецептах большого количества блюд собранных с популярного индийского сайта рецептов archanaskitchen.com.

Датасет взят тут -> https://www.kaggle.com/kanishk307/6000-indian-food-recipes-dataset

177 views22:20

Data Funk

Сайт Metacritic нередко обвиняют во влиянии на продажи игр\фильмов\музыкальных альбомов. Говоря о последних, можно заметить что рейтинг данный выбранными критиками какому-либо альбому будет в среднем ниже, чем рейтинг от пользователей сайта. Причем если альбом вышел в начале 2000-ых, то вероятность такого исхода была почти 0.9. С течением времени эта вероятность падала, и для альбома выпущенных в 2017-2019 была даже обратная тенденция: критики чаще давали более высокие оценки чем пользователи. Текущий 2020 год изменил ситуацию и видимо сейчас на Metacritic период релаксации - когда Probability(user score > critic score) колеблется около 0.5 в пределах погрешности. На графиках также представлены погрешности ±σ, ±2σ, ±3σ.

168 views17:39

Data Funk

Интересный вопрос в том, почему критики в среднем перестали оценивать альбомы заметно ниже по сравнению с обычными пользователями сайта. Если посмотреть на схожий график по жанрам, то можно увидеть что сильнее всего разница между критиками и пользователями (в пользу последних) проявляется на жанре Pop, Alternative Rock и Pop Rock. Популярные жанры нравились юзерам, но не критикам. Сегодня эти жанры лишь наследие 2000-ых. И то, что тогда было под жанром направлений Pop и Rock (и еще пары ключевых жанров) сегодня образовало собственные массивные течения в музыке. Это и Art Pop и Synthpop, а также Electropop, Dream Pop, тут же Indie Folk, Singer-Songwriter, Neo-Psychedelia, Post-Punk, Hip-Hop, Garage Rock и многое-многое другое. И во всех этих новых направлениях оценки критиков становятся все ближе к оценкам пользователей Metacritic.

Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings

Kaggle

Contemporary album ratings and reviews

+30.000 aggregated album ratings and reviews from different review aggregators

206 views17:40

Data Funk

Один из моих любимых ресурсов - towardsdatascience.com. Пробежавшись по статьям за 3 последних года, заметил, что в среднем статья оценивается выше (средней оценки по всем статьям) если в ней присутствуют теги programming, machine-learning, education, python, а также trading, money, finance, careers. А анти рейтинге оказались covid19, coronavirus, politics, tableau, power-bi, julia, r. Средний посетитель towardsdatascience.com изучает python и ML ради карьеры и способов заработать на своих знаниях, и ему не очень нравится читать про политику, корону, аналитические инструменты и менее популярные языки.

Датасет взят тут -> https://www.kaggle.com/alexbenzik/towards-data-science-37k-articles

197 views15:11

Data Funk

Глядя на 2020 год сквозь призму towardsdatascience.com, можно видеть что по сравнению с 2019 некоторые темы в целом умерли: svm, digital-marketing, seq2seq, tensorflow2, game-of-thrones. Другие наоборот появились: covid19, mlops, deep-r-l-explained. А статьи с такими темами как графы знаний, исследование причинности, neo4j и биология стали набирать значительно больше лайков по сравнению с 2019-ым. Если тенденция продолжится, то в 2021 году графы станут одним из основных обязательных инструментов в руках датасаентиста.

201 views16:52

Data Funk

Один из самых популярных игрушечных датасетов - diamonds. Я взял версию побольше - данные с сайта brilliantearth.com с описанием 119К бриллиантов и их цены. Она конечно зависит во многом от веса камня (price ~ carat^1.22). Происхождения камня: искусственные из лаборатории или натуральные, вторые дороже. Также от цвета. Вообще бриллианты измеряются по цветовой по шкале от D (полностью прозрачный) до Z (очень мутный). Первые конечно редкие, дорогие и мелкие (в среднем по 0.64 карата), все что весит больше карата скорее всего будет из цветовой категории I, J, и ниже (заметно мутные) и вырощенны в лаборатории. Цена на лабораторные камни подобных мутных оттенков может упасть сразу на 30%-50% за карат по сравнению с прозрачными натуральными камнями.

216 views08:07

Data Funk

Другой важный показатель - сlarity, в среднем искусственные бриллианты имеют больше заметных вкраплений, что снижает их цену. Среди десятка форм камней на brilliantearth.com самой важной оказалась Round, дешёвые лабораторные алмазы часто ограняют в круглую форму. Огранка, в зависимости от симметрии и отражающих качеств алмаза также играет важную роль при определении цены.

Датасет взят тут -> https://www.kaggle.com/miguelcorraljr/brilliant-diamonds

Kaggle

Brilliant Diamonds

Dataset of natural and lab-created diamonds

231 views08:08

Data Funk

Когда онлайн магазины пытаются подсунуть вам что-нибудь еще в корзину при покупке, то скорее всего они используют либо матричную факторизацию, либо цепи Маркова, либо ассоциативные правила. Последний алгоритм особо интересен сочетанием простоты и красоты даваемых результатов. Например, вы заказали себе cpu для нового компа, но оказывается что шансы на приобретение cpu + memory выше, чем независимое их приобретение, и поэтому онлайн магазин с удовольствием вам подсказывает что возможно вы хотите прикупить еще и memory. Это и называется ассоциативное правило. Магазины обычно их составляют очень много (миллионы) и тут с ними главное не ошибиться.

230 views21:36

Data Funk

При заказе продуктов люди часто берут что угодно + хлеб, но это не значит что если человек положил себе в корзину что-либо, ему нужно подсказать купить хлеб. Скорее всего он его купит из без нашей подсказки. Ниже по ссылке вы можете найти датасет с транзакциями 285М юзеров в одном из онлайн магазинов (на самом деле там даже несколько датасетов) за небольшие полгода его работы. По этим данным можно узнать много о поведении людей, например если вы купили слипоны, фен и мышку для ноута, то скорее всего вам понадобятся еще и шлёпки. На картинке представлено небольшое количество парных правил, стрелки показывают что вам можно порекомендовать, если вы решили взять какой-то товар.

Датасет взят тут -> https://www.kaggle.com/mkechinov/ecommerce-behavior-data-from-multi-category-store

Kaggle

eCommerce behavior data from multi category store

This dataset contains 285 million users' events from eCommerce website

281 views21:36

Data Funk

Пока не нашел интересный датасет, решил немного порисовать с помощью Extreme Learning Machine (ELM). В основе ELM лежит простая идея - берем двухслойную нейронную сеть, первый слой делаем широким, задаем рандомно и замораживаем, а второй учим как обычную линейную модель. Всё.
В результате у тебя: 1) вместо безумной функции потерь с множеством экстремумов есть выпуклая задача оптимизации с гарантированным глобальным минимумом, 2) опубликованное доказательство того, что ELM обладает всеми свойствами глобальных аппроксиматоров, 3) все плюшки интерпретируемости линейных моделей. Плюс к этому: скорость обучения превышает метод обратного распространения ошибки в сотни и тысячи раз, PCA и NMF - это просто частные кейсы ELM, функция активации необязательно должна быть гладкой даже локально, а также вся теория линейной алгебры с её LU, QR и прочими разложениями.

299 views17:35

Data Funk

Ограничился первым слоем в 300 случайных нейронов с ReLU, а дальше включал их очереди, что бы посмотреть как ELM пытается выучить картинки. Ниже алгоритм пытается нарисовать сову, Николаса Кейджа и знак супермена.

304 views17:35

About

Blog

Apps

Platform