NEW BOT Телеграм, страница

Data Funk

Сайт Metacritic нередко обвиняют во влиянии на продажи игр\фильмов\музыкальных альбомов. Говоря о последних, можно заметить что рейтинг данный выбранными критиками какому-либо альбому будет в среднем ниже, чем рейтинг от пользователей сайта. Причем если альбом вышел в начале 2000-ых, то вероятность такого исхода была почти 0.9. С течением времени эта вероятность падала, и для альбома выпущенных в 2017-2019 была даже обратная тенденция: критики чаще давали более высокие оценки чем пользователи. Текущий 2020 год изменил ситуацию и видимо сейчас на Metacritic период релаксации - когда Probability(user score > critic score) колеблется около 0.5 в пределах погрешности. На графиках также представлены погрешности ±σ, ±2σ, ±3σ.

168 views17:39

Data Funk

Интересный вопрос в том, почему критики в среднем перестали оценивать альбомы заметно ниже по сравнению с обычными пользователями сайта. Если посмотреть на схожий график по жанрам, то можно увидеть что сильнее всего разница между критиками и пользователями (в пользу последних) проявляется на жанре Pop, Alternative Rock и Pop Rock. Популярные жанры нравились юзерам, но не критикам. Сегодня эти жанры лишь наследие 2000-ых. И то, что тогда было под жанром направлений Pop и Rock (и еще пары ключевых жанров) сегодня образовало собственные массивные течения в музыке. Это и Art Pop и Synthpop, а также Electropop, Dream Pop, тут же Indie Folk, Singer-Songwriter, Neo-Psychedelia, Post-Punk, Hip-Hop, Garage Rock и многое-многое другое. И во всех этих новых направлениях оценки критиков становятся все ближе к оценкам пользователей Metacritic.

Датасет взят тут -> https://www.kaggle.com/kauvinlucas/30000-albums-aggregated-review-ratings

Kaggle

Contemporary album ratings and reviews

+30.000 aggregated album ratings and reviews from different review aggregators

206 views17:40

Data Funk

Один из моих любимых ресурсов - towardsdatascience.com. Пробежавшись по статьям за 3 последних года, заметил, что в среднем статья оценивается выше (средней оценки по всем статьям) если в ней присутствуют теги programming, machine-learning, education, python, а также trading, money, finance, careers. А анти рейтинге оказались covid19, coronavirus, politics, tableau, power-bi, julia, r. Средний посетитель towardsdatascience.com изучает python и ML ради карьеры и способов заработать на своих знаниях, и ему не очень нравится читать про политику, корону, аналитические инструменты и менее популярные языки.

Датасет взят тут -> https://www.kaggle.com/alexbenzik/towards-data-science-37k-articles

197 views15:11

Data Funk

Глядя на 2020 год сквозь призму towardsdatascience.com, можно видеть что по сравнению с 2019 некоторые темы в целом умерли: svm, digital-marketing, seq2seq, tensorflow2, game-of-thrones. Другие наоборот появились: covid19, mlops, deep-r-l-explained. А статьи с такими темами как графы знаний, исследование причинности, neo4j и биология стали набирать значительно больше лайков по сравнению с 2019-ым. Если тенденция продолжится, то в 2021 году графы станут одним из основных обязательных инструментов в руках датасаентиста.

201 views16:52

Data Funk

Один из самых популярных игрушечных датасетов - diamonds. Я взял версию побольше - данные с сайта brilliantearth.com с описанием 119К бриллиантов и их цены. Она конечно зависит во многом от веса камня (price ~ carat^1.22). Происхождения камня: искусственные из лаборатории или натуральные, вторые дороже. Также от цвета. Вообще бриллианты измеряются по цветовой по шкале от D (полностью прозрачный) до Z (очень мутный). Первые конечно редкие, дорогие и мелкие (в среднем по 0.64 карата), все что весит больше карата скорее всего будет из цветовой категории I, J, и ниже (заметно мутные) и вырощенны в лаборатории. Цена на лабораторные камни подобных мутных оттенков может упасть сразу на 30%-50% за карат по сравнению с прозрачными натуральными камнями.

216 views08:07

Data Funk

Другой важный показатель - сlarity, в среднем искусственные бриллианты имеют больше заметных вкраплений, что снижает их цену. Среди десятка форм камней на brilliantearth.com самой важной оказалась Round, дешёвые лабораторные алмазы часто ограняют в круглую форму. Огранка, в зависимости от симметрии и отражающих качеств алмаза также играет важную роль при определении цены.

Датасет взят тут -> https://www.kaggle.com/miguelcorraljr/brilliant-diamonds

Kaggle

Brilliant Diamonds

Dataset of natural and lab-created diamonds

231 views08:08

Data Funk

Когда онлайн магазины пытаются подсунуть вам что-нибудь еще в корзину при покупке, то скорее всего они используют либо матричную факторизацию, либо цепи Маркова, либо ассоциативные правила. Последний алгоритм особо интересен сочетанием простоты и красоты даваемых результатов. Например, вы заказали себе cpu для нового компа, но оказывается что шансы на приобретение cpu + memory выше, чем независимое их приобретение, и поэтому онлайн магазин с удовольствием вам подсказывает что возможно вы хотите прикупить еще и memory. Это и называется ассоциативное правило. Магазины обычно их составляют очень много (миллионы) и тут с ними главное не ошибиться.

230 views21:36

Data Funk

При заказе продуктов люди часто берут что угодно + хлеб, но это не значит что если человек положил себе в корзину что-либо, ему нужно подсказать купить хлеб. Скорее всего он его купит из без нашей подсказки. Ниже по ссылке вы можете найти датасет с транзакциями 285М юзеров в одном из онлайн магазинов (на самом деле там даже несколько датасетов) за небольшие полгода его работы. По этим данным можно узнать много о поведении людей, например если вы купили слипоны, фен и мышку для ноута, то скорее всего вам понадобятся еще и шлёпки. На картинке представлено небольшое количество парных правил, стрелки показывают что вам можно порекомендовать, если вы решили взять какой-то товар.

Датасет взят тут -> https://www.kaggle.com/mkechinov/ecommerce-behavior-data-from-multi-category-store

Kaggle

eCommerce behavior data from multi category store

This dataset contains 285 million users' events from eCommerce website

281 views21:36

Data Funk

Пока не нашел интересный датасет, решил немного порисовать с помощью Extreme Learning Machine (ELM). В основе ELM лежит простая идея - берем двухслойную нейронную сеть, первый слой делаем широким, задаем рандомно и замораживаем, а второй учим как обычную линейную модель. Всё.
В результате у тебя: 1) вместо безумной функции потерь с множеством экстремумов есть выпуклая задача оптимизации с гарантированным глобальным минимумом, 2) опубликованное доказательство того, что ELM обладает всеми свойствами глобальных аппроксиматоров, 3) все плюшки интерпретируемости линейных моделей. Плюс к этому: скорость обучения превышает метод обратного распространения ошибки в сотни и тысячи раз, PCA и NMF - это просто частные кейсы ELM, функция активации необязательно должна быть гладкой даже локально, а также вся теория линейной алгебры с её LU, QR и прочими разложениями.

299 views17:35

Data Funk

Ограничился первым слоем в 300 случайных нейронов с ReLU, а дальше включал их очереди, что бы посмотреть как ELM пытается выучить картинки. Ниже алгоритм пытается нарисовать сову, Николаса Кейджа и знак супермена.

304 views17:35

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

399 views17:35

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

1.37K views17:35

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

336 views17:35

Data Funk

228 views16:17

Data Funk

Наткнулся на 1.5Gb датасет русскоязычных текстов для задачи классификации детская/взрослая литература. Там же приложена статья авторов с архива, где они пишут - "We also found that some features used to determine text difficulty positively affect the quality of age-based classification". Часто оценка сложности чтения текста представляет собой линейную комбинацию различных статистик текста и их отношений (среднее число слогов в слове, среднее число слов в предложении и т.д.) Почему бы не сделать еще один индекс удобочитаемости просто как классификатор детской/взрослой литературы? Без эмбедингов и только линейная модель. Я использовал spaCy (c модулем русского языка ru_core_news_lg). Оказалось достаточно пометить какие из токенов в предложении являются стоп-словам (is_stop), пунктуацией (is_punct), словами с заглавной буквой (is_noscript), посчитать долю глухих согласных от длины слова (prop. of voiceless cons. in a word), количество и долю гласных в слове (count/prop. of vowels in a word), количество звонких согласных в слове (count of voiced cons. in a word).

267 views16:17

About

Blog

Apps

Platform