Начал рисовать картинки по другим категориям\типам товаров, и нарисовал их сотни. Вот немного из этой кучи.
Каждый год площадка kaggle проводит опрос своих пользователей - Kaggle Data Science Survey. Результаты доступны и там можно узнать много интересного об участниках самой популярной платформы и взглянуть на срез сообщества Data Science в текущем году. Например, на вопросе "Используете ли Вы JupyterHub на постоянной основе?" заметно выделяется Индия. Их конечно и так больше, чем участников из любых других стран (почти 30% всех пользователей kaggle), но они еще и чаще других используют JupyterHub - почти каждый десятый. Россиян на платформе чуть менее 3%, и по популярности JupyterHub (у нас его используют только 4.7%) мы на уровне Бангладеша и Канады.
Датасет взят тут -> https://www.kaggle.com/andradaolteanu/kaggle-data-science-survey-20172021
Датасет взят тут -> https://www.kaggle.com/andradaolteanu/kaggle-data-science-survey-20172021
Другая интересная особенность - лаптопы (в качестве платформы для вычислений) заметно чаще используют в азиатских странах (кроме Китая и Японии), странах африки, ближнего востока и в той же Индии. А вот Турция ровно как географически находится между Европой и Азией, так и по популярности лаптопов остается посередине. В России лаптопы используют 47% участников кагл, 34% предпочитают десктоп машины, а остальные считают в облаках (или на рабочих серверах).
Как меняется предпочитаемый набор инструментов в ML в зависимости от опыта? Ну с разными инструментами по-разному. Xgboost любим почти всеми одинаково, а предпочтение к LightGBM увеличивается с набранными годами опыта в сфере data science (и все равно LightGBM проигрывает Xgboost-у почти в 2 раза). С Scikit-learn все ровно наоборот - его использует почти каждый третий с опытом в ML меньше 1 года, а если опыт на текущий момент составляет 10-20 лет, то только каждый пятый. TensorFlow хоть немного и опережает по популярности PyTorch, но первый предпочитают разработчики с опытом 1-2 года, а второй 3-4 года - у NN фреймворков весьма юная фан-база. Отдельно про инфрастуктуру R: на фоне роста популярности питона в последнее время сложилась ожидаемая картина - вероятность использования Caret и Tidymodels тем выше, чем старше ML специалист.
На kaggle девушек примерно 20% и по опросу Kaggle Data Science Survey можно заметить что они в 1.8 раза реже парней используют NVIDIA GPUs и почти в 2 раза реже плотные сетки. При этом по использованию Oracle Cloud девушки опережают парней в те же 1.8 раза. Несмотря на численный перевес в сторону мужчин, женская часть кагл активно растет: среди парней студентами являются 25%, а из девушек 33%.
Время от времени прилетает просьба накидать вакансию на позицию джуна\мидла\сеньера в ds и всегда встает вопрос - какие критерии определяют соответсвующий уровень. На кагле появился датасет IT вакансий с HH.ru и я первым делом полез смотреть чем статистически один level отличается от другого. К сожалению конторы чаще пишут просто data science без указания уровня. Но при этом ожидаемый опыт указан всегда. Посмотрел чем отличаются требования на позиции с ожидаемым DS опытом менее и более 3 лет.
И так, если от Вас ожидают experience 3 и более лет (условно позиция middle+\senior) в data science\machine learning, то самым важным фактором будет знание докеров, ооп и мат. анализа., pytorch, tensorflow, airflow, c++ и конкретные базы вроде postgresql\clickhouse\hadoop. Кроме того, сюда добавляются: управление проектами, английский язык и работа в команде. А если ожидаемый experience менее 3 лет (условно позиция junior\middle-), то ключевыми навыками будут spark (много вакансий от сбера и вк с требованием spark), r, matplotlib, opencv, sql, базы данных, теор.вер., scikit-learn, numpy, linux. Кажется джунов ищут по принципам - знает базовые вещи, вроде linux и стандартных библиотек питона\R что бы покрутить таблички и визуализировать результат + умеет в теорию вероятностей и имеет представление о работе с любыми базами.
Датасет взят тут -> https://www.kaggle.com/vyacheslavpanteleev1/hhru-it-vacancies-from-20211025-to-20211202
Датасет взят тут -> https://www.kaggle.com/vyacheslavpanteleev1/hhru-it-vacancies-from-20211025-to-20211202
Решил сделать похожую штуку для продуктовых/web/marketing аналитиков. Но профессия аналитик довольно размыта, поэтому почистил список от 1С, business и system версий вакансий. И даже в нечетких границах определения удается сформировать ключевые требования для людей с опытом 3 и более лет. Это в первую очередь инструменты pandas, jira, power bi, знание различных видов анализа, информационной безопасности и управления проектами, а также грамотность и грамотная речь (умение хорошо говорить - жирный плюс к скиллам аналитика). А для позиций с опытом менее 3 лет ожидают аналитический склад ума🤦♂️, умение сводить таблички в excel, crm, google tag manager + яндекс.метрика, мат.статистика и заманивают работой с большим объемом информации. Если кто-то из Ваших знакомых хочет ворваться в IT джуном аналитиком и думает какие курсы пройти, скажите что можно вообще ничего не изучать. На hh есть вакансии аналитиков где один из ключевых навыков - пользователь пк! Доступная профессия!🦾
Для не персональных рекомендаций часто используют такую метрику ассоциаций как lift, которая показывает во сколько раз шанс приобрести два товара вместе выше шансов взять их не зависимо друг от друга. Используя датасет фильмов и просмотров KION между любой парой фильмов можно оценить lift и представить все это в виде графа. Я использовал InfoMap кластеризацию, что бы выделить информативные участки (InfoMap, в отличии от других классических алгоритмов графовой кластеризации не пытается увеличить модулярность, он случайно шагает по вершинам и старается передать нам как можно меньше информации о своем пути, то есть, если половину всего времени мы двигаемся через одну ноду, то достаточно для нее передать 1 бит информации, а не популярные вершины будут закодированы самыми длинными сообщениями, и если мы попали в плотный кластер, то можно под него выделить отдельный словарь и еще сильнее сжать информацию).
InfoMap собрал фильмы в кластера, и самым большим оказался набор популярных мировых фильмов (Мстители, Зверополис, Ford против Ferrari и т.д.), во втором чаще встречаются новые (после 2019 года) российские фильмы и сериалы (Холоп, Содержанки, Последний богатырь и т.д.), в третьем менее популярные, чем в первом кластере, криминальные картины (Гнев человеческий, Острые козырьки и т.д.). В четвертом кластере собрались российские мелодрамы, а в пятом фильмы про войну. Интересно что, военные и криминальные картины расположились рядом, а российские сериалы и новые фильмы рядом с российскими мелодрамами. Исходный граф не влез красиво в картинку, пришлось рисовать только его плотные кластера.
Датасет взят тут -> https://www.kaggle.com/asenin/kion-dataset
Датасет взят тут -> https://www.kaggle.com/asenin/kion-dataset
👍2