Начал рисовать картинки по другим категориям\типам товаров, и нарисовал их сотни. Вот немного из этой кучи.
Каждый год площадка kaggle проводит опрос своих пользователей - Kaggle Data Science Survey. Результаты доступны и там можно узнать много интересного об участниках самой популярной платформы и взглянуть на срез сообщества Data Science в текущем году. Например, на вопросе "Используете ли Вы JupyterHub на постоянной основе?" заметно выделяется Индия. Их конечно и так больше, чем участников из любых других стран (почти 30% всех пользователей kaggle), но они еще и чаще других используют JupyterHub - почти каждый десятый. Россиян на платформе чуть менее 3%, и по популярности JupyterHub (у нас его используют только 4.7%) мы на уровне Бангладеша и Канады.
Датасет взят тут -> https://www.kaggle.com/andradaolteanu/kaggle-data-science-survey-20172021
Датасет взят тут -> https://www.kaggle.com/andradaolteanu/kaggle-data-science-survey-20172021
Другая интересная особенность - лаптопы (в качестве платформы для вычислений) заметно чаще используют в азиатских странах (кроме Китая и Японии), странах африки, ближнего востока и в той же Индии. А вот Турция ровно как географически находится между Европой и Азией, так и по популярности лаптопов остается посередине. В России лаптопы используют 47% участников кагл, 34% предпочитают десктоп машины, а остальные считают в облаках (или на рабочих серверах).
Как меняется предпочитаемый набор инструментов в ML в зависимости от опыта? Ну с разными инструментами по-разному. Xgboost любим почти всеми одинаково, а предпочтение к LightGBM увеличивается с набранными годами опыта в сфере data science (и все равно LightGBM проигрывает Xgboost-у почти в 2 раза). С Scikit-learn все ровно наоборот - его использует почти каждый третий с опытом в ML меньше 1 года, а если опыт на текущий момент составляет 10-20 лет, то только каждый пятый. TensorFlow хоть немного и опережает по популярности PyTorch, но первый предпочитают разработчики с опытом 1-2 года, а второй 3-4 года - у NN фреймворков весьма юная фан-база. Отдельно про инфрастуктуру R: на фоне роста популярности питона в последнее время сложилась ожидаемая картина - вероятность использования Caret и Tidymodels тем выше, чем старше ML специалист.
На kaggle девушек примерно 20% и по опросу Kaggle Data Science Survey можно заметить что они в 1.8 раза реже парней используют NVIDIA GPUs и почти в 2 раза реже плотные сетки. При этом по использованию Oracle Cloud девушки опережают парней в те же 1.8 раза. Несмотря на численный перевес в сторону мужчин, женская часть кагл активно растет: среди парней студентами являются 25%, а из девушек 33%.