Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
У меня назревает смена стэка, поэтому сел разгребать отложенные материалы по Power BI.

Вот тут уже затрагивал тему интеграции в него Рython-скриптов, хотя не могу сказать, что много этим пользовался.

Но вот кейс с кластерным анализом достоин упоминания. Например, вместо пиления костылей в Excel (вроде такого) можно воспользоваться Python-библиотекой PyCaret и нехитрыми манипуляциями получить готовый столбец в таблицу с данными.

Ссылка на подробное описание всех возможностей библиотеки (кластеризация - в самом начале статьи):
https://www.kdnuggets.com/2020/05/machine-learning-power-bi-pycaret.html
Антон Владимирович мне товарищ, по каким-то вопросам - наставник, а также периодически помогает с материалами для канала.

Сегодня мы всем миром поздравляем его с первой (известной нам) экспертной публикацией в блоге.

Про кубернетес аналитикам, быть может, и не особо полезно читать, но первая статья из списка круто описывает то, почему многие сейчас ковыряются в Big Data (и некоторые даже успешно).

Ссылка:
https://news.1rj.ru/str/SelectelNews/507
Давно ничего не было по dataviz’у, на этой неделе немного восстановлю справедливость.

На самом деле, я удивлён, что до сих пор ничего не репостил из блога Datawrapper (хотя и упоминал их где-то выше), они крутые.

К примеру, несколько мыслей из статьи по работе с цветами в визуализациях:
* Если появилась необходимость иметь более 7 цветов на графике - меняем его тип (а ещё лучше - группируем данные);
* Используем одинаковые цвета для переменных во всех визуализациях (это супер-очевидно, но косячки проскакивают, лучше перепроверять);
* В ту же копилку - использование интуитивно понятных цветов (красный для плохого, зеленый для хорошего и светлые оттенки для низких и тёмные для высоких значений);
* Ну и про мой «любимый» контраст - вот эта штука поможет проверить, не вытекут ли у пользователей глаза от сочетания цветов фона и текста на нём.

Еще больше советов и примеры - по ссылке:
https://blog.datawrapper.de/colors/
Еще один материал от Datawrapper, в этот раз - про более хардкорный выбор цветов для визуализаций (с тонами, насыщенностями, яркостями и всяким таким).

На первый взгляд, она больше для дизайнеров, но в этом и прелесть - можно глубже разобраться с теорией (особенно в случае, когда ты сам выбираешь цвета по принципу от балды «нравится-не нравится»).

К примеру, абсолютное большинство визуализаций, которые отмечены в статье как «BETTER», мне реально больше импонируют, чем «NOT IDEAL»-версии, теперь стало немного понятнее, почему так происходит.

А еще добрые люди озадачились эту статью перевести на русский.

Ссылка:
https://habr.com/ru/post/520812/
Небольшая статья, которая неплохо структурирует часто используемые (а также часто принимаемые друг за друга) понятия из области AI, ML, DS и иже с ними.

Очередная иллюстрация того, как схемы и яркие визуальные образы помогают лучше воспринимать текстовую информацию (ну реально же, без них было бы менее понятно).

Ссылка:
https://medium.com/swlh/a-beginners-guide-to-understanding-the-buzz-words-ai-ml-nlp-deep-learning-computer-vision-a877ee1c2cde
Big Data в России - это очень увлекательно:
- с одной стороны, на различных площадках (habr, vc, etc.) регулярно размещают истории успеха от крупных компаний;
- с другой стороны, всегда есть сложность с тем, чтобы этот успех связать с бизнес-показателями, а со средним бизнесом и вовсе не понятно примерно ничего.

Вот и опрос МТС на Хабре не может похвастаться однозначностью результатов. Со сферами применения и технологиями (они общеизвестные), а также специалистами (их не хватает) всё без откровений.

Гораздо интереснее мысль о том, что нельзя просто так взять и начать анализировать большие данные: нужна инфраструктура, инструменты, процессы, люди, способные выполнять или совмещать различные роли (все эти ETL, DBA, контроль качества данных, дата саенс, а ещё лиды, которые будут этим всем рулить и связывать с целями бизнеса).

Кажется, что пока это непосильная задача для не обладающих большими ресурсами и выживающих во вторую волну пандемии. Тем интереснее будет посмотреть в 2021 году, сможет ли кто-то предложить готовое решение по цене, которую бизнес (естественно, ничего не внедривший до этого) будет готов заплатить.

🔗 Ссылка
Оказалось (ну или может я не особо внимателен к анонсам), что 25% докладов стартующей сегодня конференции Матемаркетинг можно будет бесплатно посмотреть на главной странице мероприятия (даже похоже, что без регистрации и смс). Старт через 10 минут.

Прикол в том, что доклады будут рандомно выбираться из списка одновременно идущих, что не позволит «сходить» на все интересующие. С другой стороны, халява есть халява.

🔗 Ссылка
Сегодня (наконец) пятница, поэтому позволю себе немного вольностей.

Когда-нибудь, когда я вырасту и стану большим и взрослым, я тоже сделаю свой канал, где будут вперемешку мемы и полезные ссылки.

Пока я этого не сделал (кого я обманываю, мне неоткуда взять столько картинок) - можно пользоваться уже существующим.

🔗 Ссылка
На этой неделе закончил проходить симулятор (реально язык не поворачивается назвать его курсом) GoPractice.

Известен он тем, что много где его котируют или даже засчитывают как 1 успешно решенный кейс по запуску нового продукта (почитать можно тут, тут или в гугле).

Из плюсов:
- есть сюжет (это не шутка), который обеспечивает более глубокое погружение в изучаемый предмет;
- офигенная структура подачи материала: небольшими порциями с мгновенной проверкой знаний;
- асинхронность: можно самостоятельно выбирать, когда проходить (для кого-то может стать минусом, все зависит от степени самоорганизованности).
- получение опыта работы в системе аналитики Amplitude, создания модели продукта и дизайна экспериментов (и еще много чего, эти 3 были наиболее интересными для меня).

Из минусов:
- курс 2016 года и некоторые примеры выглядят устаревшими (на освоение материала это не влияет);
- данные в Amplitude тоже от 2016 года и для всех практических заданий приходится с болью продираться через их окошко выбора даты;
- очевидность некоторых вопросов оставляет желать лучшего: отвечаешь на вопрос, как ты его понял, а правильные ответы совсем в другой стороне (иногда аж пригорает).

Неплохой отзыв (более подробно и со скриншотами) есть на vc.

В сухом остатке: даже несмотря на минусы, впечатление после прохождения у меня осталось сугубо положительное (ну еще бы, там хэппи-энд). Не зря же его считают must have для продактов и продуктовых аналитиков.

🔗 Ссылка

#учебное
Еще одна статья для тех, кто желает меньше грешить при создании визуализаций.

Ключевой совет - выделять ту информацию, которую вы хотите донести до конечной аудитории и делать менее заметной вспомогательную.

По пунктам:
- яркие цвета - для того, что действительно имеет значение;
- всю дополнительную информацию делаем менее заметной, автор предлагает серую гамму;
- для важной информации на графиках используем более широкие линии (как на примере);
- избегаем отдельных плашек с легендой, подписывая элементы визуализаций напрямую;
- и самый топ - добавлять ключевые выводы и идеи в заголовок (да, прямо вместо названия).

Кажется, что такой подход может быть неприменим для комплексных отчетов, но вот для доказательной аналитики и презентаций проявит себя лучше, чем просто диаграмма с текстовыми пояснениями.

🔗Ссылка
Если возвращаться к GoPractice, то у ребят в блоге можно найти много полезностей по продуктовым метрикам и кейсам роста (в общем, по той же направленности, что и сам симулятор).

Чего я совсем не ожидал там найти - это подробного описания грейдов аналитиков данных (особенно в понимании Яндекс.Такси). Тем не менее, данная классификация наиболее близка мне из всех ранее найденных на просторах интернета.

Почему так:
- Дано ёмкое определение роли аналитика, как человека, помогающего принимать решения на основании данных и искать точки роста бизнеса (в не в чиселках, экселях и коде копаться).
- Есть очень близкая мне мысль про 2 ветки развития: в супер-специалиста или в менеджера. У меня сложилось ощущение, что первый путь часто незаслуженно упускается из вида ("вон пацан давно уже мидл, справляется с задачами, он и будет тимлидом"), причем как со стороны работодателей, так и работников.
- Кажется логичным распределение навыков по грейдам (конечно, столько грейдов кроме Яндекса в России может себе позволить небольшое количество компаний, но все-таки).
- Есть понятная сравнительная табличка, которые я обожаю трепетной любовью.

Меня немного смущает фокусировка базовых навыков на hard-skill, но тут всё будет сильно зависеть от компании, так что опустим пространные рассуждения.

🔗 Ссылка
Недавно прослушанная лекция по эффективной благотворительности заставила меня задуматься о глобальных проблемах, которые в цикле дом-работа-etc теряются из вида.

Сразу в голове всплыл проект Our World in Data, исследовательское сообщество на базе Оксфордского университета, в котором проводятся исследования проблем в области здравоохранения, прогресса, образования, общественных институтов и всего такого.

Для аналитиков - это дополнительная возможность посмотреть, какие источники, инструменты и визуализации используют авторы.

Немного фактов:
- кто-то задумался о глобальной метрике состояния мира (подробнее тут).
- в 2017 году, количество мобильных телефонов на 100 человек в России превышало средние показатели Европе и США (вот это поворот);
- среднее количество детей на женщину в России - 1,7 (с 2000 это самое высокое число, тренд восходящий), сравнимо с Европой и США;
- примерно 14% населения земли в 2014 году не умели писать (жесть!), а Россия - в числе мировых лидеров по грамотности населения.

🔗 Ссылка
Пропусти я такую новость - плакал бы потом горькими слезами.

Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).

Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).

🔗 Ссылка
Конец года - это всегда золотое время для любителей почитать прогнозы развития технологий и рыночные тренды. Вот и Tadviser обновил свою статью про тенденции рынка BI.

Нельзя сказать, что в ней есть какие-то откровения (ну естественно, там все утыкано Big Data, ML, AI, облаками), но несколько интересных мыслей я для себя отметил:
- кажется, я впервые встречаю формулировку "BI-плато" под которой скрывается недостаток компетенций у сотрудников, не позволяющий использовать все функциональные возможности BI-инструментов и извлекать пользу из данных;
- и это, как раз одна из причин, почему self-service не так уж и активно взлетает (только если регулярно и сильно пинать);
- DWH и ETL скорее open source, а сами BI решения чаще вендорские (наверное, это очевидно, но я в таком ключе не думал);
- а еще вот тут говорят, что импортозамещение работает.

🔗 Ссылка на саму статью

#анализ_рынка
Уже неделю всей редакцией (сам с собой, ага) кайфую с энциклопедической статьи про базы данных. Если бы сейчас кто-то попросил скинуть материалы для погружения в тему - поставил бы на первое место без колебаний.

Тут и схемы, и графики, и топы, и написано по делу (и даже нет привычного срача в комментах).

Немного про статистику и тренды:
- реляционные БД все еще сила, занимают почти 75% рынка;
- open source и тут растет и, кажется, скоро начнет побеждать;
- облачные БД тоже растут, но до победы еще ой как далеко;
- подробнее про популярность различных БД тут.

🔗 Ссылка на статью

#базы_данных #анализ_рынка
Закончить этот уникальный год иначе, чем мемом у меня рука не поднимается (не будем о грустном).

Пусть в новом году у вас будет как можно больше понятных (без шуток) выводов!
Многие уже привыкли к тому, что грани профессий data analyst и data scientist все больше размываются (ну или как минимум к холиварам по этому поводу).

Мне, к примеру, импонирует следующая позиция: аналитик скорее ищет ответы на вопросы (или решение проблемы), а саентист находит тренды и сами вопросы, которые стоит задавать. Естественно, это упрощение, подробнее можно посмотреть тут.

Теперь в эту компанию врывается еще и data manager, который начинает отвечать за извлечение, обработку, хранение, качество данных. То есть становится своеобразным поставщиком информации для исследований scientist'а.

Идея, безусловно, не нова, специализация часто помогает решать все более сложные задачи. Другой вопрос - как бизнесу дальше разбираться в зоопарке ролей вокруг анализа данных (есть же ещё data engineer, BI developer, DBA, etc.). В веселое время живём!

Также в статье есть руководство как быть data manager консультантом в неизвестной предметной области. Выглядит как идея для стартапа, если эта мода доберется до наших краёв (пока, правда, не очень похоже, что это так). К примеру, на том же hh сейчас мизерное количество релевантных вакансий.

🔗 Ссылка на статью
Пропустил этот доклад на Матемаркетинге, а зря, отличный пример того, как можно простым языком рассказывать про инфраструктуру для аналитики (тем более облачную).

В последнее время все больше стимулов попробовать Redash (ну и на @leftjoin подписаться, если еще не).
Какой он - современный облачный data-стек?

Николай Валиотти ( @leftjoin) объясняет подход к проектированию аналитической инфраструктуры, обосновывает использование Clickhouse при построении облачной аналитики и рассказывает о его же нюансах и говорит про Redash с точки зрения инструмента для визуализации.

Смотреть видео - YouTube, ~20 минут

@internetanalytics
Видимо у меня вошло в привычку знакомить всех с блогами, на которые я подписан.

Вот этот топ-15 визуализаций за 2020 понравился мне больше, чем топ-10 от towards data science. Видимо, для меня музыка + цветные карты куда привлекательнее баскетбола и гос. долга США (и действительно).

P.S. СOVID, без сомнений, присутствует в обеих подборках, куда без него.
Собрала для блога “Больше, чем данные” свой личный топ датавиза за 2020. Там разное, но конечно же любимые The Pudding, Nadieh Bremer и Nathan Yau ❤️

https://b4d.media/15-daraviz/