Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
Нашёл забавный симулятор работы продуктового аналитика/продакта:
- приоритезируем гипотезы;
- смотрим на результаты A/B тестирования;
- оцениваем влияние на продажи;
- релизим, либо не релизим.

Вроде бы простенько, но каждая сессия - новая увлекательная борьба за показатели бизнеса, мне нравится.

Ссылка:
https://www.lukasvermeer.nl/confidence/
Про метод документирования знаний Zettelkasten действительно уже есть ряд популярных статей (на Хабре - в том числе). Но тут меня пленил не он сам, а реализация в Notion, реально мотивирует попробовать самому.

Ссылка:
https://habr.com/ru/post/509756/
Сегодняшний пост, чуть более, чем полностью, обязан своим существованием Алексею Макарову и его замечательному каналу @datalytx.

Я никогда не занимался всерьёз продвижением своего канала и особенно приятно, что он попал в подборку без моего прямого запроса (стоит отметить, что я хотел написать автору, но постеснялся). Пользуясь случаем, хочу поприветствовать новоприбывших из его канала, постараюсь быть полезным.

Триумфальное возвращение стоило бы посвятить, как обычно, аналитике, но я позволю себе авторский пост.

За месяц молчания я реально ощутил на себе всю значимость повторяющихся ритуалов. Двухнедельный отпуск без адекватного интернета стал причиной поломки двух привычек, которые я прививал себе последний год: ежедневное чтение и еженедельное написание 1-2 постов в канал.

Если на восстановление чтения потребовалось 2 недели, то этот пост я еле-еле родил за месяц. Плюс, есть и внешние причины, но об этом позднее.

С точки зрения профессионального развития, для меня это очередное подтверждение того факта, что для любой +- аналитической (ну и менеджерской, естественно) профессии требуется особо рьяное отношение к личной эффективности и дисциплине.

Из последнего чтива в этом направлении можно ознакомиться с "Джедайскими техниками" Дорофеева, который, по сути, написал реферат по большинству популярных методов достижения личной эффективности. Это не панацея, но можно подобрать что-то подходящее для дальнейшего изучения.
Сегодня у нас подборка из 11 (да, URL ниже привирает) бесплатных инструментов для быстрой визуализации.

Ну реально же иногда есть готовый набор данных и нужна просто нормальная визуализация, а не эти наши "excel-графики". Не тащить же ради этого все в BI, в самом деле.
Я как-то использовал Data Wrapper именно по причине простоты и скорости работы (но это на небольших объемах данных).

В большинстве сервисов данные просто загружаются копипастой или табличным файлом, а дальше начинаем играться типом и форматом диаграмм.

Что удобно в статье - для каждого инструмента есть gif-ка с примером использования.

Ссылка:
https://towardsdatascience.com/10-free-tools-to-instantly-get-started-with-data-visualisation-d7fadb5f6dce
Каждый раз, когда я сталкиваюсь с какими-то хайповыми вещами, замечаю, что они вызывают неоднозначные чувства, некую смесь интереса с недоверием. Поэтому они часто лежат где-то вдали на полочке, пока руки не дойдут, хайп не спадет или до никогда.

Такая же история была бы с Machine Learning, но так вышло, что уже 3 недели подряд я слышу это словосочетание раз по 5 в день и терпеть больше не смог. Конкретно с этим кейсом разобрался с помощью статьи с разбором ограничений машинного обучения от ребят из Selectel.

С ML для меня проблема в том, что оно, как-будто, воспринимается и позиционируется как панацея, типа "ща ядер и памяти докинем и все вопросики порешаем".

Безусловно, есть разумное, доброе и вечное применение машинного обучения для решения боевых задач бизнеса, науки и создания дипфейков с Друзями. Ну и до потолка по технологиям ещё (вроде) далеко. Просто хотелось бы не забывать про то, что у всего есть свои границы применения и ограничения.

Ссылка:
https://habr.com/ru/post/518062/
У меня назревает смена стэка, поэтому сел разгребать отложенные материалы по Power BI.

Вот тут уже затрагивал тему интеграции в него Рython-скриптов, хотя не могу сказать, что много этим пользовался.

Но вот кейс с кластерным анализом достоин упоминания. Например, вместо пиления костылей в Excel (вроде такого) можно воспользоваться Python-библиотекой PyCaret и нехитрыми манипуляциями получить готовый столбец в таблицу с данными.

Ссылка на подробное описание всех возможностей библиотеки (кластеризация - в самом начале статьи):
https://www.kdnuggets.com/2020/05/machine-learning-power-bi-pycaret.html
Антон Владимирович мне товарищ, по каким-то вопросам - наставник, а также периодически помогает с материалами для канала.

Сегодня мы всем миром поздравляем его с первой (известной нам) экспертной публикацией в блоге.

Про кубернетес аналитикам, быть может, и не особо полезно читать, но первая статья из списка круто описывает то, почему многие сейчас ковыряются в Big Data (и некоторые даже успешно).

Ссылка:
https://news.1rj.ru/str/SelectelNews/507
Давно ничего не было по dataviz’у, на этой неделе немного восстановлю справедливость.

На самом деле, я удивлён, что до сих пор ничего не репостил из блога Datawrapper (хотя и упоминал их где-то выше), они крутые.

К примеру, несколько мыслей из статьи по работе с цветами в визуализациях:
* Если появилась необходимость иметь более 7 цветов на графике - меняем его тип (а ещё лучше - группируем данные);
* Используем одинаковые цвета для переменных во всех визуализациях (это супер-очевидно, но косячки проскакивают, лучше перепроверять);
* В ту же копилку - использование интуитивно понятных цветов (красный для плохого, зеленый для хорошего и светлые оттенки для низких и тёмные для высоких значений);
* Ну и про мой «любимый» контраст - вот эта штука поможет проверить, не вытекут ли у пользователей глаза от сочетания цветов фона и текста на нём.

Еще больше советов и примеры - по ссылке:
https://blog.datawrapper.de/colors/
Еще один материал от Datawrapper, в этот раз - про более хардкорный выбор цветов для визуализаций (с тонами, насыщенностями, яркостями и всяким таким).

На первый взгляд, она больше для дизайнеров, но в этом и прелесть - можно глубже разобраться с теорией (особенно в случае, когда ты сам выбираешь цвета по принципу от балды «нравится-не нравится»).

К примеру, абсолютное большинство визуализаций, которые отмечены в статье как «BETTER», мне реально больше импонируют, чем «NOT IDEAL»-версии, теперь стало немного понятнее, почему так происходит.

А еще добрые люди озадачились эту статью перевести на русский.

Ссылка:
https://habr.com/ru/post/520812/
Небольшая статья, которая неплохо структурирует часто используемые (а также часто принимаемые друг за друга) понятия из области AI, ML, DS и иже с ними.

Очередная иллюстрация того, как схемы и яркие визуальные образы помогают лучше воспринимать текстовую информацию (ну реально же, без них было бы менее понятно).

Ссылка:
https://medium.com/swlh/a-beginners-guide-to-understanding-the-buzz-words-ai-ml-nlp-deep-learning-computer-vision-a877ee1c2cde
Big Data в России - это очень увлекательно:
- с одной стороны, на различных площадках (habr, vc, etc.) регулярно размещают истории успеха от крупных компаний;
- с другой стороны, всегда есть сложность с тем, чтобы этот успех связать с бизнес-показателями, а со средним бизнесом и вовсе не понятно примерно ничего.

Вот и опрос МТС на Хабре не может похвастаться однозначностью результатов. Со сферами применения и технологиями (они общеизвестные), а также специалистами (их не хватает) всё без откровений.

Гораздо интереснее мысль о том, что нельзя просто так взять и начать анализировать большие данные: нужна инфраструктура, инструменты, процессы, люди, способные выполнять или совмещать различные роли (все эти ETL, DBA, контроль качества данных, дата саенс, а ещё лиды, которые будут этим всем рулить и связывать с целями бизнеса).

Кажется, что пока это непосильная задача для не обладающих большими ресурсами и выживающих во вторую волну пандемии. Тем интереснее будет посмотреть в 2021 году, сможет ли кто-то предложить готовое решение по цене, которую бизнес (естественно, ничего не внедривший до этого) будет готов заплатить.

🔗 Ссылка
Оказалось (ну или может я не особо внимателен к анонсам), что 25% докладов стартующей сегодня конференции Матемаркетинг можно будет бесплатно посмотреть на главной странице мероприятия (даже похоже, что без регистрации и смс). Старт через 10 минут.

Прикол в том, что доклады будут рандомно выбираться из списка одновременно идущих, что не позволит «сходить» на все интересующие. С другой стороны, халява есть халява.

🔗 Ссылка
Сегодня (наконец) пятница, поэтому позволю себе немного вольностей.

Когда-нибудь, когда я вырасту и стану большим и взрослым, я тоже сделаю свой канал, где будут вперемешку мемы и полезные ссылки.

Пока я этого не сделал (кого я обманываю, мне неоткуда взять столько картинок) - можно пользоваться уже существующим.

🔗 Ссылка
На этой неделе закончил проходить симулятор (реально язык не поворачивается назвать его курсом) GoPractice.

Известен он тем, что много где его котируют или даже засчитывают как 1 успешно решенный кейс по запуску нового продукта (почитать можно тут, тут или в гугле).

Из плюсов:
- есть сюжет (это не шутка), который обеспечивает более глубокое погружение в изучаемый предмет;
- офигенная структура подачи материала: небольшими порциями с мгновенной проверкой знаний;
- асинхронность: можно самостоятельно выбирать, когда проходить (для кого-то может стать минусом, все зависит от степени самоорганизованности).
- получение опыта работы в системе аналитики Amplitude, создания модели продукта и дизайна экспериментов (и еще много чего, эти 3 были наиболее интересными для меня).

Из минусов:
- курс 2016 года и некоторые примеры выглядят устаревшими (на освоение материала это не влияет);
- данные в Amplitude тоже от 2016 года и для всех практических заданий приходится с болью продираться через их окошко выбора даты;
- очевидность некоторых вопросов оставляет желать лучшего: отвечаешь на вопрос, как ты его понял, а правильные ответы совсем в другой стороне (иногда аж пригорает).

Неплохой отзыв (более подробно и со скриншотами) есть на vc.

В сухом остатке: даже несмотря на минусы, впечатление после прохождения у меня осталось сугубо положительное (ну еще бы, там хэппи-энд). Не зря же его считают must have для продактов и продуктовых аналитиков.

🔗 Ссылка

#учебное
Еще одна статья для тех, кто желает меньше грешить при создании визуализаций.

Ключевой совет - выделять ту информацию, которую вы хотите донести до конечной аудитории и делать менее заметной вспомогательную.

По пунктам:
- яркие цвета - для того, что действительно имеет значение;
- всю дополнительную информацию делаем менее заметной, автор предлагает серую гамму;
- для важной информации на графиках используем более широкие линии (как на примере);
- избегаем отдельных плашек с легендой, подписывая элементы визуализаций напрямую;
- и самый топ - добавлять ключевые выводы и идеи в заголовок (да, прямо вместо названия).

Кажется, что такой подход может быть неприменим для комплексных отчетов, но вот для доказательной аналитики и презентаций проявит себя лучше, чем просто диаграмма с текстовыми пояснениями.

🔗Ссылка
Если возвращаться к GoPractice, то у ребят в блоге можно найти много полезностей по продуктовым метрикам и кейсам роста (в общем, по той же направленности, что и сам симулятор).

Чего я совсем не ожидал там найти - это подробного описания грейдов аналитиков данных (особенно в понимании Яндекс.Такси). Тем не менее, данная классификация наиболее близка мне из всех ранее найденных на просторах интернета.

Почему так:
- Дано ёмкое определение роли аналитика, как человека, помогающего принимать решения на основании данных и искать точки роста бизнеса (в не в чиселках, экселях и коде копаться).
- Есть очень близкая мне мысль про 2 ветки развития: в супер-специалиста или в менеджера. У меня сложилось ощущение, что первый путь часто незаслуженно упускается из вида ("вон пацан давно уже мидл, справляется с задачами, он и будет тимлидом"), причем как со стороны работодателей, так и работников.
- Кажется логичным распределение навыков по грейдам (конечно, столько грейдов кроме Яндекса в России может себе позволить небольшое количество компаний, но все-таки).
- Есть понятная сравнительная табличка, которые я обожаю трепетной любовью.

Меня немного смущает фокусировка базовых навыков на hard-skill, но тут всё будет сильно зависеть от компании, так что опустим пространные рассуждения.

🔗 Ссылка
Недавно прослушанная лекция по эффективной благотворительности заставила меня задуматься о глобальных проблемах, которые в цикле дом-работа-etc теряются из вида.

Сразу в голове всплыл проект Our World in Data, исследовательское сообщество на базе Оксфордского университета, в котором проводятся исследования проблем в области здравоохранения, прогресса, образования, общественных институтов и всего такого.

Для аналитиков - это дополнительная возможность посмотреть, какие источники, инструменты и визуализации используют авторы.

Немного фактов:
- кто-то задумался о глобальной метрике состояния мира (подробнее тут).
- в 2017 году, количество мобильных телефонов на 100 человек в России превышало средние показатели Европе и США (вот это поворот);
- среднее количество детей на женщину в России - 1,7 (с 2000 это самое высокое число, тренд восходящий), сравнимо с Европой и США;
- примерно 14% населения земли в 2014 году не умели писать (жесть!), а Россия - в числе мировых лидеров по грамотности населения.

🔗 Ссылка
Пропусти я такую новость - плакал бы потом горькими слезами.

Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).

Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).

🔗 Ссылка
Конец года - это всегда золотое время для любителей почитать прогнозы развития технологий и рыночные тренды. Вот и Tadviser обновил свою статью про тенденции рынка BI.

Нельзя сказать, что в ней есть какие-то откровения (ну естественно, там все утыкано Big Data, ML, AI, облаками), но несколько интересных мыслей я для себя отметил:
- кажется, я впервые встречаю формулировку "BI-плато" под которой скрывается недостаток компетенций у сотрудников, не позволяющий использовать все функциональные возможности BI-инструментов и извлекать пользу из данных;
- и это, как раз одна из причин, почему self-service не так уж и активно взлетает (только если регулярно и сильно пинать);
- DWH и ETL скорее open source, а сами BI решения чаще вендорские (наверное, это очевидно, но я в таком ключе не думал);
- а еще вот тут говорят, что импортозамещение работает.

🔗 Ссылка на саму статью

#анализ_рынка
Уже неделю всей редакцией (сам с собой, ага) кайфую с энциклопедической статьи про базы данных. Если бы сейчас кто-то попросил скинуть материалы для погружения в тему - поставил бы на первое место без колебаний.

Тут и схемы, и графики, и топы, и написано по делу (и даже нет привычного срача в комментах).

Немного про статистику и тренды:
- реляционные БД все еще сила, занимают почти 75% рынка;
- open source и тут растет и, кажется, скоро начнет побеждать;
- облачные БД тоже растут, но до победы еще ой как далеко;
- подробнее про популярность различных БД тут.

🔗 Ссылка на статью

#базы_данных #анализ_рынка
Закончить этот уникальный год иначе, чем мемом у меня рука не поднимается (не будем о грустном).

Пусть в новом году у вас будет как можно больше понятных (без шуток) выводов!