Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
Big Data в России - это очень увлекательно:
- с одной стороны, на различных площадках (habr, vc, etc.) регулярно размещают истории успеха от крупных компаний;
- с другой стороны, всегда есть сложность с тем, чтобы этот успех связать с бизнес-показателями, а со средним бизнесом и вовсе не понятно примерно ничего.

Вот и опрос МТС на Хабре не может похвастаться однозначностью результатов. Со сферами применения и технологиями (они общеизвестные), а также специалистами (их не хватает) всё без откровений.

Гораздо интереснее мысль о том, что нельзя просто так взять и начать анализировать большие данные: нужна инфраструктура, инструменты, процессы, люди, способные выполнять или совмещать различные роли (все эти ETL, DBA, контроль качества данных, дата саенс, а ещё лиды, которые будут этим всем рулить и связывать с целями бизнеса).

Кажется, что пока это непосильная задача для не обладающих большими ресурсами и выживающих во вторую волну пандемии. Тем интереснее будет посмотреть в 2021 году, сможет ли кто-то предложить готовое решение по цене, которую бизнес (естественно, ничего не внедривший до этого) будет готов заплатить.

🔗 Ссылка
Оказалось (ну или может я не особо внимателен к анонсам), что 25% докладов стартующей сегодня конференции Матемаркетинг можно будет бесплатно посмотреть на главной странице мероприятия (даже похоже, что без регистрации и смс). Старт через 10 минут.

Прикол в том, что доклады будут рандомно выбираться из списка одновременно идущих, что не позволит «сходить» на все интересующие. С другой стороны, халява есть халява.

🔗 Ссылка
Сегодня (наконец) пятница, поэтому позволю себе немного вольностей.

Когда-нибудь, когда я вырасту и стану большим и взрослым, я тоже сделаю свой канал, где будут вперемешку мемы и полезные ссылки.

Пока я этого не сделал (кого я обманываю, мне неоткуда взять столько картинок) - можно пользоваться уже существующим.

🔗 Ссылка
На этой неделе закончил проходить симулятор (реально язык не поворачивается назвать его курсом) GoPractice.

Известен он тем, что много где его котируют или даже засчитывают как 1 успешно решенный кейс по запуску нового продукта (почитать можно тут, тут или в гугле).

Из плюсов:
- есть сюжет (это не шутка), который обеспечивает более глубокое погружение в изучаемый предмет;
- офигенная структура подачи материала: небольшими порциями с мгновенной проверкой знаний;
- асинхронность: можно самостоятельно выбирать, когда проходить (для кого-то может стать минусом, все зависит от степени самоорганизованности).
- получение опыта работы в системе аналитики Amplitude, создания модели продукта и дизайна экспериментов (и еще много чего, эти 3 были наиболее интересными для меня).

Из минусов:
- курс 2016 года и некоторые примеры выглядят устаревшими (на освоение материала это не влияет);
- данные в Amplitude тоже от 2016 года и для всех практических заданий приходится с болью продираться через их окошко выбора даты;
- очевидность некоторых вопросов оставляет желать лучшего: отвечаешь на вопрос, как ты его понял, а правильные ответы совсем в другой стороне (иногда аж пригорает).

Неплохой отзыв (более подробно и со скриншотами) есть на vc.

В сухом остатке: даже несмотря на минусы, впечатление после прохождения у меня осталось сугубо положительное (ну еще бы, там хэппи-энд). Не зря же его считают must have для продактов и продуктовых аналитиков.

🔗 Ссылка

#учебное
Еще одна статья для тех, кто желает меньше грешить при создании визуализаций.

Ключевой совет - выделять ту информацию, которую вы хотите донести до конечной аудитории и делать менее заметной вспомогательную.

По пунктам:
- яркие цвета - для того, что действительно имеет значение;
- всю дополнительную информацию делаем менее заметной, автор предлагает серую гамму;
- для важной информации на графиках используем более широкие линии (как на примере);
- избегаем отдельных плашек с легендой, подписывая элементы визуализаций напрямую;
- и самый топ - добавлять ключевые выводы и идеи в заголовок (да, прямо вместо названия).

Кажется, что такой подход может быть неприменим для комплексных отчетов, но вот для доказательной аналитики и презентаций проявит себя лучше, чем просто диаграмма с текстовыми пояснениями.

🔗Ссылка
Если возвращаться к GoPractice, то у ребят в блоге можно найти много полезностей по продуктовым метрикам и кейсам роста (в общем, по той же направленности, что и сам симулятор).

Чего я совсем не ожидал там найти - это подробного описания грейдов аналитиков данных (особенно в понимании Яндекс.Такси). Тем не менее, данная классификация наиболее близка мне из всех ранее найденных на просторах интернета.

Почему так:
- Дано ёмкое определение роли аналитика, как человека, помогающего принимать решения на основании данных и искать точки роста бизнеса (в не в чиселках, экселях и коде копаться).
- Есть очень близкая мне мысль про 2 ветки развития: в супер-специалиста или в менеджера. У меня сложилось ощущение, что первый путь часто незаслуженно упускается из вида ("вон пацан давно уже мидл, справляется с задачами, он и будет тимлидом"), причем как со стороны работодателей, так и работников.
- Кажется логичным распределение навыков по грейдам (конечно, столько грейдов кроме Яндекса в России может себе позволить небольшое количество компаний, но все-таки).
- Есть понятная сравнительная табличка, которые я обожаю трепетной любовью.

Меня немного смущает фокусировка базовых навыков на hard-skill, но тут всё будет сильно зависеть от компании, так что опустим пространные рассуждения.

🔗 Ссылка
Недавно прослушанная лекция по эффективной благотворительности заставила меня задуматься о глобальных проблемах, которые в цикле дом-работа-etc теряются из вида.

Сразу в голове всплыл проект Our World in Data, исследовательское сообщество на базе Оксфордского университета, в котором проводятся исследования проблем в области здравоохранения, прогресса, образования, общественных институтов и всего такого.

Для аналитиков - это дополнительная возможность посмотреть, какие источники, инструменты и визуализации используют авторы.

Немного фактов:
- кто-то задумался о глобальной метрике состояния мира (подробнее тут).
- в 2017 году, количество мобильных телефонов на 100 человек в России превышало средние показатели Европе и США (вот это поворот);
- среднее количество детей на женщину в России - 1,7 (с 2000 это самое высокое число, тренд восходящий), сравнимо с Европой и США;
- примерно 14% населения земли в 2014 году не умели писать (жесть!), а Россия - в числе мировых лидеров по грамотности населения.

🔗 Ссылка
Пропусти я такую новость - плакал бы потом горькими слезами.

Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).

Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).

🔗 Ссылка
Конец года - это всегда золотое время для любителей почитать прогнозы развития технологий и рыночные тренды. Вот и Tadviser обновил свою статью про тенденции рынка BI.

Нельзя сказать, что в ней есть какие-то откровения (ну естественно, там все утыкано Big Data, ML, AI, облаками), но несколько интересных мыслей я для себя отметил:
- кажется, я впервые встречаю формулировку "BI-плато" под которой скрывается недостаток компетенций у сотрудников, не позволяющий использовать все функциональные возможности BI-инструментов и извлекать пользу из данных;
- и это, как раз одна из причин, почему self-service не так уж и активно взлетает (только если регулярно и сильно пинать);
- DWH и ETL скорее open source, а сами BI решения чаще вендорские (наверное, это очевидно, но я в таком ключе не думал);
- а еще вот тут говорят, что импортозамещение работает.

🔗 Ссылка на саму статью

#анализ_рынка
Уже неделю всей редакцией (сам с собой, ага) кайфую с энциклопедической статьи про базы данных. Если бы сейчас кто-то попросил скинуть материалы для погружения в тему - поставил бы на первое место без колебаний.

Тут и схемы, и графики, и топы, и написано по делу (и даже нет привычного срача в комментах).

Немного про статистику и тренды:
- реляционные БД все еще сила, занимают почти 75% рынка;
- open source и тут растет и, кажется, скоро начнет побеждать;
- облачные БД тоже растут, но до победы еще ой как далеко;
- подробнее про популярность различных БД тут.

🔗 Ссылка на статью

#базы_данных #анализ_рынка
Закончить этот уникальный год иначе, чем мемом у меня рука не поднимается (не будем о грустном).

Пусть в новом году у вас будет как можно больше понятных (без шуток) выводов!
Многие уже привыкли к тому, что грани профессий data analyst и data scientist все больше размываются (ну или как минимум к холиварам по этому поводу).

Мне, к примеру, импонирует следующая позиция: аналитик скорее ищет ответы на вопросы (или решение проблемы), а саентист находит тренды и сами вопросы, которые стоит задавать. Естественно, это упрощение, подробнее можно посмотреть тут.

Теперь в эту компанию врывается еще и data manager, который начинает отвечать за извлечение, обработку, хранение, качество данных. То есть становится своеобразным поставщиком информации для исследований scientist'а.

Идея, безусловно, не нова, специализация часто помогает решать все более сложные задачи. Другой вопрос - как бизнесу дальше разбираться в зоопарке ролей вокруг анализа данных (есть же ещё data engineer, BI developer, DBA, etc.). В веселое время живём!

Также в статье есть руководство как быть data manager консультантом в неизвестной предметной области. Выглядит как идея для стартапа, если эта мода доберется до наших краёв (пока, правда, не очень похоже, что это так). К примеру, на том же hh сейчас мизерное количество релевантных вакансий.

🔗 Ссылка на статью
Пропустил этот доклад на Матемаркетинге, а зря, отличный пример того, как можно простым языком рассказывать про инфраструктуру для аналитики (тем более облачную).

В последнее время все больше стимулов попробовать Redash (ну и на @leftjoin подписаться, если еще не).
Какой он - современный облачный data-стек?

Николай Валиотти ( @leftjoin) объясняет подход к проектированию аналитической инфраструктуры, обосновывает использование Clickhouse при построении облачной аналитики и рассказывает о его же нюансах и говорит про Redash с точки зрения инструмента для визуализации.

Смотреть видео - YouTube, ~20 минут

@internetanalytics
Видимо у меня вошло в привычку знакомить всех с блогами, на которые я подписан.

Вот этот топ-15 визуализаций за 2020 понравился мне больше, чем топ-10 от towards data science. Видимо, для меня музыка + цветные карты куда привлекательнее баскетбола и гос. долга США (и действительно).

P.S. СOVID, без сомнений, присутствует в обеих подборках, куда без него.
Собрала для блога “Больше, чем данные” свой личный топ датавиза за 2020. Там разное, но конечно же любимые The Pudding, Nadieh Bremer и Nathan Yau ❤️

https://b4d.media/15-daraviz/
Люблю периодически поглядывать на небольшие авторские проекты (в том числе имеющие к аналитике косвенное отношение), они круто иллюстрируют насколько разные идеи приходят людям в голову.

Как вам, например, такое: кто-то взял с ProductHunt (возможно даже руками) топовый продукт за каждый день прошлого года.
Получилась табличка в Notion, в которой можно сделать сортировку по количеству голосов.

Интересно, но не хватает минимум двух вещей: типизации (так бы получился какой-никакой, но датасет для маленького исследования) и понятных выводов.

Пока же можно довольствоваться топ-10:
1. Интерактивные развлечения для удаленных команд поверх видеоконференции.
2. Почтовик от создателей basecamp.
3. Текстовый редактор со встроенным переводом, словарем и всяким таким, чтобы нормально общаться на любом языке мира.
4. Мобильное приложение для медитаций.
5. Библиотека вручную нарисованных иллюстраций.
6. Мобильное приложение для удаленной диагностики зубов по фотографии.
7. Софт для поиска цифрового отпечатка человека в сети.
8. Еще одна библиотека вручную нарисованных иллюстраций.
9. Приложение для создания дипфейков (актуальненько).
10. Тик-ток для образовательных видео.

Тут без комментариев, какой год, такой и топ.

🔗 Ссылка на проект
Как человек, пиливший оба упомянутых вида дашбордов, я не могу на 100% согласиться с тем, что "перспективные" настолько лучше "ретроспективных". Всё-таки сильно зависит от решаемой задачи и целевой аудитории.

С другой стороны, сложно не согласиться с большей убедительностью данных о потерях, так что сама мысль весьма интересная.
«Есть только миг между прошлым и будущим»

1. Обычные дашборды сравнивают текущие метрики с прошлым — процент изменений по сравнению со вчера, с прошлой неделей, месяцем или годом.

2. Хорошие дашборды должны сравнивать текущие метрики с будущим — как мы двигаемся по сравнению с тем планом, который мы себе поставили на неделю, на месяц или на год.

3. Во-первых, если мы не знаем, куда идем — зачем нам нам знать, с какой скоростью мы идем никуда?

4. Во-вторых, в наши головы встроено когнитивное искажение, называемое «loss aversion» (боязнь потерь) — мы гораздо более остро реагируем на потери, чем на приобретения. Если мы видим, что мы хоть немного, но растем — мы неизбежно (хоть и подсознательно) расслабляемся. Даже если этих темпов роста нам не хватит для выполнения отдаленного плана.

5. Мы будем шевелиться, только если дашборды будут показывать нам возможные потери — чего и сколько нам не хватает, чтобы добежать до поставленной цели. А если всего хватает — это хорошая причина повысить уровень цели. Чтобы мы опять пытались избежать потерь.

6. А у вас есть дашборд? А он сравнивает сегодняшнюю ситуацию с прошлым или с будущим?

---
Новые идеи, достойные копирования: fastfounder.ru
Изучение новых видов графиков - наше всё.

Несколько раз натыкался на Mekko/Marimekko в разных каталогах визуализаций, но особого восторга не ощущал (ну бар-чарт на максималках, что с ним делать-то).

В сегодняшней статье есть несколько жизнеспособных примеров использования, а главное (наконец-то) - описана цель их применения.
Спойлер: все ради снижения количества столбцов на диаграммах.

Получается, если нужно сравнить несколько групп по двум измерениям, то берём Мекко. А если нужно каждую группу дополнительно детализировать по подгруппам, то Маримекко.

Запилить можно на питоне, в Power BI/Qlik/Tableau, не говоря уже об извращениях в Excel (моё любимое).

Главное, чтобы целевая аудитория себе голову не сломала с непривычки.

🔗 Ссылка

#визуализации
Портал ITC Moscow вместе с Департаментом информационных технологий Москвы (интересно, много ли в принципе таких коллабораций) сделали свой хайпометр для отслеживания упоминаний передовых технологий в СМИ.

Выглядит это, надо сказать, довольно современно (должно быть заметно по превью):
- есть несколько «крутилок» для переключения периодов;
- доступны сырые данные в гугл-шитах;
- есть комментарии и выводы (почему-то они зажаты между двумя графиками, но не будем придираться);
- стильно же, ну.

Из неожиданного:
- упоминаний беспилотников почти в 2 раза больше big data, а также почти в 2,5 раза больше IoT или облаков (чиииво?).

🔗 Ссылка

#проекты