Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
В последнее время, у меня чаще на фоне играют подкасты, чем музыка.

Из последнего больше всего запомнилось интервью Ивана Замесина со специалистом по машинному обучению из Яндекса, который занимается разработкой self-drive - самоуправляющегося автомобиля.

Интересно послушать про сложности и задачи в подобного рода инновационных проектах.

Ссылка:
https://www.youtube.com/watch?v=nPpXXWy_gQg
Искали на работе способы визуализировать в Power BI данные из Redis, в итоге нашёл коннектор на cdata. Он работает, правда не поддерживает нативные запросы (можно дописать на чем-нибудь типа python).
Еще из минусов - триал на 30 дней.

С другой стороны, для коротких проектов или исследований подходит неплохо. Помимо этого, есть еще много кастомных коннекторов (к примеру, для Elasticsearch), которые могут пригодиться.

Полный список:
https://www.cdata.com/powerbi/
Божественная статья про визуализацию данных, внутри которой можно найти:
- небольшой экскурс в историю;
- примеры хороших и плохих визуализаций (в том числе, примеры манипуляций и искажения данных);
- обобщённый взгляд на процесс визуализации;
- внушительный список дополнительных материалов в конце статьи.

Из-за объёма читать лучше на свежую голову.

Ссылка:
https://towardsdatascience.com/the-power-of-visualization-in-data-science-1995d56e4208
Немного ранее мы читали про Data Governance, пришла пора дополнить общую картину аналитического мира информацией о платформах управления данными.

В обзоре можно почитать про:
- общее назначение;
- виды;
- основные компоненты
- существующие решения на рынке.

Ссылка:
https://habr.com/ru/company/ruvds/blog/500028/
Давно хотел поделиться этим исследованием, но чего-то не хватало для полноты картины. Мемасик стал последним куском головоломки.

В сообществах аналитиков часто встречаются жалобы на сложности с внедрением BI-инструментов, так как excel проще и привычнее.

Так вот, ребята решили перестать бороться со злом и примкнуть к нему, только своим, особым способом. Они разрабатывают плагин для браузера, который позволит пользователям управлять контентом веб-страниц через табличный интерфейс. В статье есть видео с примерами работы бета-версии, рекомендую посмотреть.

По-моему, замечательный пример того, как привычные сценарии поведения могут стать источником инноваций.

Ссылка на описание:
https://www.geoffreylitt.com/wildcard/salon2020/
Крутая визуализация возраста зданий в Санкт-Петербурге:
https://how-old-is-this.house/

Вот тут можно почитать подробно про реализацию проекта и используемые инструменты.
Вышел очередной обзор рынка аналитики от Cnews, подводят итоги 2019 года.

Из интересного:
- Мировой рынок аналитики, по прогнозам, будет расти на 12,5 % в год, чего стоило ожидать вследствие массовой популяризации data science, ml, ai и прочих весёлых аббревиатур из этой области;
- В России рынок поставщиков решений по аналитике данных также вырос (судя по табличке, аж на 53%), хотя у большинства компаний доходы от таких проектов удручают (больше миллиарда - только у 5 компаний);
- на рынке BI-инструментов особых изменений нет (хотя интересно будет посмотреть на Magic Quadrant 2021 года, после того как будут объединены Tableau с Salesforce).

Ссылка на статью:
https://www.cnews.ru/reviews/analitika_30_2020/articles/rynok_analitiki_rastet_i_stanovitsya

#анализ_рынка
Начнём рабочую неделю с очередного сравнения двух инструментов в борьбе с одной и той же задачей - когортным анализом. На ринге сегодня Power BI и Python.

Автор статьи любезно не предоставил ссылку на оригинальное видео, но найти его было несложно (ссылка на ютуб).

Сама статья:
https://habr.com/ru/post/501492/
30 июня собираюсь послушать доклады онлайн-конференции Data Start. Ключевые темы - Data Science, Big Data, Machine Learning.

Участие - бесплатное.

В конфе 2 потока, на данный момент, технический для меня слишком хардкорен, но в бизнес-потоке есть несколько крутых спикеров, другие выступления которых - топ (ребята из Yandex.Taxi, ScrumTrek, Rubbles).

Ссылка:
https://datastart.ru/online-summer-2020/
Нашёл забавный симулятор работы продуктового аналитика/продакта:
- приоритезируем гипотезы;
- смотрим на результаты A/B тестирования;
- оцениваем влияние на продажи;
- релизим, либо не релизим.

Вроде бы простенько, но каждая сессия - новая увлекательная борьба за показатели бизнеса, мне нравится.

Ссылка:
https://www.lukasvermeer.nl/confidence/
Про метод документирования знаний Zettelkasten действительно уже есть ряд популярных статей (на Хабре - в том числе). Но тут меня пленил не он сам, а реализация в Notion, реально мотивирует попробовать самому.

Ссылка:
https://habr.com/ru/post/509756/
Сегодняшний пост, чуть более, чем полностью, обязан своим существованием Алексею Макарову и его замечательному каналу @datalytx.

Я никогда не занимался всерьёз продвижением своего канала и особенно приятно, что он попал в подборку без моего прямого запроса (стоит отметить, что я хотел написать автору, но постеснялся). Пользуясь случаем, хочу поприветствовать новоприбывших из его канала, постараюсь быть полезным.

Триумфальное возвращение стоило бы посвятить, как обычно, аналитике, но я позволю себе авторский пост.

За месяц молчания я реально ощутил на себе всю значимость повторяющихся ритуалов. Двухнедельный отпуск без адекватного интернета стал причиной поломки двух привычек, которые я прививал себе последний год: ежедневное чтение и еженедельное написание 1-2 постов в канал.

Если на восстановление чтения потребовалось 2 недели, то этот пост я еле-еле родил за месяц. Плюс, есть и внешние причины, но об этом позднее.

С точки зрения профессионального развития, для меня это очередное подтверждение того факта, что для любой +- аналитической (ну и менеджерской, естественно) профессии требуется особо рьяное отношение к личной эффективности и дисциплине.

Из последнего чтива в этом направлении можно ознакомиться с "Джедайскими техниками" Дорофеева, который, по сути, написал реферат по большинству популярных методов достижения личной эффективности. Это не панацея, но можно подобрать что-то подходящее для дальнейшего изучения.
Сегодня у нас подборка из 11 (да, URL ниже привирает) бесплатных инструментов для быстрой визуализации.

Ну реально же иногда есть готовый набор данных и нужна просто нормальная визуализация, а не эти наши "excel-графики". Не тащить же ради этого все в BI, в самом деле.
Я как-то использовал Data Wrapper именно по причине простоты и скорости работы (но это на небольших объемах данных).

В большинстве сервисов данные просто загружаются копипастой или табличным файлом, а дальше начинаем играться типом и форматом диаграмм.

Что удобно в статье - для каждого инструмента есть gif-ка с примером использования.

Ссылка:
https://towardsdatascience.com/10-free-tools-to-instantly-get-started-with-data-visualisation-d7fadb5f6dce
Каждый раз, когда я сталкиваюсь с какими-то хайповыми вещами, замечаю, что они вызывают неоднозначные чувства, некую смесь интереса с недоверием. Поэтому они часто лежат где-то вдали на полочке, пока руки не дойдут, хайп не спадет или до никогда.

Такая же история была бы с Machine Learning, но так вышло, что уже 3 недели подряд я слышу это словосочетание раз по 5 в день и терпеть больше не смог. Конкретно с этим кейсом разобрался с помощью статьи с разбором ограничений машинного обучения от ребят из Selectel.

С ML для меня проблема в том, что оно, как-будто, воспринимается и позиционируется как панацея, типа "ща ядер и памяти докинем и все вопросики порешаем".

Безусловно, есть разумное, доброе и вечное применение машинного обучения для решения боевых задач бизнеса, науки и создания дипфейков с Друзями. Ну и до потолка по технологиям ещё (вроде) далеко. Просто хотелось бы не забывать про то, что у всего есть свои границы применения и ограничения.

Ссылка:
https://habr.com/ru/post/518062/
У меня назревает смена стэка, поэтому сел разгребать отложенные материалы по Power BI.

Вот тут уже затрагивал тему интеграции в него Рython-скриптов, хотя не могу сказать, что много этим пользовался.

Но вот кейс с кластерным анализом достоин упоминания. Например, вместо пиления костылей в Excel (вроде такого) можно воспользоваться Python-библиотекой PyCaret и нехитрыми манипуляциями получить готовый столбец в таблицу с данными.

Ссылка на подробное описание всех возможностей библиотеки (кластеризация - в самом начале статьи):
https://www.kdnuggets.com/2020/05/machine-learning-power-bi-pycaret.html
Антон Владимирович мне товарищ, по каким-то вопросам - наставник, а также периодически помогает с материалами для канала.

Сегодня мы всем миром поздравляем его с первой (известной нам) экспертной публикацией в блоге.

Про кубернетес аналитикам, быть может, и не особо полезно читать, но первая статья из списка круто описывает то, почему многие сейчас ковыряются в Big Data (и некоторые даже успешно).

Ссылка:
https://news.1rj.ru/str/SelectelNews/507
Давно ничего не было по dataviz’у, на этой неделе немного восстановлю справедливость.

На самом деле, я удивлён, что до сих пор ничего не репостил из блога Datawrapper (хотя и упоминал их где-то выше), они крутые.

К примеру, несколько мыслей из статьи по работе с цветами в визуализациях:
* Если появилась необходимость иметь более 7 цветов на графике - меняем его тип (а ещё лучше - группируем данные);
* Используем одинаковые цвета для переменных во всех визуализациях (это супер-очевидно, но косячки проскакивают, лучше перепроверять);
* В ту же копилку - использование интуитивно понятных цветов (красный для плохого, зеленый для хорошего и светлые оттенки для низких и тёмные для высоких значений);
* Ну и про мой «любимый» контраст - вот эта штука поможет проверить, не вытекут ли у пользователей глаза от сочетания цветов фона и текста на нём.

Еще больше советов и примеры - по ссылке:
https://blog.datawrapper.de/colors/
Еще один материал от Datawrapper, в этот раз - про более хардкорный выбор цветов для визуализаций (с тонами, насыщенностями, яркостями и всяким таким).

На первый взгляд, она больше для дизайнеров, но в этом и прелесть - можно глубже разобраться с теорией (особенно в случае, когда ты сам выбираешь цвета по принципу от балды «нравится-не нравится»).

К примеру, абсолютное большинство визуализаций, которые отмечены в статье как «BETTER», мне реально больше импонируют, чем «NOT IDEAL»-версии, теперь стало немного понятнее, почему так происходит.

А еще добрые люди озадачились эту статью перевести на русский.

Ссылка:
https://habr.com/ru/post/520812/