Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
Forwarded from LEFT JOIN
Партнерство Tableau и Looker (Google)
На прошлой неделе Tableau объявил о партнерстве с Google и Looker в контексте Self-service аналитики, новость сама по себе очень интересная. Казалось бы, два конкурента в вопросах BI. Однако, кажется, Google в большей степени рассматривает Looker в качестве семантического слоя для описания данных в хранилище и видит перспективу именно в LookML, тогда как визуализацию данных можно отдать Tableau.

Я часто привожу ссылку на блог Benn Stancil, и сейчас в блоге есть соответствующая статья на этот счет: BI is dead.

А в статье любопытная цитата:
Looker choosing to partner with Tableau makes particular sense because Looker’s always been a transformation tool first, and a consumption tool second. Looker’s crown jewel is LookML; Tableau’s is visualization. I’d speculate that Looker originally built its visualization tooling in large part so that they could market and sell the value of LookML, rather than the other way around. By launching this integration, Looker is simply doubling down on that long-standing identity.

#ссылка
Статья "The relationship between data SLAs & data products" подробно раскрывает тезис "данным тоже нужен SLA".

Перед формулированием самих "процентов доступности" сервиса предлагается оценивать 4 критерия:
🔹 доступность;
🔹 полнота;
🔹 точность;
🔹 возможность оперативного контроля и исправления.

И уже дальше сверху этого намазать KPI, что выглядит довольно логично.

🔗Ссылка

#качество #продуктовое
Готовые обзоры - неплохой способ расширить свое понимание рынка, на котором работаешь.

Периодически сам обращаюсь к подобным статьям от NEWHR:
🔹рынок аналитиков;
🔹рынок продактов.

Чтобы такие статьи появлялись и были основаны на реальных данных, их авторы проводят опросы профильных специалистов.

В этом году требуются продуктовые аналитики, руководители аналитиков и смежные с ними продакты. Если вы таковой - давайте поможем получить актуальную информацию.

Вот тут подробнее рассказывают, зачем это все и какова механика вознаграждений (да, она есть).

🔗Ссылка на прохождение опроса

#опрос #анализ_рынка
В статье "5 Roles in Data in 2021" в едином формате описаны 5 ролей в современных дата-командах:
🔹Data Analyst
🔹Business analyst
🔹Data scientist
🔹Data engineer
🔹Machine Learning Engineer

Немного не хватает сводной таблички или иллюстрации границ ответственности.

Зато есть еще такая статья с добавлением продактов и SRE для полноты картины.

🔗Ссылка

#компетенции
Не очень понимаю, зачем в октябре составлять топ визуализаций за год.

Тем не менее, некоторые из них мне сильно приглянулись:
🔹Интерактивный sankey из вложения к посту;
🔹3D-карта протянутых под океанами оптических кабелей;
🔹гонка стран по потреблению алкоголя;
🔹стильная карта ментальных заболеваний в темной теме.

Ниже по ссылке можно найти еще 6 вариантов на любой вкус. Получилась очень разнообразная подборка как по исследуемым темам, так и по вариантам отображения информации.

🔗Ссылка

#визуализации
Восхитительная карта технологий для аналитики данных ("Технославия").

Авторы отмечают следующие тренды 2021 года:
🔹Много инструментов удалили и заменили, основные новшества: SageMaker, Kubernetes, PyTorch, MLFlow, Kubeflow;
🔹Добавилась целая "инфраструктурная территория" с гипероблаками и кубернетисом;
🔹DS-ноутбуки признаны IDE, так как функциональность их продолжает расти;
🔹Растет количество realtime-технологий, но они все еще на отдельном "острове".

P.S. "Болото очистки данных" - one love, очень жизненно.

🔗Ссылка

#инфраструктурное
Forwarded from LEFT JOIN
⚡️Масштабное независимое исследование онлайн-курсов по аналитике ⚡️

Мы с моими коллегами из компании твердо решили узнать все-все самое важное об онлайн образовании по теме аналитики и data science. Об онлайн образовании говорят повсеместно, курсы чрезвычайно распространены, ведь профессии в IT-сфере сейчас очень популярны. Думаю, что огромная часть аудитории данного канала либо прошла, либо собирается пройти курсы, связанные с анализом данных.

Прошу вас пройти опрос и оставить ваше искреннее мнение о той школе, курс в которой вы прошли. Хорошее, плохое, главное, не безразличное!

Буду признателен коллегам владельцам каналов по аналитике за репост. Разумеется, результатами опроса мы вскоре с вами поделимся в виде симпатичного дашборда 🤓

➡️ Ссылка на опрос

p.s. Любые комменты по опросу тоже приветствуются
Вчера окончательно подтвердилось, что смогу поехать на Матемаркетинг 2021. По очевидным причинам давно не был на оффлайн-мероприятиях, рад, что такое сейчас вообще возможно.

Алексею, команде Матемаркетинга, спикерам (среди которых, кстати, можно увидеть авторов клевых аналитических каналов) - огромное спасибо!

Сегодня ребята писали, что еще есть шанс забежать в последний вагон уходящего поезда, стоит поспешить, если еще не решились.

🔗Ссылка

#конференции
"Browser-Based Database Clients" - обзорная статья про варианты подключения к базам данных через браузер:
🔸SQL-клиенты гиперскейлеров (AWS, GCP, Azure);
🔸ноутбукоподобные клиенты (Count.co, Databricks SQL notebook, Franchise);
🔸BI-инструменты, которые могут в SQL (Redash, Metabase, Superset);
🔸Другое (SQLPad, PopSQL, JackDB).

С инструментами из последней категории сталкиваюсь впервые, кажется могут подойти для базовых сценариев, когда дашборды не нужны.

🔗Ссылка

#базы_данных #инструменты
Мне близок Сашин взгляд на то, что болит у аналитиков - обобщил бы это как "борьба за качество данных".

Я тоже походил по Матемаркетингу, пообщался с людьми, доклады послушал.

К перечисленному в посте могу добавить 2 больших блока болей:

🔸Демократизация данных и self-service BI. Аналитики все чаще становятся бутылочным горлышком в процессе принятия решений и больше времени тратят в роли интерфейса к базе данных для своих коллег. Решают ее все по-разному, в основном с помощью новых процессов, open-source инструментов или самостоятельной разработки.

🔸Работа аналитиков в маркетинге сильно меняется из-за новых privacy-политик от Apple и Google и возможности запрета трекинга. Способы дальше работать есть, но со стороны выглядят как костыли. Я в этом, честно говоря, не разбираюсь и был сильно удивлен масштабом бедствия.

P.S. был безумно рад всех увидеть в оффлайне и познакомитсья с кучей клевых ребят!

#конференции
Forwarded from data будни (Саша Михайлов)
Что болит

Общее впечатление что все хотят в data driven. Уже никого не надо убеждать в ценности данных — этот этап пройден.

Теперь следующая проблема — данные собрали, пайплайны настроили, первые дашборды нарисовали. Постепенно данных становится всё больше: добавляются новые, старые — меняются. И в какой-то момент наступает ДАТА-ХАОС!

И вот сейчас основные боли — это документация и описанные модели данных.
⁃ Таблицы на десятки и сотни колонок без описания и странными названиями
⁃ Таблиц по заказам — пять разных вариантов (плюс ещё сколько-то вьюх по ним)
⁃ Эвенты, названные абы как
⁃ Метрики, которые каждый рассчитывает по-своему и в конце ни у кого ничего не сходится ¯\_(ツ)_/¯

Короче, тренд сезона — дата-инфраструктура.
👍1
Кажется, к 2021 году всех уже убедили, что эксель - это не база данных.

И тут такое: статья про то, как анализировать с его помощью csv-шку с 10 миллионами строк.

Автору всего-то понадобилась версия посвежее, подключение к файлу без его загрузки на лист, Power Query и слабоумие с отвагой.

Кейс занятный, но что-то внутри меня протестует против такого сценария использования.

🔗Ссылка

#excelное
Энтузиаст проанализировал 30000 вакансий и составил вот такую сеть IT-шных навыков.

В области работы с данными удивляет небольшой размер "шарика" Python и отсутствие популярных библиотек (может, убрали, чтобы не перегружать элементами).

В статье "Building a Network of Related IT-Skills" подробно описывается сбор, очистка и обработка данных.

🔗Ссылка

#проекты
Когда-то это должно было случиться: теперь можно не только на работе ковыряться в больших данных и ML, но еще и дома делать тоже самое, но в игровой форме.

#проекты
Search Data, Trends & Analytics: Catching the Pulse of a Market and its Consumers (no cookies required)

Пример того, как можно реализовать отслеживание трендов на минималках с использованием данных по поисковым запросам.

В полной версии дашборда можно поковыряться самому.

Статья с описанием методологии тут:

🔗Ссылка

#проекты
В статье "Data Advantage Matrix: A New Way to Think About Data Strategy" нашел интересный взгляд на построение стратегии по работе с данными. Автор предлагает использовать матрицу для оценки верхнеуровневых инициатив.

Всего оценивается 4 вида создаваемых преимуществ:
🔹Операционные;
🔹Стратегические;
🔹Продуктовые;
🔹Бизнесовые.

В рамках каждого можно запускать проекты в одной из 3 стадий проработанности:
🔸Базовый (MVP, low-code);
🔸Средний (инвестиции в платформенные сервисы и дата-команды);
🔸Продвинутый (полный data driven).

В зависимости от сферы деятельности компании, приоритет преимуществ и проектов будет отличаться. На заглавной картинке пример для SaaS-стартапа, в статье есть и другие.

🔗Ссылка

#стратегия
Автор статьи "Data Product Trends That Will Rule in 2022" представляет свое видение исследований разных трендвотчеров и организаций про будущее дата-продуктов.

Получилось следующее:
🔹Big Data as a Product - готовые платформы данных для аналитики в любых отраслях бизнеса;
🔹Рост качества пользовательского опыта не только внутри продукта, но и в целом при работе с поставщиком;
🔹Решения для безопасного обмена данными между компаниями по всему миру;
🔹Больше экспериментов и симуляций на реальных, а не тестовых данных;
🔹Качественные результаты работы ML-моделей на небольших объемах данных, в том числе на edge-устройствах;
🔹Управление данными и обеспечение их безопасности все чаще будет встроено в дата-продукты "по-умолчанию";
🔹"Diversified Data Centric Mindset" - обеспечение равного доступа к своему сервису для людей разных национальностей, владеющих разными языками и вот это вот все;
🔹ИИ будет все более приближаться к возможностям естественного интеллекта (штош, посмотрим).

Во все, кроме последних 2 пунктов, можно даже поверить.
🔸Diversity-штуки, кажется, до нас еще просто не успеют в таком объеме добраться к следующему году.
🔸Artificial general intelligence - это вообще более долгосрочная история, не стал бы сейчас на ней спекулировать.

🔗Ссылка

#продукты #тренды
Описание Data Lineage в стиле "для самых маленьких".

Самому "наследию" дана ёмкая аналогия: "Data lineage is like a family tree but for data".

Есть проработанные описания основных сценариев применения с иллюстрациями:
🔹диагностика ошибок;
🔹анализ того, на что повлияют вносимые изменения;
🔹проверка качества данных;
🔹управление метаданными;
🔹проверка на соответствие нормам законодательства;
🔹очистка данных или их миграция.

🔗Ссылка

#инструменты #тренды
Рома снова сделал годноту: готовую матрицу компетенций BI-аналитика. Очень злободневно с учетом того, что пора бы уже заниматься планом индивидуального развития на следующий год.

#компетенции
Forwarded from Reveal the Data
🧑‍🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.

Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.

Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».

Матрица – не истинна в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.

Спасибо большое всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.

🔗 Ссылка
#избранное