Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
PowerBI (сайт PowerBI) - опыт Андрея


Гибкая ценовая политика. Есть лицензии Pro, которые стоят 10$ в месяц на пользователя. То есть, если в небольшой компании, скажем, 2 аналитика и 28 человек, которым нужен доступ на просмотр отчетов - то это выйдет в 300$ в месяц (250 тысяч рублей в год). Возможности в Pro-версии, конечно, порезаны, но многим с головой хватит и этого - обновление по расписанию есть, коннекторы к десяткам источников данных на месте. Premium-версия отличается возможностью развернуть PBI на своем сервере и выделенным сервером отчетов, что нужно для компаний со строгой политикой безопасности и работы с большими объемами данных

Низкий порог вхождения в создание отчетов, буквально возможность создать отчет, не написав ни одной строчки кода. Да, в PBI есть свой язык формул - DAX и язык запросов Power Query (как и в Excel), но для несложных отчетов про это можно не вспоминать. После загрузки данных в PBI для работы с ними открывается визуальный интерфейс, очень сильно напоминающий Excel, в котором табличные данные легко обрабатываются, преобразуются, добавляются новые столбцы и вычисляются новые меры. Опять же, если приводить в качестве аналогии Excel, то это как записать макрос, только проще.

Много разнообразных визуализаций - от столбчатых диаграмм до диаграмм Ганта и карты мира.

Неплохая мобильная версия, в т.ч. приложения для IOS/Android. Как и в Tableau, посмотреть в дороге, не упала ли вчера выручка, очень подойдет.

По единичному личному опыту - неплохая русскоязычная поддержка, вопрос был решен в течение 2 дней.

Минусы, конечно же, тоже есть.

Отсутствие PowerBI Desktop - основного инструмента создания отчетов и подключения к данным - на Mac OS.

Ограничения на объемы. Смешные для некоторых компаний ограничения на объемы в лицензии Pro - это еще ничего (1Гб размер отчета/файла .pbix, 10Гб размер одного источника данных), т.к. в Premium на порядки больше, подробнее здесь. А вот ограничение в 150 тысяч строк на экспорт из отчета в Excel/csv - это в 2021 году недопустимо. Конечно, прекрасно, что любой пользователь опубликованного отчета может скачать сырые данные таблиц/графиков себе в Excel/csv и работать с ними самостоятельно. Но 150 тысяч строк? Excel уже давно поддерживает 2 в степени 20 строк (если калькулятора под рукой нет, то это 1 048 576 строк), я писал об этом здесь. И этот объем лицензией Premium не увеличить.

Отсутствие в лицензии Pro жизненно необходимых функций. Понятно, что MS стимулирует выбирать более дорогую лицензию - но, например, инкрементальное добавление данных есть только в премиуме, что уже совсем нехорошо.

Подключение к локальным источникам через персональный шлюз работает не очень хорошо. Обновление в оперативной памяти компьютера, на котором установлен PowerBI Desktop при использовании персонального шлюза, ограничивает объем данных, которые может вместить PBI, а также загружает оперативку компьютера под 100%.

Несмотря на обилие визуализаций, к ним иногда возникают вопросы. Во-первых, вырвиглазные цвета в стандартной цветовой схеме - ярко-красный, очень интенсивный цвет морской волны, обилие каких-то козявочных оттенков. Иногда, чтобы добиться приемлемого вида, если категорий много, сидишь только над цветами по полчаса. Во-вторых, например, сглаженная линия, которую в 2 клика можно сделать в Excel, тут недоступна, что делает многие графики неприятно ломаными.

#рынокIT #полезности #истинаневпоследнейинстанции
Пугающая история про облачные базы данных и безопасность.

Microsoft Azure сначала просто прикрутил к CosmosDB новую фичу - визуализацию через Jupyter Notebook, а потом стал активировать для всех по-умолчанию.

Все бы ничего, но из-за ряда косяков через «ноутбук» можно было извне получить доступ к клиентским данным.

Хакеры попались добрые, сообщили компании, которая оперативно закрыла дыру. Но осадочек, думаю, останется (история свежая и далеко идущие последствия пока не отследить).

На всякий случай: против облаков не топлю, никого не осуждаю, ошибиться может каждый.
Рассматриваю ситуацию скорее как урок для всех, кто работает над дата-продуктами или обрабатывает чувствительные данные:
Помните о безопасности.

Причем «помнить» - это не столько про «задумываться», сколько про «активно содействовать» тому, чтобы данные компании не утекли куда не следует.

Клиентам в данной ситуации остается только посочувствовать.

Вот тут подробно пишут про эту историю:

🔗Ссылка

#инфраструктурное
Подборка BI-инструментов на все случаи жизни:
- модные и универсальные;
- для стартапов;
- для enterprise (c Qlik, видимо, что-то не поделили);
- open-source;
- white label для встраивания в приложения.

Есть такие, о которых я даже не слышал.

В очередной раз встречаю рекомендацию Metabase. Если у кого-то есть опыт практического использования - напишите, пожалуйста, в личку. Интересно, как с ним обстоят дела в СНГ-сообществе.

🔗Ссылка

#business_intelligence #инструменты
Накопилось неожиданно много аудио и видео контента, который произвел на меня хорошее впечатление.

Так что пусть случится небольшой дайджест.

1️⃣ Датаголики - подкаст про BI-инструменты, enterprise, проекты внедрений и (внезапно!) аналитику в гос. организациях.

2️⃣ Необычный для меня формат - короткие вводные видео про it и технологии, записанные на основе популярных статей.
Про наше, аналитическое:
- большие данные;
- машинное обучение.

3️⃣ Выпуски подкаста make sense вокруг да около аналитики:
- О базовых понятиях Machine Learning и AI в продуктах с Анной Трушкиной;
- О юнит-экономике и продуктовых фреймворках, границах применимости и заблуждениях с Ильей Красинским.

4️⃣ Бодрое 14-ти минутное видео про базовые инструменты аналитика. Все как мы любим: SQL, Python, BI, без Excel тоже не обошлось.

#учебное #дайджест
Статья с 20 советами по оформлению визуализаций.

По классике, рекомендуют:
- думать об осях;
- прибегать к адекватной сортировке;
- правильно выбирать цвета;
- не мудрить со сглаживанием линий, тенями, 3D и прочими оккультными практиками.

Довольно иронично, что 5 советов касаются пай-чартов, которые принято либо использовать очень осторожно, либо избегать вовсе. Бонус: 100500 статья про то, что с ними (не) так.

Помимо прочего есть авторская классификация визуализаций (заглавная картинка поста).

🔗Ссылка

#визуализации
Как выйти на высококонкурентный рынок BI-инструментов, если о тебе ничего не знает Gartner Magic Quadrant?

Да как обычно: «мочить конкурентов» и обещать, что с твоим решением будет в 10 раз проще работать.

Аргумент «с классическим BI вы переплачиваете за разработчиков» очень мощный, но мне лично не верится, что Hyper Anna настолько self-service, что нет дополнительной стоимости и бизнес-пользователи сами аналитику накликают.
Или, что совсем утопия, все само из коробки заработает.

Тем не менее, пример отстройки от конкурентов через маркетинг довольно качественный.

🔗Ссылка

#business_intelligence
Ребята, делающие дата-каталог Castor, собрали Landscape так называемого «современного» стека технологий для обработки данных.

Много облачного и модно-современного (в datalearn у Димы Аношина есть клевое определение "Fancy tools").

Для каждой категории есть статья с принципами работы и сравнением инструментов.
Пока описано далеко не все, дата-платформы и визуализацию остается только ждать.

Забавно, что вместо сайта тут Notion, настоящая стартап-история!

Про более известную монструозную версию "ландшафта" дата-инструментов писал тут.

🔗Ссылка

#инструменты
Еще один взгляд на то, чем занимаются разные "виды" аналитиков в IT. Что приятно, со ссылками на более глубокие статьи по каждому из них.

В самом канале @analysis_it подкупает то, что автор(ы) существенно быстрее некоторых (я все еще слоупок) постят актуальные материалы из отраслевых блогов и площадок.

#компетенции #каналы
Forwarded from Analyst IT
Привет👋🏼 Сегодня предлагаю немного погрузиться в сферу ИТ-аналитика и разобраться в сортах некоторых из них:

📌 Бизнес-аналитик - собирает и выявляет требования со стороны бизнеса к будущему продукту или функциям системы, также выявляет потребности для изменений, обобщает их, фиксирует, классифицирует и принимает решения об изменении процессов. После чего переводит их на понятный язык для инженеров
📝Бизнес-аналитики в IT: кто они и что делают

📌 Системный аналитик - IT-специалист широкого профиля, который отвечает за сбор требований к системе, занимается проектированием технического решения и ставит задачи команде разработки
📝Системный аналитик: что делает, сколько получает и как им стать

📌 UX-Аналитик- собирает и анализирует данных о том, как пользователи взаимодействуют с сайтом, приложением или другим продуктом
📝Кто такой UX-аналитик, чем он занимается и какие инструменты использует

📌 Аналитик данных - собирает, обрабатывает, изучает и интерпретирует данные
📝Чем занимается аналитик данных и как им стать

📌 Web-аналитик - занимается сбором и анализом информации о посетителях сайта и их поведении. Он взаимодействует с разными системами аналитики (например, Google Analytics), определяет важные для того или иного бизнеса параметры и интерпретирует их
📝Кто такой веб-аналитик

📌 Продуктовый аналитик - ищет точки роста в продукте и данные о поведении пользователя
📝Кто такие продуктовые аналитики и зачем они нужны в команде

Источник: @analysis_it
С минуты на минуту начнется конференция Smart Data 2021. Там традиционно куча технических докладов про дата-инжиниринг и инфраструктуры для аналитики данных.

В этом году я даже получил заветный билет на нее и смогу посмотреть онлайн.

Есть клевая новость, что на 4 день можно пройти по бесплатному билету, подробнее вот тут в посте организаторов.

#конференции
В статье "An Overview of Dashboarding Technology in the Age of Big Data" рассматриваются 4 альтернативных способа строить дашборды в 2к21:
🔹BI-инструменты;
🔹Notebooks (Deepnote);
🔹Python-библиотеки (Streamlit + Dash);
🔹Frontend к SQL (Redash).

Для каждого из случаев довольно логично описаны сценарии использования и границы применения.

🔗Ссылка

#инструменты #business_intelligence
Неожиданные новости из мира BI-инструментов: Looker и Tableau партнерятся вместо того, чтобы пытаться друг друга скушать.

У Николая на Smart Data 2021 был клевый доклад про Looker ML, который лично для меня приоткрыл завесу тайны над тем, чем крут Looker для self-service.

Если не смотрели - ждите появления докладов на ютубчике (в 2020 году многие доклады с конференции выложили в открытый доступ).

#инструменты #business_intelligence #конференции
Forwarded from LEFT JOIN
Партнерство Tableau и Looker (Google)
На прошлой неделе Tableau объявил о партнерстве с Google и Looker в контексте Self-service аналитики, новость сама по себе очень интересная. Казалось бы, два конкурента в вопросах BI. Однако, кажется, Google в большей степени рассматривает Looker в качестве семантического слоя для описания данных в хранилище и видит перспективу именно в LookML, тогда как визуализацию данных можно отдать Tableau.

Я часто привожу ссылку на блог Benn Stancil, и сейчас в блоге есть соответствующая статья на этот счет: BI is dead.

А в статье любопытная цитата:
Looker choosing to partner with Tableau makes particular sense because Looker’s always been a transformation tool first, and a consumption tool second. Looker’s crown jewel is LookML; Tableau’s is visualization. I’d speculate that Looker originally built its visualization tooling in large part so that they could market and sell the value of LookML, rather than the other way around. By launching this integration, Looker is simply doubling down on that long-standing identity.

#ссылка
Статья "The relationship between data SLAs & data products" подробно раскрывает тезис "данным тоже нужен SLA".

Перед формулированием самих "процентов доступности" сервиса предлагается оценивать 4 критерия:
🔹 доступность;
🔹 полнота;
🔹 точность;
🔹 возможность оперативного контроля и исправления.

И уже дальше сверху этого намазать KPI, что выглядит довольно логично.

🔗Ссылка

#качество #продуктовое
Готовые обзоры - неплохой способ расширить свое понимание рынка, на котором работаешь.

Периодически сам обращаюсь к подобным статьям от NEWHR:
🔹рынок аналитиков;
🔹рынок продактов.

Чтобы такие статьи появлялись и были основаны на реальных данных, их авторы проводят опросы профильных специалистов.

В этом году требуются продуктовые аналитики, руководители аналитиков и смежные с ними продакты. Если вы таковой - давайте поможем получить актуальную информацию.

Вот тут подробнее рассказывают, зачем это все и какова механика вознаграждений (да, она есть).

🔗Ссылка на прохождение опроса

#опрос #анализ_рынка
В статье "5 Roles in Data in 2021" в едином формате описаны 5 ролей в современных дата-командах:
🔹Data Analyst
🔹Business analyst
🔹Data scientist
🔹Data engineer
🔹Machine Learning Engineer

Немного не хватает сводной таблички или иллюстрации границ ответственности.

Зато есть еще такая статья с добавлением продактов и SRE для полноты картины.

🔗Ссылка

#компетенции
Не очень понимаю, зачем в октябре составлять топ визуализаций за год.

Тем не менее, некоторые из них мне сильно приглянулись:
🔹Интерактивный sankey из вложения к посту;
🔹3D-карта протянутых под океанами оптических кабелей;
🔹гонка стран по потреблению алкоголя;
🔹стильная карта ментальных заболеваний в темной теме.

Ниже по ссылке можно найти еще 6 вариантов на любой вкус. Получилась очень разнообразная подборка как по исследуемым темам, так и по вариантам отображения информации.

🔗Ссылка

#визуализации
Восхитительная карта технологий для аналитики данных ("Технославия").

Авторы отмечают следующие тренды 2021 года:
🔹Много инструментов удалили и заменили, основные новшества: SageMaker, Kubernetes, PyTorch, MLFlow, Kubeflow;
🔹Добавилась целая "инфраструктурная территория" с гипероблаками и кубернетисом;
🔹DS-ноутбуки признаны IDE, так как функциональность их продолжает расти;
🔹Растет количество realtime-технологий, но они все еще на отдельном "острове".

P.S. "Болото очистки данных" - one love, очень жизненно.

🔗Ссылка

#инфраструктурное
Forwarded from LEFT JOIN
⚡️Масштабное независимое исследование онлайн-курсов по аналитике ⚡️

Мы с моими коллегами из компании твердо решили узнать все-все самое важное об онлайн образовании по теме аналитики и data science. Об онлайн образовании говорят повсеместно, курсы чрезвычайно распространены, ведь профессии в IT-сфере сейчас очень популярны. Думаю, что огромная часть аудитории данного канала либо прошла, либо собирается пройти курсы, связанные с анализом данных.

Прошу вас пройти опрос и оставить ваше искреннее мнение о той школе, курс в которой вы прошли. Хорошее, плохое, главное, не безразличное!

Буду признателен коллегам владельцам каналов по аналитике за репост. Разумеется, результатами опроса мы вскоре с вами поделимся в виде симпатичного дашборда 🤓

➡️ Ссылка на опрос

p.s. Любые комменты по опросу тоже приветствуются
Вчера окончательно подтвердилось, что смогу поехать на Матемаркетинг 2021. По очевидным причинам давно не был на оффлайн-мероприятиях, рад, что такое сейчас вообще возможно.

Алексею, команде Матемаркетинга, спикерам (среди которых, кстати, можно увидеть авторов клевых аналитических каналов) - огромное спасибо!

Сегодня ребята писали, что еще есть шанс забежать в последний вагон уходящего поезда, стоит поспешить, если еще не решились.

🔗Ссылка

#конференции
"Browser-Based Database Clients" - обзорная статья про варианты подключения к базам данных через браузер:
🔸SQL-клиенты гиперскейлеров (AWS, GCP, Azure);
🔸ноутбукоподобные клиенты (Count.co, Databricks SQL notebook, Franchise);
🔸BI-инструменты, которые могут в SQL (Redash, Metabase, Superset);
🔸Другое (SQLPad, PopSQL, JackDB).

С инструментами из последней категории сталкиваюсь впервые, кажется могут подойти для базовых сценариев, когда дашборды не нужны.

🔗Ссылка

#базы_данных #инструменты