Я у мамы аналитик – Telegram
Я у мамы аналитик
2.81K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
На этой неделе попробую вернуться в более серьезное русло (не все же про музыку с алокоголем писать).

Начнем со свежайшей статьи на русском языке про тренды развития BI-систем.

Что внутри:
🔹небольшой обзор рынка и проблематики;
🔹интереснейшая часть про Augmented Business Intelligence (в свое время можно было прочесть у Gartner, но если пропустили - вам сюда);
🔹эволюция визуализаций (3D, storytelling, BIM);
🔹собранные из разных источников тенденции развития BI-инструментов.

Если смотреть на получившийся список трендов достаточно долго, в голову действительно приходит вывод про их общую направленность на демократизацию данных (вот тут хорошая статья на эту тему).

🔗Ссылка

#business_intelligence
Принес кое-что про большие данные почитать: «Big Data: перспективы развития, тренды и объемы рынка больших данных».

В статье собраны обзоры состояния мирового рынка аналитики и Big Data в разных разрезах. Прогнозируемый объем в 274,3 млрд долларов к 2022 году - это сильно.
Что интересно, присутствует и обзор рынка РФ, причем с какой-никакой оценкой в деньгах (правда от 10 до 30 млрд рублей - такая себе точность).

И дополнение к статье: крутой отчет Mordor Intelligence о мировом рынке Big Data as a service. На всякий случай: это когда клиент получает инфраструктуру для обработки больших данных как готовую услугу у своего сервис-провайдера (по факту, не занимается ее самостоятельной поддержкой).

Такой формат потребления составляет около 5-7% от всего объема мирового рынка и можно предположить, что на территории СНГ эта доля будет еще ниже из-за меньшей степени зрелости рынка.

🔗Ссылка

#анализ_рынка
На хабре любезно перевели крутую статью Andreessen Horowitz «The Emerging Architectures for Modern Data Infrastructure» про то, как модно и со вкусом обрабатывать данные в современном мире.

Самое полезное - это, конечно, архитектурные схемы с распределенными по ним решениями и инструментами.
Это неплохая отправная точка, чтобы начать собираться со стеком технологий, который лежит в основе современных аналитических систем.

Еще можно заценить тренды развития этих архитектур, которые когда-нибудь и до нас дойдут.

🔗Ссылка

#data_engineering
Глоссарий, в котором сгруппированы и описаны 26 базовых англоязычных термина из мира аналитики, Big Data и AI.

Не сказал бы, что эти определения сложно найти в другом месте (там даже ссылки на первоисточники), но то как все систематизировано вызывает уважение.

Плюс, есть наглядная градация по уровням зрелости организаций.

🔗Ссылка

#учебное
Роль очистки данных нередко недооценивают, а мне вот близка позиция автора статьи «Data Cleaning IS Analysis, Not Grunt Work», что это и есть аналитическая работа в чистом виде.

Аргументация выглядит так: «We’re doing cleaning because we want to extract the useful signal from the noise, and we decide certain bits of noise “correctable” at the data point level for that purpose».

В целом, в статье предлагается уйти от общепринятого подхода, когда для решения задачи данные сначала единовременно очищаются, а после анализируются.

Альтернатива такова: ничего безвозвратно не перетирать, создавая алгоритмы трансформации данных с возможностью отката и переиспользования (в статье есть визуализация для наглядности).

Ничего не напоминает? Мне вот кажется, что это попытка приземлить инфраструктурные практики продвинутых компаний на "простых" аналитиков (пропаганда перехода от ETL к ELT, если угодно).

🔗Ссылка

#инструменты
В исследованиях рынков есть такой классный тип артефактов - Landscape. В идеале, он должен помогать понять 2 вещи:
🔹какие типы процессов или операций есть в отрасли;
🔹какие существуют инструменты для их реализации или автоматизации.

У такого формата есть существенный минус: сходу ничерта не ясно, да и понять что-то без дополнительной аналитики и пояснений непросто (особенно в новой для себя сфере).

Поэтому особое внимание к себе привлекают материалы вроде сегодняшнего The 2020 Data & AI Landscape, где есть и ландшафт рынка и понятные выводы.

Помимо картинок есть описание основных трендов в развитии инфраструктур для обработки данных, самой аналитики и AI (их довольно много, рекомендую самостоятельно ознакомиться).

Вот ссылка на картинку в хорошем разрешении.

🔗Ссылка на статью

#инструменты #анализ_рынка
Google запустил публичную бета-версию своей платформы «Know Your Data» для работы с датасетами в графическом веб-интерфейсе.

Если упрощать, то это аттракцион под названием «почувствуй себя дата саентистом, зная примерно 0 языков программирования».

В качестве примера можно поковыряться в любом из стандартных наборов данных TensorFlow.
Можно быстро и по-всякому пофильтровать изображения, посмотреть, как все размечено, протегировано, как параметры соотносятся друг с другом (поделать exploratory data analysis).

🔗Ссылка

#инструменты
В статье с Хабра «Все что вы (не) хотели знать о Data Science» обнаружил интересный взгляд на содержание профессии Data Scientist.

Стоит посмотреть хотя бы ради описания того, как разные функциональные роли вроде data engineer, analyst, MLOps накладываются на 3 ключевых области компетенций:
🔹математика и статистика;
🔹разработка и администрирование;
🔹знание предметной области.

Еще есть верхнеуровнево про грейды дата саентистов, подготовку к собеседованиям и специфику Ситимобила.

🔗Ссылка

P.S. Утаскиваю из комментариев замечательное дополнение: «Как стать дата-шрушером aka вкатиться в DS». Более практичный и подробный взгляд изнутри с нецензурщиной и мемами.

#компетенции
Спонсор сегодняшнего поста - статья с vc «Тренды ИИ: что происходит в сфере искусственного интеллекта в 2021 году».

По-моему отличная идея: ближе к середине года смотреть, какие из прошлых прогнозов начали сбываться, а какие еще нет.

Главный тренд 2021 года: демократизация ИИ.

Сам стэк технологий становится доступнее простым смертным. В результате появляются новые продукты, сервисы, open-source инструменты. Соответственно, растет количество новостей и публикаций реальных (и не очень) кейсов в СМИ.

По итогам 2020 года:

Что и где, как и прогнозировалось, развивается и получает практическое применение:
🔹NLP примерно везде;
🔹компьютерное зрение;
🔹беспилотники;
🔹исследования лекарств в медтехе;
🔹дипфейки;
🔹рассуждения об этике и морали применительно к AI.

Что пока не полетело:
🔻цифровые двойники предприятий;
🔻чипирование и нейроинтерфейсы;
🔻повальное внедрение чат-ботов (но это не точно);
🔻готовые платформы для создания продуктов на базе ИИ.

🔗Ссылка

#анализ_рынка
Небольшой текст, описывающий внедрение процесса обязательного документирования в команде аналитиков.

Как часто бывает, это компиляция нескольких подходов и методов вроде Culture Map, 5W1H, командного целеполагания и измерения промежуточных результатов.

🔗Ссылка

#компетенции
«12 SQL and NoSQL Datastores for Your Application» - еще одна
статья-введение в современные СУБД.

Есть слайды, на которых нормально пояснены:
🔹разница между OLTP / OLAP;
🔹SQL / NoSQL;
🔹разные варианты хранения неструктурированных или частично структурированных данных.

Гвоздь программы: сводная табличка с классическими и облачными решениями (AWS, Azure, GCP) для хранения всех возможных типов данных.

🔗Ссылка

#базы_данных
Краткая история появления роли дата-инженера на фоне развития инструментов для работы с данными и команд, которые их используют.

Упрощенно, это путешествие от мира, где данными владеют суровые «айтишники» к светлому будущему, где независимые команды управляют каждая своим доменом данных и эффективно обмениваются информацией.

🔗Ссылка

#data_engineering
Занятный кейс использования матриц в Excel в качестве альтернативы протягиванию формул.

Вроде как таблицы с большим количеством вычислений становятся более «антивандальными» и простыми в поддержке.

С другой стороны, использование такой функциональности для совсем уж базовых сценариев вроде «вычел-поделил» похоже на выстрел из пушки по воробьям.

Надо будет попробовать на досуге (вроде как работает и в Google Sheets).

И да, поделитесь опытом подобных извращений, если имели удовольствие его получить.

🔗Ссылка

#excelное
С помощью статьи «Analytics Maturity Model: Levels, Technologies, and Applications» можно глубже погрузиться в тему data literacy и уровни развития аналитики в организациях.

По сути, описаны отличия пяти уровней зрелости:
🔹Отсутствие аналитики;
🔹Описательная;
🔹Диагностическая;
🔹Предикативная;
🔹Предписательная.

Очень круто, что сформулированы необходимые изменения для перехода с этапа на этап и общие рекомендации в конце статьи.

Немного другая интерпретация, чуть менее подробно, но зато на русском - тут.

🔗Ссылка

#компетенции
«Data Strategy: Good Data vs. Bad Data» - классная статья про то, как стратегия компании влияет (точнее, должна влиять) на стратегию по работе с данными.

Есть интересная классификация данных:
🔹«хорошие» - это те, которые осознанно собраны и обработаны для того, чтобы решить конкретную задачу бизнеса;
🔻«плохие» - это те, которые мы просто собрали и пытаемся на их основании делать выводы, не отталкиваясь от текущей стратегии и приоритетов.

Еще тут зачем-то снова переизобрели HADI-циклы (или PDCA, как кому удобнее), но уже применительно к обработке данных.
Получилось 5 этапов: Action -> Data -> Information -> Insight -> Decision.

🔗Ссылка

#компетенции #стратегия
Продолжение классной статьи про роль дата-инженера, на этот раз про тренды и будущее.

Очевидно, все они напрямую связаны с общими по отрасли (аналитика, ML, Big Data):
🔹дата-инженеры в будущем частично заменят дата-саентистов (задач по инфраструктуре будет только больше);
🔹после того, как ответственность за данные перетечет из единого центра компетенций к отдельным командам, каждой из них потребуется поддержка дата-инженера или свой собственный специалист такого профиля;
🔹появится больше стартапов-единорогов, решающих задачи дата-инженеров (далеко ходить не надо, Snowflake и Databricks уже безумно взлетели);
🔹инструменты для перемещения данных станут повсеместно распространены, будут у всех, учить их обязательно;
🔹обработка данных в реальном времени станет отраслевым стандартом.

🔗Ссылка

#data_engineering #компетенции
Инструментальных статей для аналитиков и дата-саентистов на любом ресурсе хоть отбавляй.

Может сложиться впечатление, что эта роль - чисто про hard-skills: взял правильный инструмент, закодил/залоукодил обработку данных, красиво визуализировал.

При чтении сегодняшней статьи разу вспоминается фраза «самые важные вещи на свете - это не вещи». Переформулировать это изречение можно так: инструменты - это замечательно, но критическое мышление и здравый смысл еще никто не отменял.

Про них и расскажут по ссылке ниже.

🔗 Ссылка

#компетенции
Кажется, что ведение канала - единственная вещь, которая заставляет меня на 100% ощущать себя слоупоком.

Еще в прошлую пятницу ребята из @it_resume выкатили на Хабр подборку telegram-каналов для аналитиков.
Ссылка на нее довольно резво разлетелась по всем задействованным каналам (что чертовски логично).

А вот у меня только сегодня доходят руки написать что-то типа «Мама, я в телевизоре!».

Лично меня порадовала сама статья:

В ней есть почти все классные каналы, которые читаю. На ребят, с которыми не был знаком, тоже было не грех подписаться.

Широк набор освещаемых тем: от дата-инжиниринга и хард-скилловых вещей до визуализации и нежно любимого мной BI.

Неожиданно для меня список получился довольно «очеловеченным». Упоминания авторов и их историй напомнили о том, что за всеми постами, ссылками, картинками стоят живые люди. Поэтому и сами каналы такие разные - со своим стилем, экспертизой в предметной области, взглядом на аналитику. И круто, что таким образом можно смотреть на предмет своего интереса с разных сторон.

Жаль только, что ряд классных каналов не попал в подборку. Частично с этим поборолся Роман Бунин вот тут. Я тоже занялся систематизацией того, что читаю, возможно чем-то поделюсь позже.

🔗Ссылка

#каналы
Оставлю тут мою любимую картинку со слоупоком для привлечения внимания.
Ежегодный обзор российского рынка аналитики от Cnews традиционно хорош тем, что в нем есть подробная информация про денежки.

Топ-15 компаний рейтинга вместе зарабатывают 24,9 млрд рублей, на 15% больше прошлогоднего результата.
Измерять таким способом размеры рынка странновато, но темпы роста примерно прикинуть можно.

Вот рейтинг поставщиков аналитических решений с прибылью год к году.

Если интересно, на разводящей странице можно найти все материалы исследования:
🔗Ссылка

#анализ_рынка
Business Intelligence Strategy: How to Develop and Document your BI Roadmap.

Статья описывает подход к развитию корпоративной BI-системы, который меня так и тянет назвать «продуктовым».

Все как по учебнику: стратегия, вижен, roadmap, отслеживание метрик, процессы и документирование.

В качестве бонуса есть классная картинка Gartner про уровни зрелости BI.

🔗 Ссылка

#business_intelligence