Smart Data – Telegram
Smart Data
1.4K subscribers
22 photos
3 files
58 links
Канал про Data Engineering, аналитику и данные.

По всем вопросам: @ds_im
Download Telegram
Ресурсы для изучения:
AWS Cloud Practitioner Essentials
Data Analytics Fundamentals
Amazon Redshift - Getting Started Guide
Azure Fundamentals part 1: Describe core Azure concepts
Azure Fundamentals part 2: Describe core Azure services
Azure Fundamentals part 3: Describe core solutions and management tools on Azure
Data Engineering, Big Data, and Machine Learning on GCP
Серия постов по Google BigQuery

2. Работа с orchestration tools (или на русском - оркестраторами). Оркестратор - это инструмент, который позволяет объединить все наши этапы по извлечению, трансформации и загрузке данных в единую логическую цепочку, в единый data-пайплайн, чтобы весь ETL-процесс работал слаженно и бесперебойно. Такими инструментами могут выступать:
1) Специализированные решения для оркестрации по типу Apache Airflow, Apache NiFi или Luigi.
2) Готовые ETL-инструменты, такие как AWS Glue, Azure Data Factory, Google Cloud Dataflow, Matillion ETL, Fivetran и др.

Также возможности оркестрации есть в таком инструменте, как Data Build Tool (dbt), но этот инструмент предназначен только для трансформаций данных внутри хранилища данных. Т.е. в ETL он делает T - transform. За E - extract и L - load этот инструмент не отвечает.

Какой из этих инструментов учить зависит, опять-таки, от многих факторов: популярности отдельных инструментов в вашей стране, компании, в которой вы хотите работать, какого-то личного видения и т.д.

Лично я сейчас активно работаю с dbt и решения по типу Apache Airflow ещё не доводилось использовать. Но у меня у самого есть желание хорошо выучить какой-то инструмент для оркестрации всего ETL-процесса и, скорее всего, это будет Airflow, так это решение гибкое - оно не ограничивает вас каким-то одним вендором (как, например, Amazon Glue или Azure Data Factory) и позволяет использовать DevOps-практики. Вы можете развернуть его на локальном сервере или на любом облаке. Но, опять же, повторюсь, всё зависит от многих факторов и тут нужно выбрать инструмент, подходящий конкретно вам. Сразу все инструменты учить нет смысла - достаточно знать один.

3. Spark. Теперь переходим к Big Data. Когда вы работаете уже с очень большими объёмами данных, стандартных решений может быть недостаточно, и вы прибегаете к технологиям параллельной обработки больших массивов данных. Одной из таких технологий является Spark. Так как вы до этого учили Python, то и учить Spark я вам рекомендую, используя уже знакомый вам синтаксис. Этот фреймворк называется PySpark (использовать возможности Spark можно также, программируя на Java или Scala). Хорошим вариантом для изучения PySpark будет использование Databricks Community Edition. Он бесплатный, и там вы можете сразу запускать свой код на PySpark. В общем, очень удобно.

Ресурсы для изучения:
Introduction to PySpark
Big Data Fundamentals with PySpark
Cleaning Data with PySpark
Databricks Community Edition


В принципе, это основные навыки, которые нужны будут вам, чтобы шагнуть на новую ступеньку в развитии вас как data-инженера.
Здесь я не упомянул экосистему Hadoop и сделал это намеренно, так как считаю, что Hadoop - это больше legacy-штука и, со временем, его будут использовать всё реже и реже. Сейчас основной тренд в построении аналитической инфраструктуры направлен на облачные технологии. Это можно увидеть по большому количеству проектов, связанных с миграцией аналитики из on-premise в cloud. В принципе возможности Hadoop можно использовать и в облаке, но не совсем понимаю зачем, если, например, HDFS можно полностью заменить AWS S3, Cloud Storage или Delta Lake, а Hive или Impala - Redshift Spectrum или Google BigQuery.
В общем, я топлю за путь изучения с погружением в Cloud, но вы можете быть со мной не согласны.

После изучения вышеперечисленных технологий и применения их в коммерческих проектах, можно пойти дальше и начать изучать DevOps для data-инжиниринга. В принципе у вас уже есть некоторые знания DevOps-инженера - вы уже изучили Linux и командную строку, Git, Docker и это очень неплохой бекграунд. Теперь можно двигаться дальше и разобраться с более сложными штуками:
4. CI/CD. В принципе, если вы, имея предыдущие навыки, успели поработать на больших коммерческих проектах, то, скорее всего, вы уже сталкивались с CI/CD и использовали специальные инструменты. CI/CD расшифровывается как Continuous Integration и Continuous Deployment. Это автоматический процесс компиляции, тестирования и деплоя вашего кода и приложений в production. Пример CI/CD пайплайна: вы написали код на Python для вашего ETL и сделали push этого кода через Git на GitHub. После этого запускается так называемый build, который запускает автоматический процесс тестирования и деплоймента вашего кода на рабочий сервер или в Docker-контейнер. Для запуска CI/CD пайплайнов используются специальные сервисы, такие как Jenkins, GitLab CI/CD, Bamboo, Circle CI. Облачные провайдеры имеют свои CI/CD сервисы, например, Google Cloud Build, Azure DevOps или AWS CodePipeline.
Что учить, опять-таки, зависит от компании и проекта. Я, например, в своей работе использую Cloud Build, так как тесно работаю с Google Cloud.

Полезные ресурсы здесь посоветовать сложнее, потому что я учил Cloud Build, просто разбираясь с ним на практике, читая разные статьи и справку Google Cloud. Знаю только хороший курс по Jenkins. Если вы до этого не имели опыта с CI/CD, могу рекомендовать этот курс, так как мне нравится как его автор подаёт материал.

5. Infrastructure as Code (IaC). Это когда мы поднимаем всю инфраструктуру, т.е. создаём сервера, группы серверов, load balancer, кластеры контейнеров, привязываем ip-адреса и т.д., через код. Это очень удобно, когда мы создаём отдельные ресурсы для разных сред (dev, test, prod) и хотим просто скопировать всю инфраструктуру на другой проект.
Сам с таким не работал, но хочу обязательно получить такой опыт)
Для IaC также используются свои сервисы, такие как Terraform, AWS CloudFormation, Ansible, Puppet и др. Часто слышу о первых 3-х. Какой из них изучать, снова-таки, зависит от компании и проекта.

Полезные ресурсы:
Курс по Terraform
Урок по AWS Cloud Formation


Думаю, на этом закончим. Как вы смогли увидеть, путь становления data-инженером высокого уровня длинный и интересный. Очень много различных технологий и инструментов. С таким скоупом не соскучишься:)

В следующих постах хочу рассказать о том, что учить и в каком порядке для других специализаций, опираясь на свой опыт и опыт коллег по рынку. Эти пути могут быть не менее интересными для вас:)
Вот и первая тысяча подписчиков набежала)
Спасибо всем, что читаете!☺️
Мне написали по поводу довольно интересной вакансии BI-аналитика уровня Middle. В вакансии указывается на то, что работа будет заключаться не только в построении дашбордов, но и в поиске инсайтов, а также обучении бизнес-пользователей работать с этими дашбордами.

Так как сейчас мои посты посвящены как раз развитию в сфере работы с данными, то считаю, на такой работе потенциально можно получить очень хороший опыт.

Пересылаю сообщение с вакансией.
У кого есть соответствующий набор скиллов и желание расти, можете откликнуться)
Forwarded from George Vinogradov 🍀
Денис привет,

Ищу к себе в команду BI аналитика. Подумал, что в сообществе может быть кому-то интересно.

Описание ниже:

В команду Data Management в Novartis ищу BI аналитика (middle), которому предстоит развивать data-driven подход к принятию решений в компании, анализировать очень разные данные: начиная с продаж, заканчивая digital активностями и hr аналитикой.

Что по стеку: excel (куда без него), sql, alteryx, qliksense, python (nice-to-have)
+ английский на уровне - могу рассказать о своем исследовании.

Подробное описание вакансии и ссылка, чтобы откликнуться в notion.
https://www.notion.so/We-are-hiring-BI-Analyst-d87cae78ee914fbc8db630f607650b75
Ребята, интересная конференция намечается по продуктовой аналитике. От организаторов Матемаркетинга - на мой взгляд, одной из самых толковых конференций по аналитике и инжинирингу на СНГ.
Forwarded from Alexey Nikushin
Уже на следующей неделе пройдет первая в своем роде русскоязычная онлайн-конференция по продуктовой аналитике Aha!'21. Организаторы собрали убедительную программу:

- 20% - про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
- 20% - технологический стек - от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
- 20% - эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и мн. др.
- Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Оргам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital (!!!) - самым успешным венчурным фондом в мире - они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий. Подробная программа конференции.

🔥 Не пропускайте конференцию - промокод - LASTCALL - дает скидку 10% - регистрируйтесь!

❗️Важно! Все материалы — видео, презентации, мастер-классы, доступы в чаты - бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.

Помните - ничто не освобождает вас от знания матчасти!
Ребята, такой вопрос: интересно бы вам было читать информацию о парсинге веб-сайтов и получать объявления о митапах на эту тему здесь на канале?
Anonymous Poll
75%
Да
25%
Нет
Так как большинство ответили "Да" в предыдущем опросе, опубликую мероприятие на соответствующую тему. Мне нравятся мероприятия, которые освещают какую-то узкую область. В них, как правило, наибольшее сосредоточение экспертизы в данной области.
22 апреля в 18-30 MSK пройдёт Parsing Conf 2.

https://news.1rj.ru/str/parsing_conf

Доклады:
1. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
2. "Кейс от mail ru. Россети. Контроль качества данных"
3. "Автоматические регистрации на веб-порталах"
4. "Сбор данных с сейсмографов"
5. "Сбор данных о бумажных книгах"
6. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет"

Ориентировочная длительность мероприятия — 3 часа.

Формат: онлайн.

Мы ждём Вас!
Всем привет. Сегодня я хочу продолжить нашу серию постов о том, что учить и в каком порядке в зависимости от выбранного направления в data-индустрии. В прошлых 2-х постах из этой серии я рассказал про путь data-инженера. Сегодня же я попробую рассказать про путь становления data-аналитика.

Так как я, всё-таки, больше data-инженер, а не data-аналитик, могу что-то не учесть. Но очень постараюсь сделать пост полезным и информативным. В любом случае, буду рад дополнениям в комментариях.

Начинаем.

Вспомним, что мы уже владеем базовыми навыками, которые будут полезны вне зависимости от того, чем вы конкретно занимаетесь в области работы с данными. Это Excel / Google Spreadsheets, теория баз данных и SQL, а также BI-инструменты.
Допустим, мы поработали какое-то время BI-инженером и хотим развиваться дальше, изучая и применяя новые более сложные технологии и инструменты. И мы останавливаем свой выбор на направлении data-аналитики. Ок, что учить дальше?
Вот мой список:

1. Основные аналитические фреймворки. Простыми словами, аналитический фреймворк - это то, в какой форме производится анализ и применяются его методики. Примеры популярных аналитических фреймворков: когортный анализ, RFM-анализ, ROPO-анализ и др. Эти фреймворки применяются в зависимости от предметной области, в которой вы работаете в качестве аналитика, и конкретной задачи. Например, в продуктовой аналитике часто применяется когортный анализ, при анализе клиентской базы - RFM-анализ, в маркетинговой аналитике - ROPO-анализ и т.д.

Полезные ссылки:
Что такое когортный анализ, что нужно для когортного анализа и где его применять
RFM-анализ и сегментация: узнайте больше о своих клиентах
ROPO-эффект: как ваш онлайн-маркетинг влияет на продажи в офлайне


2. Основные метрики предметной области, в которой вы работаете или хотите работать. Для поиска инсайтов и предоставления рекомендаций бизнесу крайне важно знать, за что отвечает каждая метрика, как она связана с другими метриками, а также к каким последствиям и действиям может привести интерпретация каждой метрики эффективности. Очевидно, что набор метрик зависит от предметной области, в которой вы хотите развиваться как аналитик. Например, если вы больше работаете в качестве продуктового аналитика, важно знать такие основные метрики как DAU, ARPDAU, ARPPU, Retention Rate, Churn Rate, CAC, LTV и др. Если вы работаете с маркетингом, важно знать о CPC, CPA, CPL, CPO, ROAS, ROMI и т.д.

В качестве полезных материалов здесь, пожалуй, подойдёт любая статья из интернета по запросу "основные метрики продуктовой аналитики", "основные метрики продукта", "главные метрики интернет-маркетинга" и т.д. Поэтому, здесь на ваш вкус. В последний раз на подобную тему я читал вот эту статью.


3. Знания статистики. Супер-важный скилл для аналитика данных. Аналитик - это тот человек, который должен подвергать сомнениям практически любую свою мысль и искать как можно больше аргументов в сторону своих гипотез. И статистика - это как раз тот инструмент, который ему в этом помогает.
Вот теоретический минимум того, что конкретно нужно знать в этой области (опять же, исходя из своего видения и опыта коллег):
- описательные статистики;
- математическая статистика;
- тестирование гипотез (А/Б-тесты);
- корреляция и регрессия.
Полезные ресурсы:
Основы статистики
Основы статистики. Часть 2
Основы статистики. Часть 3


Имея критическое мышление, со знаниями Excel, SQL, BI, аналитических фреймворков, метрик и статистики вы вполне можете претендовать на позицию Junior / Middle аналитика данных, в зависимости от требований и технологического стека компании.
И ещё я хотел бы сказать по поводу Python / R: многие компании вполне обходятся без них при анализе данных. Как по мне, Python или R - это уже следующий этап в пути data-аналитика, но никак не в ряду первых.
Как доказательство, около полугода назад мой знакомый искал работу на позицию Junior Data Analyst. В большинстве случаев, его тестовые задания сводились к знаниям метрик, аналитических фреймворков (был тест на когортный анализ в Excel), статистики, BI и SQL. Не помню, чтобы он упоминал Python или R.
Для аналитика более важно иметь критическое мышление и давать разумные рекомендации бизнесу. Каким инструментом он будет собирать и анализировать данные не так важно. Аналитик - это человек, который приближен к бизнесу и принятию решений.
Поэтому, не хватайтесь сразу за языки программирования, научитесь думать, строить гипотезы и делать выводы. Вышеперечисленных инструментов вполне достаточно, чтобы это сделать.

4. А вот когда будете понимать, что остановились в развитии и хочется применять новые и более гибкие технологии, можете переходить к изучению Python или R. Здесь, как и в любом другом случае, выбрать какой-то один язык. Какой - зависит от ваших предпочтений, рынка и требований компаний, в которых вы хотели бы работать. Могу сказать только вкратце: Python более универсальный, так как на этом языке можно как строить сложное ПО, так и анализировать данные и строить ML-модели.
R - более узкоспециализированный. Он имеет очень большое количество различных статистических и аналитических пакетов.
Здесь также нужно понимать, что программирование аналитика отличается от программирования разработчика или data-инженера. Аналитику нужно меньше знать о тонкостях языка, написании эффективного кода, ООП, контекстных менеджерах и т.д. Как правило, аналитику достаточно знать основы языка и хорошо владеть специализированными фреймворками (такими как Pandas в Python, например). Попытаюсь здесь дать список того, что должен знать "аналитик-программист":)

1) Базовый синтаксис языка (переменные, типы данных, условия, циклы, функции);
2) Работа с дата-фреймами (преобразование файла в дата-фрейм, очистка данных, первичный анализ дата-фрейма, арифметические и агрегирующие операции, построение сводных таблиц и т.д.);
3) Умение подключаться к базам данных / хранилищам данных и загружать данные в дата-фрейм;
4) Умение читать данные через REST API web-систем и делать простой парсинг контента веб-страниц;
5) Владение фреймворками для визуализации данных (в Python, например, это Matplotlib, Plotly и Seaborn).

Полезные ресурсы по Python:
Программирование на Python
Введение в pandas: анализ данных на Python
Introduction to Data Science in Python
Data Manipulation with pandas
Joining Data with pandas
Introduction to Data Visualization with Matplotlib
Introduction to Data Visualization with Seaborn
Introduction to Importing Data in Python
Intermediate Importing Data in Python
Streamlined Data Ingestion with pandas
Introduction to Databases in Python
Аналитикам: большая шпаргалка по Pandas
Парсинг сайтов на Python: подробный видеокурс и программный код
SQLAlchemy — Python Tutorial
Книга по Matplotlib

Полезные ресурсы по R:
Основы программирования на R
Анализ данных в R
Базовые графические возможности R: гистограммы
Introduction to the Tidyverse
Data Manipulation with dplyr
Joining Data with dplyr
Introduction to Data Visualization with ggplot2
Reporting with R Markdown
Data Manipulation with data.table in R
Joining Data with data.table in R
Introduction to Importing Data in R
Intermediate Importing Data in R

Думаю, что этих знаний вполне достаточно, чтобы стать хардкорным аналитиком данных и зарабатывать хорошие деньги. Как advanced-навык вы ещё можете начать изучение Machine Learning, но это тема отдельной статьи)
И в качестве хорошего дополнения
Forwarded from Product Analytics
​​5 навыков аналитика от Паши Левчука:

1/ business needs understanding
Часто аналитику говорят как дедать, а не что. И в результате решается другая задача. А значит нужно погружаться и задавать вопросы. В конечном итоге задача должна быть перефразированна и подтверждена клиентом.

2/ knowledge of infrastructure
Знание источников данных, потоков обработки, и конкретных таблиц является залогом того, можно ли сразу, на совещании, ответить на вопрос если у нас данные для поиска ответа.

3/ engineering skills
Даже с DWH, данные крайне редко находятся в нужном виде. А значит трансформация данных и написание эффективного кода определяют как быстро вы можете приблизиться к ответу, как легко сможете воспроизводить анализ и вносить правки для будущих нужд.

4/ summary/visualization skills
Хороший отчёт или исследование это всегда структура и стройность мысли, понятное введение и поддерживающие таблицы и графики. Если этого нет, то результ часто обречен быть непонятым и не рассмотренным серьезно.

5/ recommendations skills
Даже если отчёт удачно сложен, рекомендации это первое что попросит у вас заказчик. Если их нельзя синтезировать, то работа сделана лишь наполовину.

via @ProductAnalytics
Сегодня в 18:00 по Киеву и Москве будет проходить Apache Airflow Workshop от Grid Dynamics.

Сам зарегистрировался на него. Возможно, кто-то из вас тоже захочет послушать и попрактиковаться.

Из требований:
- знания английского (воркшоп будет на английском);
- Intermediate уровень в Python (знаете базовый синтаксис, умеете писать скрипты и несложные программы);
- установленный Docker и Docker Compose на ваш компьютер.

Воркшоп бесплатный.
Наткнулся на довольно интересный Data Engineering Study Guide. Его подготовили люди, которые проходили собеседование в FAANG и другие крупные технологические компании и успешно его прошли. Много внимания уделено SQL и решению задач на применение алгоритмов (использовать алгоритмы можно на любом языке программирования). Условно, если вы знаете Python или приняли решение его изучать, то, следуя этому гайду, вы будете решать много задачек на SQL и алгоритмы с использованием Python. В принципе, как я уже писал, SQL и Python - 2 основных навыка для data-инженера.
Я просмотрел задачки в этом гайде и, действительно, нужно будет напрячься:)Очень хорошая встряска для мозгов.

Но ещё меня этот гайд натолкнул на то, чтобы написать своё мнение по поводу "нужно ли знать алгоритмы или можно обойтись без них?"

Вот несколько моих мыслей:

- С одной стороны, большую часть бизнес-задач можно спокойно решить без знаний алгоритмов. Мне, например, не особо нужны знания алгоритмов, когда я пишу ETL-скрипты. Сейчас есть огромное множество готовых встроенных функций языка, пакетов, классов и методов, которые при знаниях синтаксиса и должном уровне смекалки можно успешно использовать и строить программы. Есть также много примеров кода в интернете, который можно брать за основу и адаптировать под себя. Главное, понимать, что хранится в переменных, что делают конкретные функции и т.д.
Поэтому, спрашивать алгоритмы у человека, который собеседуется на позицию Junior или Middle, как по мне, глупо. Главное - решить бизнес-задачу.

- С другой стороны, хочется постоянно растить свои знания и навыки и бесполезно учить новые готовые функции и классы, если вы не применяете их на практике. В таких случаях будет, наоборот, полезно углубиться в основы программирования, понять, на чём основаны эти наши функции и классы. Это даёт более глубокое понимание процессов и развивает логическое мышление при решении задачек на алгоритмы.
Буквально неделю назад я решил тоже копнуть глубже и разобраться с программированием на более низком уровне. Начал читать книгу "Структура и интерпретация компьютерных программ". Классика в сфере программирования. Всё очень фундаментально и детально описано. Книга базируется на языке lisp, а точнее на его диалекте scheme. Я сначала выполнял упражнения на scheme, но потом решил, что для меня будет полезнее эти же задачки решать с помощью Python. Поэтому всё переложил на его синтаксис.
Также считаю, что без знаний алгоритмов и структур данных намного сложнее (если вообще возможно) создавать какие-то крутые инновации в программном мире. Сложно создавать инновации, если не знаешь фундаментальной сути того, что уже есть.


В общем, я сделал такой вывод: если вы хотите быстрее войти в сферу data-инжиниринга и программирования в целом, то алгоритмы - не то, что вам нужно учить в первую очередь. А вот когда вы уже вольётесь, начнёте решать бизнес-задачи и захотите выйти на кардинально новый уровень - можно копать глубже и учить алгоритмы.

А вы как считаете?
Хочу всем порекомендовать курс по SQL от Анатолия Балакирева в рамках Data Learn. Наверное, самый подробный и полный бесплатный русскоязычный курс по SQL, который я видел.

Всегда уважаю и ценю такой большой труд.
Всем привет.

Сегодня хочу возобновить серию постов о том, что учить и в каком порядке в зависимости от выбранного направления работы с данными. Напомню, что прошлые посты были посвящены тому, что учить в первую очередь всем вне зависимости от направления, что учить инженеру данных и что учить data-аналитику.

Сегодня же я хочу затронуть направление web/app и продуктовой аналитики. Я специально не выделяю web/app аналитику как отдельное направление, так как обычно люди, которые начинают с веба, чаще всего затем занимаются продуктовой аналитикой, добавляя в свой арсенал SQL, BI-инструменты, сервисы для A/B-тестирования и языки программирования (Python или R). Для меня продуктовый аналитик - это тот же data-аналитик, но с фокусом на конкретный продукт (сайт или мобильное приложение) и с фундаментальными знаниями сервисов web/app аналитики и A/B тестирования.

Т.е. в моей картине мира есть 2 отправные точки, из которых можно стать продуктовым аналитиком:

1) Начать с классической веб-аналитики и дальше добавлять в свой арсенал сервисы мобильной аналитики, SQL, BI-инструменты и сервисы для проведения A/B-тестов на сайте и в приложении. Ну и, конечно же, не забываем читать продуктовые кейсы и изучать метрики продуктовой аналитики.

2) Начать работать BI-разработчиком и, уже имея знания SQL и BI-инструментов, дальше изучать и пробовать работать с сервисами web/app аналитики и проводить
A/B-тесты.

Первый вариант - это больше про тех людей, кто вообще начинал с performance-маркетинга (PPC, SEO и т.д.), они каждый день соприкасались с веб-аналитикой и затем решили полностью уйти в это направление. На моей практике я как раз встречаю больше таких людей, чем тех, кто начинал работать веб-аналитиками с чистого листа. Поэтому, если у вас нет опыта в performance-маркетинге, для вас логичным будет либо начать свой пусть с BI и находить возможности, чтобы дополнительно поработать с сервисами web/app аналитики, либо пройти специализированные курсы по веб-аналитике, получить хоть какой-то сертификат (кстати, можно пройти профессиональную сертификацию по Google Analytics от Google) и пробовать стучаться в крупные агентства интернет-маркетинга на позицию Junior веб-аналитика. Самому разобраться в веб-аналитике без боевого опыта будет крайне сложно.

Ок, теперь о том, что нужно учить и какой порядок изучения выбрать. Предположим, вы начали свой путь как BI-разработчик и теперь хотите работать с продуктом как аналитик. Вы уже знаете Excel, теорию баз данных, SQL и владеете одним или несколькими BI-инструментами. Как двигаться дальше?

1. Изучить основные концепции и метрики продуктовой аналитики. Здесь я бы рекомендовал пройти вот этот базовый курс. Он основан на игровой аналитике, но все принципы можно спокойно перекладывать на другие сферы.

2. Научиться работать с Google Analytics. Google Analytics - бесспорно является самым популярным сервисом веб-аналитики в мире. Его задача - собирать и представлять данные об источниках трафика, через которые пользователи попадают на сайт, и собирать данные об их поведении при его посещении.

Полезные ресурсы:
Курс по Google Analytics для начинающих (Google)
Книга по Google Analytics (Universal Analytics)
Курс "Анализ данных в Google Analytics"
Статьи по Google Analytics 4

4. Научиться работать с Google Tag Manager. Google Tag Manager - это инструмент, который позволяет размещать различные теги на сайте без прямого доступа к его коду. Это ключевой инструмент для настройки сбора данных на сайте и отправки их в различные системы аналитики и рекламные сервисы. Здесь я бы просто советовал прочитать вот эту книгу и много-много практиковаться.
Дополнительно хочу дать список блогов, которые я читал и читаю на тему веб-аналитики:
Блог Якова Осипенкова
Блог Андрея Осипова
Блог Макса Гапчука
Блог Симо Ахавы
Блог "Analytics mania"
Блог "BurgerData"
Блог Дмитрия Осиюка
Блог компании OWOX


5. После того, как вы немного освоились с сервисами веб-аналитики, я бы рекомендовал разобраться c сервисами мобильной аналитики. Сервисов мобильной аналитики довольно много. Примеры: Firebase Analytics, AppsFlyer, Adjust, Amplitude и др. Лично я сначала разбирался с Firebase Analytics.
Также очень важная тема при работе с мобильной аналитикой - это настройка и использование deep links.

Полезные ресурсы:
Плейлист по Firebase Analytics
Документация Firebase Analytics
Плейлист по dynamic links (deep links) в Firebase
Статья про работу с deep links

6. Научиться работать с сервисами для A/B тестирования. Здесь раскрыть тему вряд ли смогу, так как работал только с A/B тестами на сайте через Google Optimize. Есть ещё специализированные сервисы для A/B-тестов в мобильных приложениях, но с ними я никогда не работал.

Дальнейший путь изучения практически идентичен тому, который я описывал в предыдущем посте для аналитика данных.


Если вы, наоборот, начали не с BI, а сразу начали выполнять задачи по веб-аналитике и уже неплохо знакомы с Google Analytics и Google Tag Manager, то я бы рекомендовал построить дальнейшее обучение в таком порядке:

1) Изучить основные концепции и метрики продуктовой аналитики
2) Разобраться c сервисами мобильной аналитики
3) Научиться работать с сервисами для A/B тестирования
4) Изучить SQL. Очень рекомендую курс из моего предыдущего поста
5) Научиться работать с одним BI-инструментом
6) Подтянуть знания статистики
7) Python/R как advanced навык

Конечно, в боевых условиях вы вряд ли строго будете соблюдать какой-то определённый порядок, так как задачи прилетают постоянно разные и вы постепенно будете учиться всему по чуть-чуть. Моя последовательность - это больше попытка помочь людям структурировать мысли и дать примерное направление, в котором можно двигаться.

Поэтому строго соблюдать порядок абсолютно необязательно, главное продолжать идти:)
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Топ ресурсы по Data Engineering и Analytics:
- Телеграм канал Инжиниринг Данных 🕺
- Курсы Data Learn 💃
- KDnuggets https://www.kdnuggets.com/news/index.html
- Cloudera | Data Engineering https://blog.cloudera.com/product/data-engineering/
- Silectis https://www.silect.is/blog/
- The RudderStack Blog https://rudderstack.com/blog/
- Facebook Engineering https://engineering.fb.com/
- Snowflake | Inside the Data Cloud https://www.snowflake.com/blog/
- Precisely Blog https://www.precisely.com/blog
- Data Engineering in Towards Data Science https://towardsdatascience.com/tagged/data-engineering
- SmartData Collective https://www.smartdatacollective.com/
- WeCloudData https://weclouddata.com/blog/
- Uber Engineering Blog https://eng.uber.com/
- Team Data Science Blog https://www.teamdatascience.com/blog
- Secoda Data Discovery Blog https://www.secoda.co/blog
- AWS Big Data Blog https://aws.amazon.com/blogs/big-data/
- Data Mechanics Blog https://www.datamechanics.co/blog
- ActiveWizards | Data Science and Engineering Lab https://activewizards.com/blog/
- Data Wow Blog https://datawow.io/blogs
- Pinterest Engineering https://medium.com/@Pinterest_Engineering
- Yelp Engineering and Product Blog https://engineeringblog.yelp.com/
- Netflix TechBlog https://netflixtechblog.com/
- LinkedIn Engineering Blog https://engineering.linkedin.com/blog
- Databricks Blog https://databricks.com/blog
- Knoldus » ML, AI and Data Engineering https://blog.knoldus.com/category/tech-blogs/machine-learning/
- XenonStack » Big Data Engineering https://www.xenonstack.com/blog/category/big-data-engineering/
- Dataquest » Data Engineering https://www.dataquest.io/blog/tag/data-engineering/
- Scribd Technology Blog https://tech.scribd.com/blog/
- Learn Data Engineering https://learndataengineering.com/blog
- data.world Blog https://data.world/blog/
- Ripple Engineering » Data https://engineering.ripple.com/tag/data/
- Jesse Anderson Blog https://www.jesse-anderson.com/category/blog/
В продолжение темы о том, как развиваться в выбранной области работы с данными (DE, DA, DS и т.д.) нашёл интересную серию статей на Хабре.

Автор описывает "что учить" и "как учиться", чтобы стать классным Data Scientist.
Так как у меня ещё не было поста для потенциальных дата-сайнтистов (да и я непосредственно в Data Science не силён), думаю, эта серия постов - как раз то, что нужно.

Очень симпатизирует видение автора в принципах обучения, так как оно пересекается с моим. + его личная история может многих вдохновить.