Вот и первая тысяча подписчиков набежала)
Спасибо всем, что читаете!☺️
Спасибо всем, что читаете!☺️
Мне написали по поводу довольно интересной вакансии BI-аналитика уровня Middle. В вакансии указывается на то, что работа будет заключаться не только в построении дашбордов, но и в поиске инсайтов, а также обучении бизнес-пользователей работать с этими дашбордами.
Так как сейчас мои посты посвящены как раз развитию в сфере работы с данными, то считаю, на такой работе потенциально можно получить очень хороший опыт.
Пересылаю сообщение с вакансией.
У кого есть соответствующий набор скиллов и желание расти, можете откликнуться)
Так как сейчас мои посты посвящены как раз развитию в сфере работы с данными, то считаю, на такой работе потенциально можно получить очень хороший опыт.
Пересылаю сообщение с вакансией.
У кого есть соответствующий набор скиллов и желание расти, можете откликнуться)
Forwarded from George Vinogradov 🍀
Денис привет,
Ищу к себе в команду BI аналитика. Подумал, что в сообществе может быть кому-то интересно.
Описание ниже:
В команду Data Management в Novartis ищу BI аналитика (middle), которому предстоит развивать data-driven подход к принятию решений в компании, анализировать очень разные данные: начиная с продаж, заканчивая digital активностями и hr аналитикой.
Что по стеку: excel (куда без него), sql, alteryx, qliksense, python (nice-to-have)
+ английский на уровне - могу рассказать о своем исследовании.
Подробное описание вакансии и ссылка, чтобы откликнуться в notion.
https://www.notion.so/We-are-hiring-BI-Analyst-d87cae78ee914fbc8db630f607650b75
Ищу к себе в команду BI аналитика. Подумал, что в сообществе может быть кому-то интересно.
Описание ниже:
В команду Data Management в Novartis ищу BI аналитика (middle), которому предстоит развивать data-driven подход к принятию решений в компании, анализировать очень разные данные: начиная с продаж, заканчивая digital активностями и hr аналитикой.
Что по стеку: excel (куда без него), sql, alteryx, qliksense, python (nice-to-have)
+ английский на уровне - могу рассказать о своем исследовании.
Подробное описание вакансии и ссылка, чтобы откликнуться в notion.
https://www.notion.so/We-are-hiring-BI-Analyst-d87cae78ee914fbc8db630f607650b75
Georgiy Vinogradov on Notion
We are hiring | BI Analyst | Notion
В Novartis в команду Data Management ищем еще одного опытного BI аналитика для развития системы корпоративной отчетности и data-driven подхода к принятию решений в компании. Запросов на отчетность от бизнес пользователей крайне много, данные разные и интересные…
Ребята, интересная конференция намечается по продуктовой аналитике. От организаторов Матемаркетинга - на мой взгляд, одной из самых толковых конференций по аналитике и инжинирингу на СНГ.
Forwarded from Alexey Nikushin
Уже на следующей неделе пройдет первая в своем роде русскоязычная онлайн-конференция по продуктовой аналитике Aha!'21. Организаторы собрали убедительную программу:
- 20% - про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
- 20% - технологический стек - от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
- 20% - эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и мн. др.
- Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Оргам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital (!!!) - самым успешным венчурным фондом в мире - они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий. Подробная программа конференции.
🔥 Не пропускайте конференцию - промокод - LASTCALL - дает скидку 10% - регистрируйтесь!
❗️Важно! Все материалы — видео, презентации, мастер-классы, доступы в чаты - бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.
Помните - ничто не освобождает вас от знания матчасти!
- 20% - про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
- 20% - технологический стек - от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
- 20% - эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и мн. др.
- Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Оргам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital (!!!) - самым успешным венчурным фондом в мире - они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий. Подробная программа конференции.
🔥 Не пропускайте конференцию - промокод - LASTCALL - дает скидку 10% - регистрируйтесь!
❗️Важно! Все материалы — видео, презентации, мастер-классы, доступы в чаты - бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.
Помните - ничто не освобождает вас от знания матчасти!
matemarketing.timepad.ru
Aha! Лови момент / События на TimePad.ru
Aha! – международная практическая онлайн-конференция по продвинутой продуктовой аналитике. Среди спикеров конференции представители крупных российских и зарубежных компаний: Avito, Яндекс, Amplitude, Flo, MIRO и др. Целевая аудитория —продуктовые аналитики…
Ребята, такой вопрос: интересно бы вам было читать информацию о парсинге веб-сайтов и получать объявления о митапах на эту тему здесь на канале?
Anonymous Poll
75%
Да
25%
Нет
Так как большинство ответили "Да" в предыдущем опросе, опубликую мероприятие на соответствующую тему. Мне нравятся мероприятия, которые освещают какую-то узкую область. В них, как правило, наибольшее сосредоточение экспертизы в данной области.
22 апреля в 18-30 MSK пройдёт Parsing Conf 2.
https://news.1rj.ru/str/parsing_conf
Доклады:
1. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
2. "Кейс от mail ru. Россети. Контроль качества данных"
3. "Автоматические регистрации на веб-порталах"
4. "Сбор данных с сейсмографов"
5. "Сбор данных о бумажных книгах"
6. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет"
Ориентировочная длительность мероприятия — 3 часа.
Формат: онлайн.
Мы ждём Вас!
https://news.1rj.ru/str/parsing_conf
Доклады:
1. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
2. "Кейс от mail ru. Россети. Контроль качества данных"
3. "Автоматические регистрации на веб-порталах"
4. "Сбор данных с сейсмографов"
5. "Сбор данных о бумажных книгах"
6. "Парсинг через Tor: Как скачать 1.5 млн патентов за 2 недели, а не за 40 лет"
Ориентировочная длительность мероприятия — 3 часа.
Формат: онлайн.
Мы ждём Вас!
Telegram
Parsing Conf
Data collection conference/meetup
Митап о сборе данных
Тематические объявления и посты бесплатно размещаем
По всем вопросам можно обращаться в чат
https://news.1rj.ru/str/joinchat/HvuCPzwpPJHrrDfC
или в личку @NikolayKrupiy @cuda23
Митап о сборе данных
Тематические объявления и посты бесплатно размещаем
По всем вопросам можно обращаться в чат
https://news.1rj.ru/str/joinchat/HvuCPzwpPJHrrDfC
или в личку @NikolayKrupiy @cuda23
Всем привет. Сегодня я хочу продолжить нашу серию постов о том, что учить и в каком порядке в зависимости от выбранного направления в data-индустрии. В прошлых 2-х постах из этой серии я рассказал про путь data-инженера. Сегодня же я попробую рассказать про путь становления data-аналитика.
Так как я, всё-таки, больше data-инженер, а не data-аналитик, могу что-то не учесть. Но очень постараюсь сделать пост полезным и информативным. В любом случае, буду рад дополнениям в комментариях.
Начинаем.
Вспомним, что мы уже владеем базовыми навыками, которые будут полезны вне зависимости от того, чем вы конкретно занимаетесь в области работы с данными. Это Excel / Google Spreadsheets, теория баз данных и SQL, а также BI-инструменты.
Допустим, мы поработали какое-то время BI-инженером и хотим развиваться дальше, изучая и применяя новые более сложные технологии и инструменты. И мы останавливаем свой выбор на направлении data-аналитики. Ок, что учить дальше?
Вот мой список:
1. Основные аналитические фреймворки. Простыми словами, аналитический фреймворк - это то, в какой форме производится анализ и применяются его методики. Примеры популярных аналитических фреймворков: когортный анализ, RFM-анализ, ROPO-анализ и др. Эти фреймворки применяются в зависимости от предметной области, в которой вы работаете в качестве аналитика, и конкретной задачи. Например, в продуктовой аналитике часто применяется когортный анализ, при анализе клиентской базы - RFM-анализ, в маркетинговой аналитике - ROPO-анализ и т.д.
Полезные ссылки:
Что такое когортный анализ, что нужно для когортного анализа и где его применять
RFM-анализ и сегментация: узнайте больше о своих клиентах
ROPO-эффект: как ваш онлайн-маркетинг влияет на продажи в офлайне
2. Основные метрики предметной области, в которой вы работаете или хотите работать. Для поиска инсайтов и предоставления рекомендаций бизнесу крайне важно знать, за что отвечает каждая метрика, как она связана с другими метриками, а также к каким последствиям и действиям может привести интерпретация каждой метрики эффективности. Очевидно, что набор метрик зависит от предметной области, в которой вы хотите развиваться как аналитик. Например, если вы больше работаете в качестве продуктового аналитика, важно знать такие основные метрики как DAU, ARPDAU, ARPPU, Retention Rate, Churn Rate, CAC, LTV и др. Если вы работаете с маркетингом, важно знать о CPC, CPA, CPL, CPO, ROAS, ROMI и т.д.
В качестве полезных материалов здесь, пожалуй, подойдёт любая статья из интернета по запросу "основные метрики продуктовой аналитики", "основные метрики продукта", "главные метрики интернет-маркетинга" и т.д. Поэтому, здесь на ваш вкус. В последний раз на подобную тему я читал вот эту статью.
3. Знания статистики. Супер-важный скилл для аналитика данных. Аналитик - это тот человек, который должен подвергать сомнениям практически любую свою мысль и искать как можно больше аргументов в сторону своих гипотез. И статистика - это как раз тот инструмент, который ему в этом помогает.
Вот теоретический минимум того, что конкретно нужно знать в этой области (опять же, исходя из своего видения и опыта коллег):
- описательные статистики;
- математическая статистика;
- тестирование гипотез (А/Б-тесты);
- корреляция и регрессия.
Так как я, всё-таки, больше data-инженер, а не data-аналитик, могу что-то не учесть. Но очень постараюсь сделать пост полезным и информативным. В любом случае, буду рад дополнениям в комментариях.
Начинаем.
Вспомним, что мы уже владеем базовыми навыками, которые будут полезны вне зависимости от того, чем вы конкретно занимаетесь в области работы с данными. Это Excel / Google Spreadsheets, теория баз данных и SQL, а также BI-инструменты.
Допустим, мы поработали какое-то время BI-инженером и хотим развиваться дальше, изучая и применяя новые более сложные технологии и инструменты. И мы останавливаем свой выбор на направлении data-аналитики. Ок, что учить дальше?
Вот мой список:
1. Основные аналитические фреймворки. Простыми словами, аналитический фреймворк - это то, в какой форме производится анализ и применяются его методики. Примеры популярных аналитических фреймворков: когортный анализ, RFM-анализ, ROPO-анализ и др. Эти фреймворки применяются в зависимости от предметной области, в которой вы работаете в качестве аналитика, и конкретной задачи. Например, в продуктовой аналитике часто применяется когортный анализ, при анализе клиентской базы - RFM-анализ, в маркетинговой аналитике - ROPO-анализ и т.д.
Полезные ссылки:
Что такое когортный анализ, что нужно для когортного анализа и где его применять
RFM-анализ и сегментация: узнайте больше о своих клиентах
ROPO-эффект: как ваш онлайн-маркетинг влияет на продажи в офлайне
2. Основные метрики предметной области, в которой вы работаете или хотите работать. Для поиска инсайтов и предоставления рекомендаций бизнесу крайне важно знать, за что отвечает каждая метрика, как она связана с другими метриками, а также к каким последствиям и действиям может привести интерпретация каждой метрики эффективности. Очевидно, что набор метрик зависит от предметной области, в которой вы хотите развиваться как аналитик. Например, если вы больше работаете в качестве продуктового аналитика, важно знать такие основные метрики как DAU, ARPDAU, ARPPU, Retention Rate, Churn Rate, CAC, LTV и др. Если вы работаете с маркетингом, важно знать о CPC, CPA, CPL, CPO, ROAS, ROMI и т.д.
В качестве полезных материалов здесь, пожалуй, подойдёт любая статья из интернета по запросу "основные метрики продуктовой аналитики", "основные метрики продукта", "главные метрики интернет-маркетинга" и т.д. Поэтому, здесь на ваш вкус. В последний раз на подобную тему я читал вот эту статью.
3. Знания статистики. Супер-важный скилл для аналитика данных. Аналитик - это тот человек, который должен подвергать сомнениям практически любую свою мысль и искать как можно больше аргументов в сторону своих гипотез. И статистика - это как раз тот инструмент, который ему в этом помогает.
Вот теоретический минимум того, что конкретно нужно знать в этой области (опять же, исходя из своего видения и опыта коллег):
- описательные статистики;
- математическая статистика;
- тестирование гипотез (А/Б-тесты);
- корреляция и регрессия.
Owox
Bridge the gap between business data and better decisions with OWOX Data Marts
Explore how OWOX Data Marts empowers both data teams and business users with a reporting solution, ensuring data accessibility and decision-making across departments. Get Started Now!
Полезные ресурсы:
Основы статистики
Основы статистики. Часть 2
Основы статистики. Часть 3
Имея критическое мышление, со знаниями Excel, SQL, BI, аналитических фреймворков, метрик и статистики вы вполне можете претендовать на позицию Junior / Middle аналитика данных, в зависимости от требований и технологического стека компании.
И ещё я хотел бы сказать по поводу Python / R: многие компании вполне обходятся без них при анализе данных. Как по мне, Python или R - это уже следующий этап в пути data-аналитика, но никак не в ряду первых.
Как доказательство, около полугода назад мой знакомый искал работу на позицию Junior Data Analyst. В большинстве случаев, его тестовые задания сводились к знаниям метрик, аналитических фреймворков (был тест на когортный анализ в Excel), статистики, BI и SQL. Не помню, чтобы он упоминал Python или R.
Для аналитика более важно иметь критическое мышление и давать разумные рекомендации бизнесу. Каким инструментом он будет собирать и анализировать данные не так важно. Аналитик - это человек, который приближен к бизнесу и принятию решений.
Поэтому, не хватайтесь сразу за языки программирования, научитесь думать, строить гипотезы и делать выводы. Вышеперечисленных инструментов вполне достаточно, чтобы это сделать.
4. А вот когда будете понимать, что остановились в развитии и хочется применять новые и более гибкие технологии, можете переходить к изучению Python или R. Здесь, как и в любом другом случае, выбрать какой-то один язык. Какой - зависит от ваших предпочтений, рынка и требований компаний, в которых вы хотели бы работать. Могу сказать только вкратце: Python более универсальный, так как на этом языке можно как строить сложное ПО, так и анализировать данные и строить ML-модели.
R - более узкоспециализированный. Он имеет очень большое количество различных статистических и аналитических пакетов.
Здесь также нужно понимать, что программирование аналитика отличается от программирования разработчика или data-инженера. Аналитику нужно меньше знать о тонкостях языка, написании эффективного кода, ООП, контекстных менеджерах и т.д. Как правило, аналитику достаточно знать основы языка и хорошо владеть специализированными фреймворками (такими как Pandas в Python, например). Попытаюсь здесь дать список того, что должен знать "аналитик-программист":)
1) Базовый синтаксис языка (переменные, типы данных, условия, циклы, функции);
2) Работа с дата-фреймами (преобразование файла в дата-фрейм, очистка данных, первичный анализ дата-фрейма, арифметические и агрегирующие операции, построение сводных таблиц и т.д.);
3) Умение подключаться к базам данных / хранилищам данных и загружать данные в дата-фрейм;
4) Умение читать данные через REST API web-систем и делать простой парсинг контента веб-страниц;
5) Владение фреймворками для визуализации данных (в Python, например, это Matplotlib, Plotly и Seaborn).
Полезные ресурсы по Python:
Программирование на Python
Введение в pandas: анализ данных на Python
Introduction to Data Science in Python
Data Manipulation with pandas
Joining Data with pandas
Introduction to Data Visualization with Matplotlib
Introduction to Data Visualization with Seaborn
Introduction to Importing Data in Python
Intermediate Importing Data in Python
Streamlined Data Ingestion with pandas
Introduction to Databases in Python
Аналитикам: большая шпаргалка по Pandas
Парсинг сайтов на Python: подробный видеокурс и программный код
SQLAlchemy — Python Tutorial
Книга по Matplotlib
Полезные ресурсы по R:
Основы программирования на R
Анализ данных в R
Базовые графические возможности R: гистограммы
Introduction to the Tidyverse
Data Manipulation with dplyr
Joining Data with dplyr
Introduction to Data Visualization with ggplot2
Reporting with R Markdown
Data Manipulation with data.table in R
Joining Data with data.table in R
Introduction to Importing Data in R
Intermediate Importing Data in R
Думаю, что этих знаний вполне достаточно, чтобы стать хардкорным аналитиком данных и зарабатывать хорошие деньги. Как advanced-навык вы ещё можете начать изучение Machine Learning, но это тема отдельной статьи)
Основы статистики
Основы статистики. Часть 2
Основы статистики. Часть 3
Имея критическое мышление, со знаниями Excel, SQL, BI, аналитических фреймворков, метрик и статистики вы вполне можете претендовать на позицию Junior / Middle аналитика данных, в зависимости от требований и технологического стека компании.
И ещё я хотел бы сказать по поводу Python / R: многие компании вполне обходятся без них при анализе данных. Как по мне, Python или R - это уже следующий этап в пути data-аналитика, но никак не в ряду первых.
Как доказательство, около полугода назад мой знакомый искал работу на позицию Junior Data Analyst. В большинстве случаев, его тестовые задания сводились к знаниям метрик, аналитических фреймворков (был тест на когортный анализ в Excel), статистики, BI и SQL. Не помню, чтобы он упоминал Python или R.
Для аналитика более важно иметь критическое мышление и давать разумные рекомендации бизнесу. Каким инструментом он будет собирать и анализировать данные не так важно. Аналитик - это человек, который приближен к бизнесу и принятию решений.
Поэтому, не хватайтесь сразу за языки программирования, научитесь думать, строить гипотезы и делать выводы. Вышеперечисленных инструментов вполне достаточно, чтобы это сделать.
4. А вот когда будете понимать, что остановились в развитии и хочется применять новые и более гибкие технологии, можете переходить к изучению Python или R. Здесь, как и в любом другом случае, выбрать какой-то один язык. Какой - зависит от ваших предпочтений, рынка и требований компаний, в которых вы хотели бы работать. Могу сказать только вкратце: Python более универсальный, так как на этом языке можно как строить сложное ПО, так и анализировать данные и строить ML-модели.
R - более узкоспециализированный. Он имеет очень большое количество различных статистических и аналитических пакетов.
Здесь также нужно понимать, что программирование аналитика отличается от программирования разработчика или data-инженера. Аналитику нужно меньше знать о тонкостях языка, написании эффективного кода, ООП, контекстных менеджерах и т.д. Как правило, аналитику достаточно знать основы языка и хорошо владеть специализированными фреймворками (такими как Pandas в Python, например). Попытаюсь здесь дать список того, что должен знать "аналитик-программист":)
1) Базовый синтаксис языка (переменные, типы данных, условия, циклы, функции);
2) Работа с дата-фреймами (преобразование файла в дата-фрейм, очистка данных, первичный анализ дата-фрейма, арифметические и агрегирующие операции, построение сводных таблиц и т.д.);
3) Умение подключаться к базам данных / хранилищам данных и загружать данные в дата-фрейм;
4) Умение читать данные через REST API web-систем и делать простой парсинг контента веб-страниц;
5) Владение фреймворками для визуализации данных (в Python, например, это Matplotlib, Plotly и Seaborn).
Полезные ресурсы по Python:
Программирование на Python
Введение в pandas: анализ данных на Python
Introduction to Data Science in Python
Data Manipulation with pandas
Joining Data with pandas
Introduction to Data Visualization with Matplotlib
Introduction to Data Visualization with Seaborn
Introduction to Importing Data in Python
Intermediate Importing Data in Python
Streamlined Data Ingestion with pandas
Introduction to Databases in Python
Аналитикам: большая шпаргалка по Pandas
Парсинг сайтов на Python: подробный видеокурс и программный код
SQLAlchemy — Python Tutorial
Книга по Matplotlib
Полезные ресурсы по R:
Основы программирования на R
Анализ данных в R
Базовые графические возможности R: гистограммы
Introduction to the Tidyverse
Data Manipulation with dplyr
Joining Data with dplyr
Introduction to Data Visualization with ggplot2
Reporting with R Markdown
Data Manipulation with data.table in R
Joining Data with data.table in R
Introduction to Importing Data in R
Intermediate Importing Data in R
Думаю, что этих знаний вполне достаточно, чтобы стать хардкорным аналитиком данных и зарабатывать хорошие деньги. Как advanced-навык вы ещё можете начать изучение Machine Learning, но это тема отдельной статьи)
Stepik: online education
Основы статистики
Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого…
Forwarded from Product Analytics
5 навыков аналитика от Паши Левчука:
1/ business needs understanding
Часто аналитику говорят как дедать, а не что. И в результате решается другая задача. А значит нужно погружаться и задавать вопросы. В конечном итоге задача должна быть перефразированна и подтверждена клиентом.
2/ knowledge of infrastructure
Знание источников данных, потоков обработки, и конкретных таблиц является залогом того, можно ли сразу, на совещании, ответить на вопрос если у нас данные для поиска ответа.
3/ engineering skills
Даже с DWH, данные крайне редко находятся в нужном виде. А значит трансформация данных и написание эффективного кода определяют как быстро вы можете приблизиться к ответу, как легко сможете воспроизводить анализ и вносить правки для будущих нужд.
4/ summary/visualization skills
Хороший отчёт или исследование это всегда структура и стройность мысли, понятное введение и поддерживающие таблицы и графики. Если этого нет, то результ часто обречен быть непонятым и не рассмотренным серьезно.
5/ recommendations skills
Даже если отчёт удачно сложен, рекомендации это первое что попросит у вас заказчик. Если их нельзя синтезировать, то работа сделана лишь наполовину.
via @ProductAnalytics
1/ business needs understanding
Часто аналитику говорят как дедать, а не что. И в результате решается другая задача. А значит нужно погружаться и задавать вопросы. В конечном итоге задача должна быть перефразированна и подтверждена клиентом.
2/ knowledge of infrastructure
Знание источников данных, потоков обработки, и конкретных таблиц является залогом того, можно ли сразу, на совещании, ответить на вопрос если у нас данные для поиска ответа.
3/ engineering skills
Даже с DWH, данные крайне редко находятся в нужном виде. А значит трансформация данных и написание эффективного кода определяют как быстро вы можете приблизиться к ответу, как легко сможете воспроизводить анализ и вносить правки для будущих нужд.
4/ summary/visualization skills
Хороший отчёт или исследование это всегда структура и стройность мысли, понятное введение и поддерживающие таблицы и графики. Если этого нет, то результ часто обречен быть непонятым и не рассмотренным серьезно.
5/ recommendations skills
Даже если отчёт удачно сложен, рекомендации это первое что попросит у вас заказчик. Если их нельзя синтезировать, то работа сделана лишь наполовину.
via @ProductAnalytics
Сегодня в 18:00 по Киеву и Москве будет проходить Apache Airflow Workshop от Grid Dynamics.
Сам зарегистрировался на него. Возможно, кто-то из вас тоже захочет послушать и попрактиковаться.
Из требований:
- знания английского (воркшоп будет на английском);
- Intermediate уровень в Python (знаете базовый синтаксис, умеете писать скрипты и несложные программы);
- установленный Docker и Docker Compose на ваш компьютер.
Воркшоп бесплатный.
Сам зарегистрировался на него. Возможно, кто-то из вас тоже захочет послушать и попрактиковаться.
Из требований:
- знания английского (воркшоп будет на английском);
- Intermediate уровень в Python (знаете базовый синтаксис, умеете писать скрипты и несложные программы);
- установленный Docker и Docker Compose на ваш компьютер.
Воркшоп бесплатный.
DOU
Apache Airflow Workshop, 22 April 2021
We'll explore Apache Airflow as a modern and the most effective orchestration tool for Big Data Developers. We'll make a short overview of the Apache Airflow architecture at this online workshop and then dive into a live session.
Наткнулся на довольно интересный Data Engineering Study Guide. Его подготовили люди, которые проходили собеседование в FAANG и другие крупные технологические компании и успешно его прошли. Много внимания уделено SQL и решению задач на применение алгоритмов (использовать алгоритмы можно на любом языке программирования). Условно, если вы знаете Python или приняли решение его изучать, то, следуя этому гайду, вы будете решать много задачек на SQL и алгоритмы с использованием Python. В принципе, как я уже писал, SQL и Python - 2 основных навыка для data-инженера.
Я просмотрел задачки в этом гайде и, действительно, нужно будет напрячься:)Очень хорошая встряска для мозгов.
Но ещё меня этот гайд натолкнул на то, чтобы написать своё мнение по поводу "нужно ли знать алгоритмы или можно обойтись без них?"
Вот несколько моих мыслей:
- С одной стороны, большую часть бизнес-задач можно спокойно решить без знаний алгоритмов. Мне, например, не особо нужны знания алгоритмов, когда я пишу ETL-скрипты. Сейчас есть огромное множество готовых встроенных функций языка, пакетов, классов и методов, которые при знаниях синтаксиса и должном уровне смекалки можно успешно использовать и строить программы. Есть также много примеров кода в интернете, который можно брать за основу и адаптировать под себя. Главное, понимать, что хранится в переменных, что делают конкретные функции и т.д.
Поэтому, спрашивать алгоритмы у человека, который собеседуется на позицию Junior или Middle, как по мне, глупо. Главное - решить бизнес-задачу.
- С другой стороны, хочется постоянно растить свои знания и навыки и бесполезно учить новые готовые функции и классы, если вы не применяете их на практике. В таких случаях будет, наоборот, полезно углубиться в основы программирования, понять, на чём основаны эти наши функции и классы. Это даёт более глубокое понимание процессов и развивает логическое мышление при решении задачек на алгоритмы.
Буквально неделю назад я решил тоже копнуть глубже и разобраться с программированием на более низком уровне. Начал читать книгу "Структура и интерпретация компьютерных программ". Классика в сфере программирования. Всё очень фундаментально и детально описано. Книга базируется на языке lisp, а точнее на его диалекте scheme. Я сначала выполнял упражнения на scheme, но потом решил, что для меня будет полезнее эти же задачки решать с помощью Python. Поэтому всё переложил на его синтаксис.
Также считаю, что без знаний алгоритмов и структур данных намного сложнее (если вообще возможно) создавать какие-то крутые инновации в программном мире. Сложно создавать инновации, если не знаешь фундаментальной сути того, что уже есть.
В общем, я сделал такой вывод: если вы хотите быстрее войти в сферу data-инжиниринга и программирования в целом, то алгоритмы - не то, что вам нужно учить в первую очередь. А вот когда вы уже вольётесь, начнёте решать бизнес-задачи и захотите выйти на кардинально новый уровень - можно копать глубже и учить алгоритмы.
А вы как считаете?
Я просмотрел задачки в этом гайде и, действительно, нужно будет напрячься:)Очень хорошая встряска для мозгов.
Но ещё меня этот гайд натолкнул на то, чтобы написать своё мнение по поводу "нужно ли знать алгоритмы или можно обойтись без них?"
Вот несколько моих мыслей:
- С одной стороны, большую часть бизнес-задач можно спокойно решить без знаний алгоритмов. Мне, например, не особо нужны знания алгоритмов, когда я пишу ETL-скрипты. Сейчас есть огромное множество готовых встроенных функций языка, пакетов, классов и методов, которые при знаниях синтаксиса и должном уровне смекалки можно успешно использовать и строить программы. Есть также много примеров кода в интернете, который можно брать за основу и адаптировать под себя. Главное, понимать, что хранится в переменных, что делают конкретные функции и т.д.
Поэтому, спрашивать алгоритмы у человека, который собеседуется на позицию Junior или Middle, как по мне, глупо. Главное - решить бизнес-задачу.
- С другой стороны, хочется постоянно растить свои знания и навыки и бесполезно учить новые готовые функции и классы, если вы не применяете их на практике. В таких случаях будет, наоборот, полезно углубиться в основы программирования, понять, на чём основаны эти наши функции и классы. Это даёт более глубокое понимание процессов и развивает логическое мышление при решении задачек на алгоритмы.
Буквально неделю назад я решил тоже копнуть глубже и разобраться с программированием на более низком уровне. Начал читать книгу "Структура и интерпретация компьютерных программ". Классика в сфере программирования. Всё очень фундаментально и детально описано. Книга базируется на языке lisp, а точнее на его диалекте scheme. Я сначала выполнял упражнения на scheme, но потом решил, что для меня будет полезнее эти же задачки решать с помощью Python. Поэтому всё переложил на его синтаксис.
Также считаю, что без знаний алгоритмов и структур данных намного сложнее (если вообще возможно) создавать какие-то крутые инновации в программном мире. Сложно создавать инновации, если не знаешь фундаментальной сути того, что уже есть.
В общем, я сделал такой вывод: если вы хотите быстрее войти в сферу data-инжиниринга и программирования в целом, то алгоритмы - не то, что вам нужно учить в первую очередь. А вот когда вы уже вольётесь, начнёте решать бизнес-задачи и захотите выйти на кардинально новый уровень - можно копать глубже и учить алгоритмы.
А вы как считаете?
Google Docs
Data Engineering Study Guide - Outline (Make A Copy :) And Go From There)
Хочу всем порекомендовать курс по SQL от Анатолия Балакирева в рамках Data Learn. Наверное, самый подробный и полный бесплатный русскоязычный курс по SQL, который я видел.
Всегда уважаю и ценю такой большой труд.
Всегда уважаю и ценю такой большой труд.
datalearn.ru
SQL курс бесплатно | SQL курс для начинающих | обучение SQL | обучение SQL с нуля | SQL урок | SQL онлайн
⭐⭐⭐⭐⭐ Запишись на курс и получи востребованные знания по SQL - БЕСПЛАТНО. У нас очень большое и дружелюбное сообщество людей, увлеченных data, мы объясняем сложные вещи простыми словами
Всем привет.
Сегодня хочу возобновить серию постов о том, что учить и в каком порядке в зависимости от выбранного направления работы с данными. Напомню, что прошлые посты были посвящены тому, что учить в первую очередь всем вне зависимости от направления, что учить инженеру данных и что учить data-аналитику.
Сегодня же я хочу затронуть направление web/app и продуктовой аналитики. Я специально не выделяю web/app аналитику как отдельное направление, так как обычно люди, которые начинают с веба, чаще всего затем занимаются продуктовой аналитикой, добавляя в свой арсенал SQL, BI-инструменты, сервисы для A/B-тестирования и языки программирования (Python или R). Для меня продуктовый аналитик - это тот же data-аналитик, но с фокусом на конкретный продукт (сайт или мобильное приложение) и с фундаментальными знаниями сервисов web/app аналитики и A/B тестирования.
Т.е. в моей картине мира есть 2 отправные точки, из которых можно стать продуктовым аналитиком:
1) Начать с классической веб-аналитики и дальше добавлять в свой арсенал сервисы мобильной аналитики, SQL, BI-инструменты и сервисы для проведения A/B-тестов на сайте и в приложении. Ну и, конечно же, не забываем читать продуктовые кейсы и изучать метрики продуктовой аналитики.
2) Начать работать BI-разработчиком и, уже имея знания SQL и BI-инструментов, дальше изучать и пробовать работать с сервисами web/app аналитики и проводить
A/B-тесты.
Первый вариант - это больше про тех людей, кто вообще начинал с performance-маркетинга (PPC, SEO и т.д.), они каждый день соприкасались с веб-аналитикой и затем решили полностью уйти в это направление. На моей практике я как раз встречаю больше таких людей, чем тех, кто начинал работать веб-аналитиками с чистого листа. Поэтому, если у вас нет опыта в performance-маркетинге, для вас логичным будет либо начать свой пусть с BI и находить возможности, чтобы дополнительно поработать с сервисами web/app аналитики, либо пройти специализированные курсы по веб-аналитике, получить хоть какой-то сертификат (кстати, можно пройти профессиональную сертификацию по Google Analytics от Google) и пробовать стучаться в крупные агентства интернет-маркетинга на позицию Junior веб-аналитика. Самому разобраться в веб-аналитике без боевого опыта будет крайне сложно.
Ок, теперь о том, что нужно учить и какой порядок изучения выбрать. Предположим, вы начали свой путь как BI-разработчик и теперь хотите работать с продуктом как аналитик. Вы уже знаете Excel, теорию баз данных, SQL и владеете одним или несколькими BI-инструментами. Как двигаться дальше?
1. Изучить основные концепции и метрики продуктовой аналитики. Здесь я бы рекомендовал пройти вот этот базовый курс. Он основан на игровой аналитике, но все принципы можно спокойно перекладывать на другие сферы.
2. Научиться работать с Google Analytics. Google Analytics - бесспорно является самым популярным сервисом веб-аналитики в мире. Его задача - собирать и представлять данные об источниках трафика, через которые пользователи попадают на сайт, и собирать данные об их поведении при его посещении.
Полезные ресурсы:
Курс по Google Analytics для начинающих (Google)
Книга по Google Analytics (Universal Analytics)
Курс "Анализ данных в Google Analytics"
Статьи по Google Analytics 4
4. Научиться работать с Google Tag Manager. Google Tag Manager - это инструмент, который позволяет размещать различные теги на сайте без прямого доступа к его коду. Это ключевой инструмент для настройки сбора данных на сайте и отправки их в различные системы аналитики и рекламные сервисы. Здесь я бы просто советовал прочитать вот эту книгу и много-много практиковаться.
Сегодня хочу возобновить серию постов о том, что учить и в каком порядке в зависимости от выбранного направления работы с данными. Напомню, что прошлые посты были посвящены тому, что учить в первую очередь всем вне зависимости от направления, что учить инженеру данных и что учить data-аналитику.
Сегодня же я хочу затронуть направление web/app и продуктовой аналитики. Я специально не выделяю web/app аналитику как отдельное направление, так как обычно люди, которые начинают с веба, чаще всего затем занимаются продуктовой аналитикой, добавляя в свой арсенал SQL, BI-инструменты, сервисы для A/B-тестирования и языки программирования (Python или R). Для меня продуктовый аналитик - это тот же data-аналитик, но с фокусом на конкретный продукт (сайт или мобильное приложение) и с фундаментальными знаниями сервисов web/app аналитики и A/B тестирования.
Т.е. в моей картине мира есть 2 отправные точки, из которых можно стать продуктовым аналитиком:
1) Начать с классической веб-аналитики и дальше добавлять в свой арсенал сервисы мобильной аналитики, SQL, BI-инструменты и сервисы для проведения A/B-тестов на сайте и в приложении. Ну и, конечно же, не забываем читать продуктовые кейсы и изучать метрики продуктовой аналитики.
2) Начать работать BI-разработчиком и, уже имея знания SQL и BI-инструментов, дальше изучать и пробовать работать с сервисами web/app аналитики и проводить
A/B-тесты.
Первый вариант - это больше про тех людей, кто вообще начинал с performance-маркетинга (PPC, SEO и т.д.), они каждый день соприкасались с веб-аналитикой и затем решили полностью уйти в это направление. На моей практике я как раз встречаю больше таких людей, чем тех, кто начинал работать веб-аналитиками с чистого листа. Поэтому, если у вас нет опыта в performance-маркетинге, для вас логичным будет либо начать свой пусть с BI и находить возможности, чтобы дополнительно поработать с сервисами web/app аналитики, либо пройти специализированные курсы по веб-аналитике, получить хоть какой-то сертификат (кстати, можно пройти профессиональную сертификацию по Google Analytics от Google) и пробовать стучаться в крупные агентства интернет-маркетинга на позицию Junior веб-аналитика. Самому разобраться в веб-аналитике без боевого опыта будет крайне сложно.
Ок, теперь о том, что нужно учить и какой порядок изучения выбрать. Предположим, вы начали свой путь как BI-разработчик и теперь хотите работать с продуктом как аналитик. Вы уже знаете Excel, теорию баз данных, SQL и владеете одним или несколькими BI-инструментами. Как двигаться дальше?
1. Изучить основные концепции и метрики продуктовой аналитики. Здесь я бы рекомендовал пройти вот этот базовый курс. Он основан на игровой аналитике, но все принципы можно спокойно перекладывать на другие сферы.
2. Научиться работать с Google Analytics. Google Analytics - бесспорно является самым популярным сервисом веб-аналитики в мире. Его задача - собирать и представлять данные об источниках трафика, через которые пользователи попадают на сайт, и собирать данные об их поведении при его посещении.
Полезные ресурсы:
Курс по Google Analytics для начинающих (Google)
Книга по Google Analytics (Universal Analytics)
Курс "Анализ данных в Google Analytics"
Статьи по Google Analytics 4
4. Научиться работать с Google Tag Manager. Google Tag Manager - это инструмент, который позволяет размещать различные теги на сайте без прямого доступа к его коду. Это ключевой инструмент для настройки сбора данных на сайте и отправки их в различные системы аналитики и рекламные сервисы. Здесь я бы просто советовал прочитать вот эту книгу и много-много практиковаться.
Дополнительно хочу дать список блогов, которые я читал и читаю на тему веб-аналитики:
Блог Якова Осипенкова
Блог Андрея Осипова
Блог Макса Гапчука
Блог Симо Ахавы
Блог "Analytics mania"
Блог "BurgerData"
Блог Дмитрия Осиюка
Блог компании OWOX
5. После того, как вы немного освоились с сервисами веб-аналитики, я бы рекомендовал разобраться c сервисами мобильной аналитики. Сервисов мобильной аналитики довольно много. Примеры: Firebase Analytics, AppsFlyer, Adjust, Amplitude и др. Лично я сначала разбирался с Firebase Analytics.
Также очень важная тема при работе с мобильной аналитикой - это настройка и использование deep links.
Полезные ресурсы:
Плейлист по Firebase Analytics
Документация Firebase Analytics
Плейлист по dynamic links (deep links) в Firebase
Статья про работу с deep links
6. Научиться работать с сервисами для A/B тестирования. Здесь раскрыть тему вряд ли смогу, так как работал только с A/B тестами на сайте через Google Optimize. Есть ещё специализированные сервисы для A/B-тестов в мобильных приложениях, но с ними я никогда не работал.
Дальнейший путь изучения практически идентичен тому, который я описывал в предыдущем посте для аналитика данных.
Если вы, наоборот, начали не с BI, а сразу начали выполнять задачи по веб-аналитике и уже неплохо знакомы с Google Analytics и Google Tag Manager, то я бы рекомендовал построить дальнейшее обучение в таком порядке:
1) Изучить основные концепции и метрики продуктовой аналитики
2) Разобраться c сервисами мобильной аналитики
3) Научиться работать с сервисами для A/B тестирования
4) Изучить SQL. Очень рекомендую курс из моего предыдущего поста
5) Научиться работать с одним BI-инструментом
6) Подтянуть знания статистики
7) Python/R как advanced навык
Конечно, в боевых условиях вы вряд ли строго будете соблюдать какой-то определённый порядок, так как задачи прилетают постоянно разные и вы постепенно будете учиться всему по чуть-чуть. Моя последовательность - это больше попытка помочь людям структурировать мысли и дать примерное направление, в котором можно двигаться.
Поэтому строго соблюдать порядок абсолютно необязательно, главное продолжать идти:)
Блог Якова Осипенкова
Блог Андрея Осипова
Блог Макса Гапчука
Блог Симо Ахавы
Блог "Analytics mania"
Блог "BurgerData"
Блог Дмитрия Осиюка
Блог компании OWOX
5. После того, как вы немного освоились с сервисами веб-аналитики, я бы рекомендовал разобраться c сервисами мобильной аналитики. Сервисов мобильной аналитики довольно много. Примеры: Firebase Analytics, AppsFlyer, Adjust, Amplitude и др. Лично я сначала разбирался с Firebase Analytics.
Также очень важная тема при работе с мобильной аналитикой - это настройка и использование deep links.
Полезные ресурсы:
Плейлист по Firebase Analytics
Документация Firebase Analytics
Плейлист по dynamic links (deep links) в Firebase
Статья про работу с deep links
6. Научиться работать с сервисами для A/B тестирования. Здесь раскрыть тему вряд ли смогу, так как работал только с A/B тестами на сайте через Google Optimize. Есть ещё специализированные сервисы для A/B-тестов в мобильных приложениях, но с ними я никогда не работал.
Дальнейший путь изучения практически идентичен тому, который я описывал в предыдущем посте для аналитика данных.
Если вы, наоборот, начали не с BI, а сразу начали выполнять задачи по веб-аналитике и уже неплохо знакомы с Google Analytics и Google Tag Manager, то я бы рекомендовал построить дальнейшее обучение в таком порядке:
1) Изучить основные концепции и метрики продуктовой аналитики
2) Разобраться c сервисами мобильной аналитики
3) Научиться работать с сервисами для A/B тестирования
4) Изучить SQL. Очень рекомендую курс из моего предыдущего поста
5) Научиться работать с одним BI-инструментом
6) Подтянуть знания статистики
7) Python/R как advanced навык
Конечно, в боевых условиях вы вряд ли строго будете соблюдать какой-то определённый порядок, так как задачи прилетают постоянно разные и вы постепенно будете учиться всему по чуть-чуть. Моя последовательность - это больше попытка помочь людям структурировать мысли и дать примерное направление, в котором можно двигаться.
Поэтому строго соблюдать порядок абсолютно необязательно, главное продолжать идти:)
Контекстная, таргетированная реклама и веб-аналитика
Статьи по контекстной рекламе и веб-аналитике
Блог посвящен продвижению проектов с помощью Яндекс.Директ и Google Рекламы с упором на инструменты веб-аналитики - Яндекс.Метрика, Google Analytics, Google Tag Manager.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Топ ресурсы по Data Engineering и Analytics:
- Телеграм канал Инжиниринг Данных 🕺
- Курсы Data Learn 💃
- KDnuggets https://www.kdnuggets.com/news/index.html
- Cloudera | Data Engineering https://blog.cloudera.com/product/data-engineering/
- Silectis https://www.silect.is/blog/
- The RudderStack Blog https://rudderstack.com/blog/
- Facebook Engineering https://engineering.fb.com/
- Snowflake | Inside the Data Cloud https://www.snowflake.com/blog/
- Precisely Blog https://www.precisely.com/blog
- Data Engineering in Towards Data Science https://towardsdatascience.com/tagged/data-engineering
- SmartData Collective https://www.smartdatacollective.com/
- WeCloudData https://weclouddata.com/blog/
- Uber Engineering Blog https://eng.uber.com/
- Team Data Science Blog https://www.teamdatascience.com/blog
- Secoda Data Discovery Blog https://www.secoda.co/blog
- AWS Big Data Blog https://aws.amazon.com/blogs/big-data/
- Data Mechanics Blog https://www.datamechanics.co/blog
- ActiveWizards | Data Science and Engineering Lab https://activewizards.com/blog/
- Data Wow Blog https://datawow.io/blogs
- Pinterest Engineering https://medium.com/@Pinterest_Engineering
- Yelp Engineering and Product Blog https://engineeringblog.yelp.com/
- Netflix TechBlog https://netflixtechblog.com/
- LinkedIn Engineering Blog https://engineering.linkedin.com/blog
- Databricks Blog https://databricks.com/blog
- Knoldus » ML, AI and Data Engineering https://blog.knoldus.com/category/tech-blogs/machine-learning/
- XenonStack » Big Data Engineering https://www.xenonstack.com/blog/category/big-data-engineering/
- Dataquest » Data Engineering https://www.dataquest.io/blog/tag/data-engineering/
- Scribd Technology Blog https://tech.scribd.com/blog/
- Learn Data Engineering https://learndataengineering.com/blog
- data.world Blog https://data.world/blog/
- Ripple Engineering » Data https://engineering.ripple.com/tag/data/
- Jesse Anderson Blog https://www.jesse-anderson.com/category/blog/
- Телеграм канал Инжиниринг Данных 🕺
- Курсы Data Learn 💃
- KDnuggets https://www.kdnuggets.com/news/index.html
- Cloudera | Data Engineering https://blog.cloudera.com/product/data-engineering/
- Silectis https://www.silect.is/blog/
- The RudderStack Blog https://rudderstack.com/blog/
- Facebook Engineering https://engineering.fb.com/
- Snowflake | Inside the Data Cloud https://www.snowflake.com/blog/
- Precisely Blog https://www.precisely.com/blog
- Data Engineering in Towards Data Science https://towardsdatascience.com/tagged/data-engineering
- SmartData Collective https://www.smartdatacollective.com/
- WeCloudData https://weclouddata.com/blog/
- Uber Engineering Blog https://eng.uber.com/
- Team Data Science Blog https://www.teamdatascience.com/blog
- Secoda Data Discovery Blog https://www.secoda.co/blog
- AWS Big Data Blog https://aws.amazon.com/blogs/big-data/
- Data Mechanics Blog https://www.datamechanics.co/blog
- ActiveWizards | Data Science and Engineering Lab https://activewizards.com/blog/
- Data Wow Blog https://datawow.io/blogs
- Pinterest Engineering https://medium.com/@Pinterest_Engineering
- Yelp Engineering and Product Blog https://engineeringblog.yelp.com/
- Netflix TechBlog https://netflixtechblog.com/
- LinkedIn Engineering Blog https://engineering.linkedin.com/blog
- Databricks Blog https://databricks.com/blog
- Knoldus » ML, AI and Data Engineering https://blog.knoldus.com/category/tech-blogs/machine-learning/
- XenonStack » Big Data Engineering https://www.xenonstack.com/blog/category/big-data-engineering/
- Dataquest » Data Engineering https://www.dataquest.io/blog/tag/data-engineering/
- Scribd Technology Blog https://tech.scribd.com/blog/
- Learn Data Engineering https://learndataengineering.com/blog
- data.world Blog https://data.world/blog/
- Ripple Engineering » Data https://engineering.ripple.com/tag/data/
- Jesse Anderson Blog https://www.jesse-anderson.com/category/blog/
В продолжение темы о том, как развиваться в выбранной области работы с данными (DE, DA, DS и т.д.) нашёл интересную серию статей на Хабре.
Автор описывает "что учить" и "как учиться", чтобы стать классным Data Scientist.
Так как у меня ещё не было поста для потенциальных дата-сайнтистов (да и я непосредственно в Data Science не силён), думаю, эта серия постов - как раз то, что нужно.
Очень симпатизирует видение автора в принципах обучения, так как оно пересекается с моим. + его личная история может многих вдохновить.
Автор описывает "что учить" и "как учиться", чтобы стать классным Data Scientist.
Так как у меня ещё не было поста для потенциальных дата-сайнтистов (да и я непосредственно в Data Science не силён), думаю, эта серия постов - как раз то, что нужно.
Очень симпатизирует видение автора в принципах обучения, так как оно пересекается с моим. + его личная история может многих вдохновить.
Хабр
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к...
Всем привет. Думаю, предыдущую рубрику можно закрывать. Я постарался охватить все основные направления работы с данными и дать пошаговый план развития с полезными ссылками для каждой позиции.
Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.
Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.
Итак, поговорим о концепциях.
Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:
1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).
Разберём каждый слой подробнее:
Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.
Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.
Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.
Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.
Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.
Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.
Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.
Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
Теперь я хочу начать следующую рубрику, которая будет посвящена архитектуре аналитических решений. Думаю, что более эффективно изучать материал, двигаясь от общего к частному, от абстракции к конкретике. Такой подход позволяет наиболее быстро и эффективно разобраться в любом предмете. Поэтому, я предлагаю сначала взглянуть на архитектуру решений в целом, а затем подробно разобрать каждый из её элементов.
Сегодня я хочу коснуться базовых вещей - концепций, на которых строится любая аналитическая архитектура. В последующих постах для закрепления я буду брать примеры реальных решений и разбирать их, рассказывая какие инструменты за какую задачу отвечают.
Итак, поговорим о концепциях.
Если абстрагироваться, то любую аналитическую архитектуру можно разделить на 5 слоев:
1) Source Layer (слой источников данных);
2) Data Processing Layer (слой обработки данных);
3) Storage Layer (слой хранения данных);
4) Access Layer (слой доступа к данным);
5) Service Layer (сервисный слой).
Разберём каждый слой подробнее:
Source Layer. Этот слой отвечает за все наши источники данных. Это могут быть OLTP базы данных, которые отвечают за обслуживание операционной деятельности компании, различные файлы, в которых хранятся операционные данные (файлы могут быть различных форматов: csv, xlsx, txt, json, xml и т.д.), API внешних систем, IoT (интернет вещей) и др.
Примеры сервисов и инструментов на этом уровне: MySQL СУБД, Google Analytics, Facebook Ads, FTP/SFTP сервер, Salesforce, Kafka.
Data Processing Layer. Этот слой отвечает за обработку данных. Как раз здесь встречаются такие понятия, как ETL/ELT и data pipelines. Т.е., благодаря этому слою, осуществляется извлечение данных из источников, трансформация данных, движение данных и загрузка их в централизованный слой хранения данных.
Примеры сервисов и инструментов на этом уровне: Python и SQL, Apache Airflow, dbt, Pentaho Data Integration, Matillion ETL, Spark, AWS Glue, Azure Data Factory и др.
Storage Layer. Этот слой отвечает за централизованное хранение данных. Здесь появляются такие понятия как Data Warehouse (DWH), Data Lake и новомодное слово Lakehouse. Какое решение использует компания зависит от её задач. Например, если компании аналитическое решение нужно для конечной визуализации данных в BI-инструменте и для написания SQL-запросов к обработанным данным для поиска инсайтов, то достаточно будет использовать хранилище данных. Если у компании есть Data Science департамент, который строит ML-модели на основе данных для задач бизнеса, то разумным решением будет также использование Data Lake или Lakehouse, так как построение моделей требует обработки большого количества данных и для таких целей используется более сложный non-SQL код; Data Lake в таком случае является более гибким решением, так как обеспечивает быстрый прямой доступ к файлам.
Большим компаниям обычно нужен микс хранилища данных и озера данных, т.е., так называемая, Data Platform. Платформа данных как раз заточена на то, чтобы обслуживать и уровень BI-приложений и Data Science.
Примеры сервисов и инструментов на этом уровне: AWS S3, Azure Data Lake, Google Cloud Storage, AWS Redshift, Azure Synapse, Google BigQuery, HDFS (Hadoop), Vertica, Clickhouse и др.
Access Layer. Слой доступа к данным. Здесь в игру вступают BI-приложения, data-аналитики и data-сайнтисты, которые используют данные (уже находящиеся в Data Lake или DWH) для своих целей. В качестве приёмщика данных может также выступать база данных, которая обслуживает back-end интернет-магазина и позволяет показывать рекомендуемые товары на основе ML-моделей. В общем, этот слой является верхушкой айсберга, ради которой собственно и затевается построение всей системы.
Примеры сервисов и инструментов на этом уровне: Power BI, Tableau, AWS SageMaker, GCP AI Platform и др.
Service Layer. Обслуживающий слой, который включает в себя технологии и инструменты, обеспечивающие безопасность решения, отправку уведомлений об ошибках в логах, поддержку кода, автоматизацию деплоймента приложений (CI/CD) и т.д.
Примеры сервисов и инструментов на этом уровне: GitHub, Jenkins, Google Cloud Build, AWS SNS, AWS Cloud Formation, Terraform и др.
Этой информации достаточно, чтобы на фундаментальном уровне понять, на чём основана любая аналитическая архитектура и как она работает.
Прилагаю базовую схему, которая отображает все слои системы. Костяк системы позаимствовал у Димы Аношина в одной из его презентаций и немного изменил её, чтобы адаптировать под сегодняшний пост.
Примеры сервисов и инструментов на этом уровне: GitHub, Jenkins, Google Cloud Build, AWS SNS, AWS Cloud Formation, Terraform и др.
Этой информации достаточно, чтобы на фундаментальном уровне понять, на чём основана любая аналитическая архитектура и как она работает.
Прилагаю базовую схему, которая отображает все слои системы. Костяк системы позаимствовал у Димы Аношина в одной из его презентаций и немного изменил её, чтобы адаптировать под сегодняшний пост.