NEW BOT Телеграм, страница - 531690756

Smart Data

@smart_data_channel

1.4K subscribers

22 photos

3 files

58 links

Канал про Data Engineering, аналитику и данные.

По всем вопросам: @ds_im

Download Telegram

About

Blog

Apps

Platform

1.4K subscribers

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Про Snowflake я писал не раз и даже общался с компаниями в Москве, кто хочет внедрять технологию. Приходили и рекрутеры, кто хочет специалистов по Snowflake. Так что наш следующий вебинар очень в тему. И он в тему модуля 6 #datalearn про современные аналитические DW. Я бы даже отнес его к Lakehouse.

https://youtu.be/XJa3gGWidg0

Из нашего slack:

Мальчишки, девчонки, а также их родители, про Snowflake историю в понедельник 8 февраля в 20:00 по мск послушать не хотите ли? Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить!

Как всегда всем быть, те кто смотрит лекции будущие Олимпийские чемпионы в дата мире 😊
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре

И ПОДПИШИТЕСЬ НА НАШ ЮТУБ

SNOWFLAKE ИЛИ КАК БД ВЫБИРАЛИ / НИКОЛАЙ ГОЛОВ / MANYCHAT

Ссылки от спикера:
https://habr.com/ru/company/manychat/blog/530054/
https://habr.com/ru/company/oleg-bunin/blog/514298/
https://www.youtube.com/watch?v=T7IHSwCNU2c&feature=emb_logo

1.18K viewsDenis Solovyov, 21:05

В следующий четверг 18.02 буду выступать в Киеве на Kyiv Analytics Ads Beer Talk.

Расскажу о том, как дёшево и эффективно работать с Google BigQuery, и на какие грабли я наступал при работе с Google Cloud.

Кто хочет в непринуждённой обстановке поговорить об аналитике, инжиниринге, покушать снеки и выпить вкусного пива, приходите😉

1.49K viewsDenis Solovyov, edited 20:57

Forwarded from Kyiv Analytics Ads Beer Talk

Зовсім скоро, вже наступного тижня (18 лютого 19:00) — Kyiv Analytics Ads Beer Talk #11!

Спікери:

Головатий Петро - Product analyst в SE Ranking
Тема: "Power BI - місце зустрічі ваших даних"

Євген Фішбейн - Web Analyst в DEPLABS
Тема: "DataLayer QA Automation"

Danylo Burykin - Google Ads at www.top-rated.team
Тема: "Фриланс на Upwork"

Соловйов Денис - Web-аналітик і Data Engineer в Promodo
Тема: Як працювати з Google Cloud і витрачати менш ніж $100 на місяць "

п'ємо пиво, їмо снеки))

https://secure.wayforpay.com/payment/kyiv_analytics_beer11

Kyiv Analytics Ads Beer Talk #11

Kyiv Analytics Ads Beer Talk — традиційна зустріч спеціалістів з пошукової реклами, digital-аналітики та маркетингу. У неформальній атмосфері обговорюємо актуальні новини, ділимося знаннями та знайомимося. Спікери: Головатий Петро - Product analyst в SE Ranking…

1.25K viewsDenis Solovyov, 20:58

Всем привет👋 Пока ездил в Киев, написал большой и, надеюсь, интересный пост:)

Я часто встречаю и слышу о ситуациях, когда компании не до конца понимают, какие инструменты на каком этапе развития бизнеса использовать. Из-за этого они либо недостаточно развивают свою аналитическую инфраструктуру, либо слишком усложняют её, используя инструменты, которые по факту им не нужны. Хочу попробовать немного внести ясность и предложить инструменты под каждый конкретный этап развития.

Давайте опишем эволюцию аналитики на примере интернет-магазина спортивной одежды.

ЭТАП 1️⃣
Мы только начинаем: закупили первую партию товаров, заказали за недорогую цену разработку интернет-магазина, вложили деньги в какие-то маркетинговые активности. Скорее всего, мы работаем одни или нам помогает пара человек. В общем, о каком-то штате сотрудников тут речи не идёт.

Денежные ресурсы ограничены, но уже на первом этапе важно начинать собирать данные и проводить какую-то аналитику для принятия решений. Сейчас нам важно в первую очередь анализировать эффективность каналов трафика, по которым люди переходят на сайт, и поведение пользователей на сайте, так как сайт является основной точкой продаж. Нужно понять, что людям нравится на сайте, что не нравится, что мешает им совершить заказ. Есть хорошая новость – в отличие от оффлайн-магазинов, это достаточно легко отследить)

На данном этапе хорошо подойдут бесплатные инструменты веб-аналитики, такие как Google Analytics или Яндекс Метрика (для российского рынка). Важно хотя бы на базовом уровне понимать работу этих инструментов и знать, как анализировать базовые отчёты. Здесь очень важно завести привычку регулярно (раз в день, 3 раза в неделю и т.д.) анализировать данные и тестировать различные гипотезы по улучшению сайта и маркетинга.

В качестве инструмента для фиксации сделок пока подойдёт обычный Google Spreadsheet (или Excel)

ЭТАП 2️⃣
Мы немного наладили различные бизнес-процессы (закупки, продажи, финансы, маркетинг), завели привычку регулярно анализировать данные. У нас уже есть небольшой штат сотрудников (до 20 человек) и отдел продаж. Продажи начинают стабилизироваться.

Здесь уже можно задуматься о внедрении CRM-системы (amoCRM, retailCRM, 1C, Bitrix, Salesforce и др.).
Также мы можем захотеть видеть уже полный путь клиента (от перехода на сайт до конечной сделки, которая фиксируется либо в Google Spreadsheets, либо в CRM) и понимать эффективность маркетинговых каналов в разрезе конечных продаж. Если вы пока не можете выделить много ресурсов на аналитику, то можно объединять данные веб-аналитики и данные о конечных сделках в Google Spreadsheets или в BI-инструменте (Google Data Studio, Klipfolio, Power BI). В идеале это автоматизировать, но, если с этим пока сложно, можно и вручную объединять. Можно также использовать недорогие решения «из коробки» - различные сервисы сквозной аналитики (типа Roistat, K50, Calltouch).
Если вы готовы вкладывать больше ресурсов, то можно уже сейчас задуматься о построении собственного хранилища (DWH) для хранения всех данных вашей компании. На данном этапе вы можете использовать решения на базе реляционных СУБД, таких как MySQL, MS SQL, PostgreSQL. Но если вы понимаете, что объём данных в будущем будет расти и вам нужно масштабируемое решение, я бы рекомендовал сразу использовать аналитические базы данных, такие как Google BigQuery, Snowflake, Clickhouse, Amazon Redshift или Azure Synapse.

Также можно использовать как ETL-инструменты, так и делать ELT, используя микс инструментов. Например, чтобы легко и недорого делать ETL, можно развернуть на сервере Pentaho Data Integration. Для ELT можно использовать инструменты по загрузке данных из различных источников в хранилище (Stitch, Renta, OWOX, Matillion Data Loader) в связке с инструментами для трансформации данных (например, dbt). При ELT трансформации можно также делать, используя внутренние возможности хранилищ (например, Scheduled Queries в BigQuery).

1.26K viewsDenis Solovyov, 15:23

Для Extract and Load лично я предпочитаю использовать свои ETL-скрипты, которые запускаются в serverless среде (Google Cloud Functions, Google Cloud Run, Amazon Lambda и др.) Такой подход максимально удешевляет решение, но, если у вас нет достаточной экспертизы в написании кода и вам проще использовать готовые решения – используйте их, главное решить задачу бизнеса.

В качестве BI подойдёт любой удобный для вас инструмент.

ЭТАП 3️⃣
После вывода бизнеса на стабильный поток продаж, базового налаживания бизнес-процессов, мы хотим развивать и расширять наш бизнес. Мы можем увеличить количество каналов коммуникации с потенциальными клиентами (например, заказать разработку мобильного приложения), открыть оффлайн-точки продаж и т.д.

Здесь мы можем добавить в свой арсенал сервисы мобильной аналитики, такие как Firebase Analytics, AppsFlyer, AppMetrika, Adjust и др.

Также на этом этапе имеет смысл смотреть не только отчёты в BI-инструменте или в инструментах web/app аналитики, но и проводить более глубокую аналитику с использованием SQL, Python или R. Т.е. здесь мы можем подключать такие инструменты как Jupyter Notebook или R Studio.

ЭТАП 4️⃣
Мы уже неплохо раскачали наш бренд, на наш сайт и приложение ежедневно переходит несколько миллионов людей. Увеличивается количество источников данных и объём данных. Ещё больше растёт потребность в грамотной аналитике и текущей инфраструктуры уже недостаточно. Нам хочется получать «сырые» данные (без предагрегаций и агрегаций), чтобы получать большую гибкость в анализе данных.

На этом этапе мы можем уже строить платформу данных (Data Lake + DWH) или Lakehouse. Для этих целей мы можем использовать такие инструменты и их связки:
- Amazon S3 + Amazon Redshift + Amazon Athena/Amazon Redshift Spectrum
- Delta Lake (Databricks)
- Google Cloud Storage + Google BigQuery
- Azure Data Lake Storage + Azure Synapse
- HDFS + Hive (Hadoop)

Также на этом этапе уже имеет смысл использовать облачные ETL-инструменты и оркестраторы с гибкими возможностями: Azure Data Factory, Amazon Glue, Google Cloud Dataflow, Matillion ETL, Fivetran, Apache Airflow, Luigi, Apache Nifi и т.д.

Для обработки больших массивов данных отлично подойдут Apache Spark, Databricks, Amazon Elastic MapReduce, Google Cloud Dataproc.

Также здесь важно использовать продуктовый подход к разработке инфраструктуры, т.е. внедрять Agile и DevOps практики: использование версионирования кода (Git), построение CI/CD пайплайнов (например, с использованием Azure DevOps, Google Cloud Build, AWS CodePipeline, Jenkins), поднятие кластера контейнеров (с использованием Docker и Kubernetes), использование Infrastructure as Code (Terraform, AWS CloudFormation и др.).

Для получения «сырых» данных мы можем также использовать стриминг и соответствующие инструменты: Apache Kafka, Amazon Kinesis, Google Cloud Pub/Sub, Spark Streaming, Azure Event Hub

ЭТАП 5️⃣
После выстраивания BigData архитектуры (создания платформы данных и настройки стриминга) мы можем проводить продвинутую аналитику, строить ML и DL алгоритмы и выводить их в продакшн. В инструментах для Data Science я не очень силён. Знаю только, что дата-сайнтисты используют Jupyter Notebook, AWS Sagemaker, Google Cloud AI Platform и др.

1.58K viewsDenis Solovyov, 15:23

Запись с моего выступления на Kyiv Analytics Ads Beer Talks. Рассказал о том, как тратить меньше 100$ в месяц на аналитику, используя Google Cloud и BigQuery.

Як працювати з Google Cloud і витрачати менш ніж $100 на місяць — Соловйов Денис

Презентація: https://bit.ly/2ZwRLk9

1.52K viewsDenis Solovyov, edited 20:06

Forwarded from Retail Data Engineering Community (Oleg Dobretsov)

Что читать DE в телеге?

Сегодня подборка полезных TG-каналов для дата-инженера:

• Инжиниринг данных https://news.1rj.ru/str/rockyourdata Канал Дмитрия Аношина, эксперта по BI. Автор также ведет курс datalearn.ru, где обучает дата-инжиниринг (бесплатно)
• Data Eng https://news.1rj.ru/str/dataeng Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.
• Moscow Spark https://news.1rj.ru/str/moscowspark Чат московского community Apache Spark.
• DE or DIE Chat https://news.1rj.ru/str/deordie_chat Чат сообщества DE or DIE, созданный дата инженерами. Поддерживают ребята из DoDo Engineering. Проводят митапы DE or DIE вместе с NewProLab
• Smart Data https://news.1rj.ru/str/smart_data_channel Канал про Data Engineering, аналитику и данные.
• Я у мамы Data Engineer! https://news.1rj.ru/str/ohmydataengineer
• Data online events & Moscow meetups https://news.1rj.ru/str/data_events Очень полезный канал - все ивенты, связанные с данными
• Data jobs feed https://news.1rj.ru/str/datajobschannel Канал с вакансиями в сфере обработки данных (инженеры, аналитики). Полезно для понимания тенденций на рынке и востребованных навыков

Если знаете еще полезные каналы - пишите в комментариях!

Инжиниринг Данных

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

1.49K viewsDenis Solovyov, 17:03

Дорогие девушки, поздравляю всех с праздником весны - 8 марта🌸

Желаю вам всегда чувствовать в себе женственность и нежность😊

И пусть вам будет не страшна Big Data😉

1.34K viewsDenis Solovyov, 11:51

Всем привет!

Мы в нашу команду маркетинговой аналитики в Promodo срочно ищем Web-аналитика уровня Middle.

Требования:

- Навыки работы с Google Analytics: настройка аккаунта/ресурса/представления, настройка целей и фильтров, настройка сегментов и применение их в отчётах. Будет большим плюсом, если у вас есть опыт настройки стандартной и расширенной электронной торговли и опыт работы с Measurement Protocol.

- Навыки работы с Google Tag Manager: настройка и создание переменных, триггеров, тегов, настройка передачи событий в системы аналитики и рекламные сервисы, понимание принципа работы dataLayer.

- Навыки работы с BI инструментами - Google Data Studio и Power BI.

- Знания SQL: будет большим плюсом навык работы с Google BigQuery.

- Знания Python или R хотя бы на базовом уровне.

- Знание основных маркетинговых каналов привлечения трафика и их особенностей (PPC, SEO, Email).

Если вы хорошо знакомы с сервисами мобильной аналитики, такими как Firebase Analytics и AppsFlyer и вы работали с сервисами Google Cloud - у вас большое преимущество😉

Чем предстоит заниматься:

- Настраивать и проводить аудит настроек веб-аналитики (Google Analytics и Google Tag Manager).

- Настраивать аналитику мобильных приложений (написание ТЗ на внедрение SDK и настройку событий для Firebase Analytics, AppsFlyer, Facebook Analytics, настройка dynamic links).

- Создавать end-to-end решения (сквозную аналитику) для маркетинга на базе Google Cloud.
Лично обучу всем тонкостям по тому, как создавать масштабируемые аналитические платформы в облаке Google, какие сервисы можно использовать для той или другой задачи и как применять DevOps практики в Google Cloud. В общем, кто хочет развиваться в дата инжиниринге, welcome! :)

- Создавать аналитическую отчётность на базе Google Data Studio и Power BI.

- Проводить A/B-тесты на сайте с использованием Google Optimize.

- Проводить продуктовую аналитику сайта (анализ воронки, поведенческих метрик и др.).

- Создавать отчёты по эффективности медийной рекламы.

- Создавать модели прогнозирования с использованием Python или R.

Сайт нашей компании, чтобы узнать больше: https://promodo.ua/

Если вы из Украины, то можете присылать резюме руководителю нашего отдела аналитики @kateguzevataya
Наша команда находится в Харькове, но мы готовы рассмотреть специалистов и из других городов.

В первую очередь нас интересует опыт работы с веб-аналитикой (Google Analytics и Google Tag Manager). По другим навыкам - если у вас нет большого опыта, но есть базовые знания и понимание, то всё равно присылайте резюме. Если вы самостоятельный специалист и быстро обучающийся, мы это очень ценим!

Digital агентство Promodo: Онлайн-маркетинг повного циклу

Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo

1.61K viewsDenis Solovyov, edited 09:40

Вижу, что часто поступают запросы от новичков по поводу того, что учить и в каком порядке, чтобы войти в сферу работы с данными и получить первую работу.

Действительно, сейчас настолько много технологий и инструментов, что во всём этом многообразии легко растеряться. Поэтому, я решил немного внести ясность и написать серию постов о процессе обучения человека, который до этого не имел никакого опыта работы с данными. Также оставлю ссылки на полезные ресурсы, где вы можете получить необходимые знания и навыки.

Итак, вот мой список того, что необходимо учить и в каком порядке:

1. Google Sheets / Excel. Если вы находитесь в самом начале пути и никогда на практике не работали хоть с какими-то данными, то нужно начать с самых-самых основ, т.е. изучить фундаментальные принципы работы с данными. Google Sheets или Excel, по моему мнению, отлично подходят для этой задачи, так как здесь вы можете без знаний каких-либо языков программирования "пощупать" данные, сделать все базовые операции с ними и понять разницу между плоской и сводной таблицами:)
В Excel вы можете провести быструю оценку данных (посмотреть количество ячеек, сумму значений в конкретном столбце, среднее значение и т.д.), сделать предварительную обработку (поменять тип данных, заменить символы и т.д.) и агрегацию данных (построить сводную таблицу), применить различные функции к данным для дальнейшего анализа.
Конечно, очевидно, что со знаниями одного Excel вас вряд ли возьмут на какую-то серьёзную позицию в компании, но вы поймёте фундаментальные концепции и пройдёте практически через все стадии цикла работы с данными.

По поводу ресурсов здесь сложно что-то конкретное посоветовать, потому что я учил эксельку в универе ещё)
Поэтому, здесь ищите и выбирайте, что вам больше нравится.

2. SQL и теория баз данных. Я уже писал, что SQL - это must have навык для любой позиции в работе с данными. Поэтому, просто учите его и больше практикуйтесь. Как только увидите, что решаете уже задачи средней и высокой сложности, можете уже составлять резюме и стучаться в разные компании на позиции Trainee или Junior. Скорее всего, на этом этапе вы будете помогать в разработке хранилища данных более опытным специалистам, архитекторам и BI-разработчикам. Отсюда вытекает следующий навык)

Ресурсы по изучению SQL и теории баз данных:

Интерактивный тренажёр по SQL (курс)
Оконные функции в SQL
Лучшие вопросы средней сложности по SQL на собеседовании аналитика данных
Онлайн тренажер с упражнениями по SQL
Задачки на LeetCode
Глава книги Олега Агапова об инжиниринге данных про теорию баз данных на GitHub

3. Знание BI-инструмента. Я бы рекомендовал в первую очередь изучить либо Power BI, либо Tableau, так как это, наверное, самые популярные инструменты, и они встречаются во многих вакансиях. 2 BI инструмента изучать ни к чему - не будете знать хорошо ни один из них. Выберите какой-то один.
После изучения не нужно думать, что вы не готовы к реальной работе и хвататься за очередные курсы, которые вам мало, что дадут. Смело составляйте резюме. Со знаниями SQL и BI-инструмента уже можно получить работу начинающего BI-разработчика и получать реальный опыт. Реальный опыт во много раз ценнее, чем десятки пройденных курсов.

Ресурсы по изучению Power BI и Tableau:

Полезные материалы по Power BI в одном месте
Tableau Tutorial

Google Sheets / Excel, SQL и BI - база, которая позволит вам с нуля войти в сферу работы с данными и получать реальный опыт. Дальше вы уже можете выбрать дальнейшее направление для развития. От выбранного направления будет зависеть то, что вам нужно будет изучать. Я выделяю 5 основных направлений:

1) Инжиниринг данных
2) Data-аналитика
3) Продуктовая аналитика и web-аналитика
4) Визуализация
5) Data Science

В ближайшие дни опишу навыки и их порядок изучения для каждого направления. Должно быть полезно.

Stepik: online education

Интерактивный тренажер по SQL

В курсе большинство шагов — это практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации.

7.41K viewsDenis Solovyov, edited 17:28

В прошлом посте я описал навыки, которые необходимы для входа в профессию в работе с данными человеку, который начал свой путь с 0. Также я предоставил ссылки на полезные ресурсы по их освоению.

Пост закончился тем, что после освоения базовых навыков, можно углубляться в одно из 5 направлений и развиваться в нём.

Поэтому, с этого поста я начну писать о навыках, которые нужны в этих направлениях и так же приложу ссылки на полезные курсы, статьи и видео. И начнём мы с направления Data Engineering - моего любимого направления, в котором я развиваюсь сам)

Ок, мы разобрались с экселькой, базами данных, SQL и научились на достаточном уровне пользоваться одним из BI-инструментов. Что учить дальше и в каком порядке, чтобы стать инженером данных? Вот мой список:

1. Принципы ETL/ELT, основные форматы файлов (csv, xlsx, xml, json), архитектура "клиент-сервер", web-технологии (REST API, webhook).
Речь здесь идёт больше о понимании технологий, а не конкретных инструментах. Но для понимания принципов ETL/ELT вы можете установить какой-нибудь ETL-инструмент себе на компьютер (например, Pentaho Data Integration) и попробовать построить относительно простые data-пайплайны.
Лично я сразу пробовал строить ETL-процесс с использованием Python и SQL, но когда я только начинал разбираться в data-инжиниринге, я не знал о ETL-инструментах с графическим интерфейсом:)
Но, если вы никогда не программировали, то такие инструменты будут хорошим вариантом для изучения главного процесса, за который отвечают инженеры данных.
Более того, в готовых ETL-инструментах уже есть встроенные средства для ETL-подсистем. С языком программирования внедрять и использовать ETL-подсистемы сложнее и дольше, поэтому и понять все аспекты ETL получится не так быстро, как с GUI.
В принципе, вы можете даже посмотреть вакансии ETL-разработчиков. Их не так много, как вакансий на data-инженеров, но они есть, и вы можете уже получить реальный опыт построения ETL-процессов в компании.

Полезные ресурсы для изучения:
Модуль про ETL от Data Learn
Что такое REST API
Что такое вебхуки

2. Python. После того, как вы поняли принципы ETL, изучили самые распространённые форматы файлов, с которыми работают инженеры данных и изучили базовые web-технологии, пора учиться строить data-пайплайны с использованием языков программирования.
Конечно, ETL-процессы можно строить и с использованием инструментов с графическим интерфейсом. Но если посмотреть на рынок труда, то в любой вакансии на data-инженера вы увидите как must have Python, Java или Scala. Поэтому, если хотите иметь больше возможностей и зарабатывать больше в этой сфере, нужно знать, как строить ETL с использованием кода.
Моё мнение - код придаёт больше гибкости решению и даёт больше возможностей в плане повышения качества (если вы умело программируете). По моему опыту также скажу, что, используя код, можно снизить стоимость поддержки всей аналитической инфраструктуры в несколько раз.
Также я часто в других каналах вижу вопросы по типу "Нужно учить только Python или Java/Scala?", "Почему учить Python, а не Java/Scala?" и т.д. Мой ответ: если у вас не было до этого опыта программирования, учите Python и только его. Точно не нужно распыляться на несколько языков. Python проще в освоении за счёт своей простоты синтаксиса и хорошей читабельности чужого кода. И он встречается как требование в большинстве вакансий. Да, Java и Scala быстрее в плане производительности самого кода (за счёт компиляции в машинный код), но не так много систем, где необходима наивысшая производительность кода. Да и с нынешними возможностями "железа" и облачными технологиями, имеет смысл больше уделять производительности труда инженеров, а не кода. Python как раз отлично подходит для этой цели.
Даже если вам не хватает возможностей Python, есть Spark (PySpark), который, кстати, спроектирован на Scala.
Вакансии с Java и Scala - это хороший вариант для опытных back-end разработчиков, у которых был опыт работы на этих языках и которые хотят переквалифицироваться в data-инженеров.
Процесс изучения Python рекомендую построить следующим образом:

DATALEARN | DE - 101 | МОДУЛЬ 4-1 Введение

В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим…

5.29K viewsDenis Solovyov, 21:53

1) Изучить базовый синтаксис языка и порешать задачки на применение этого синтаксиса.
2) После изучения синтаксиса попробовать построить простой ETL с использованием кода. Вы можете установить на свой компьютер базу данных PostgreSQL и загрузить туда какие-то данные. После этого с использованием Python извлечь данные из этой базы данных, агрегировать их, посчитать какие-то метрики и загрузить этот датасет куда-нибудь, например, в Google BigQuery.
Достаточным уровнем владения можно считать тот, при котором вы можете самостоятельно сделать ETL.

Ресурсы:
Программирование на Python
Streamlined Data Ingestion with pandas
Writing Efficient Python Code
Writing Functions in Python
Object-Oriented Programming in Python

3. Командная строка (Shell) и Linux. Допустим вы уже можете самостоятельно написать код на Python, который будет выполнять ETL. Но чтобы он работал в production и выполнялся по расписанию, нужна соответствующая среда. Такой средой могут быть Linux-сервер, Docker-контейнер, облачные сервисы по типу App Engine или Cloud Functions (Google Cloud) и др. Но чтобы, например, сделать deploy кода на сервере или в Docker-контейнере, нужно иметь базовые знания командной строки. Кроме того, командную строку можно использовать для подключения к базам данных, редактирования файлов и даже для обработки данных, не устанавливая при этом дополнительный софт.

Ресурсы для изучения:
Linux для начинающих
Data Processing in Shell
Introduction to Bash Scripting

4. Git. Git - это система контроля версий. Она позволяет эффективно работать с версиями ваших файлов с кодом, не создавая их копии и не занимая место на жёстком диске. С помощью Git вы также можете отправлять файлы в облако (облачные репозитории, такие как GitHub или Bit Bucket) для надёжного хранения и эффективной работы команды, если над проектом работает несколько инженеров. Как по мне, Git - это must have навык для всех, кто хоть как-то соприкасается с программированием.

Ресурсы для изучения:
Основы Git, GitHub и GitHub Actions

5. Docker. Очень распространённый инструмент для деплоя ETL-кода и развёртывания приложений.

Ресурсы для изучения:
Docker - Всё что нужно знать чтобы начать работать с Docker
Полное практическое руководство по Docker: с нуля до кластера на AWS

6. Базовые знания компьютерных сетей. Считаю, очень полезный и важный навык, так как к удалённым серверам и базам данных мы подключаемся, используя сетевые технологии. Мы используем различные протоколы и порты, которые позволяют нам получать и передавать данные.
Буквально на этой неделе у меня была задача по привязке статического IP-адреса к Cloud-функции (в Google Cloud) и базовые знания сетей значительно ускорили процесс настройки VPC (Virtual Privat Cloud), роутера и NAT-сервера. В общем, это классный скилл).

Ресурсы для изучения:
Курс от Microsoft
Серия постов об основах компьютерных сетей (прочитайте первые 6 глав)

Не ожидал, что так много информации будет выходить. Поэтому, наверное, разделим путь data-инженера на 2 блока.
Сегодня я описал первый блок. Этот блок включает в себя все базовые знания, которые в дальнейшем позволят изучить любую технологию или инструмент, которые нужны на конкретном проекте.
С этими знаниями вы можете спокойно претендовать на позицию Junior Data Engineer, начать получать опыт в качестве этой профессии и развивать свои скиллы. И не забываем, что мы берём ситуацию, когда у вас не было большого боевого опыта)

Вообще, если вы, например, уже начали работать в качестве BI-разработчика, как я описал в предыдущем посте, и вы планируете дальше развиваться в инжиниринге, я советую сразу находить возможности обкатывать ваши навыки на текущем месте работы. У вас есть данные, с которыми можно это делать)Просто поговорите с руководством о том, что хотите научиться этому, а там, глядишь и переквалифицируетесь сразу:)

В следующем посте опишу уже более специфические навыки, которые связаны с облачными технологиями, Big Data и DevOps практиками.

Stepik: online education

Программирование на Python

Курс посвящен базовым понятиям и элементам языка программирования Python (операторы, числовые и строковые переменные, списки, условия и циклы). Курс является вводным и наиболее подойдет слушателям, не имеющим опыта написания программ ни на одном из языков…

2.46K viewsDenis Solovyov, edited 21:53

Всем привет!

В прошлом посте я начал описывать путь обучения и становления data-инженера. Контент получился подробный, и я решил разделить его на 2 части. В первой части я описал базовые навыки, которыми должен обладать data engineer, чтобы выполнять большую часть бизнес-задач и мог освоить практически любую технологию, связанную с интеграцией и обработкой данных.

Сегодня я опишу, на мой взгляд, уже более специфические навыки, связанные с конкретными инструментами и необходимые для отдельных бизнес-задач.

Итак, мы освоили базовую теорию баз данных, научились писать SQL-запросы, разобрались, что такое ETL, начали кодить на Python и деплоить наш код в production.
Что дальше?

1. Cloud Computing (облачные вычисления). Сейчас очень растёт популярность облачных технологий и всё в большем количестве вакансий в качестве требований для data-инженера отмечается опыт работы с одним из крупных облачных провайдеров - Amazon Web Services, Microsoft Azure и Google Cloud. Здесь, в первую очередь, нам нужно фундаментально понимать принципы облачных вычислений и знать основные модели предоставления услуг от облачных провайдеров: IaaS, PaaS, SaaS (есть ещё производные модели, такие как CaaS и FaaS). Для каждой модели каждый провайдер предоставляет соответствующие сервисы. В первую очередь это касается сервисов из группы Compute, которая составляет костяк любого облака.
После изучения принципов облачных вычислений, понимания основных моделей предоставления услуг и базового изучения инструментов, отвечающих за вычислительные возможности облака важно изучить продукты из группы Storage - второго основного элемента любого cloud. Здесь важно понимать, какие сервисы есть для SQL и NoSQL баз данных, что можно использовать в качестве файлового хранилища (Data Lake), а что в качестве хранилища данных (Data Warehouse).
Это база, которую нужно знать, чтобы понять возможности Cloud. Дальше вы уже можете более глубоко изучать инструменты, которые необходимы для конкретного проекта или задачи.

Очень часто вижу вопрос: "Какое облако учить?"
Мой ответ: всё зависит от того, какое облако чаще используют в вашей стране или какое облако используют компании, в которых вы хотели бы работать.
Лично у меня исторически сложилось так, что я начал работать с Google Cloud, так как я работаю с маркетинговыми данными, а у GCP много удобных бесшовных интеграций с различными маркетинговыми сервисами от Google.
Если же вы работаете или планируете работать с российским рынком, то хорошим вариантом будет Yandex Cloud. Насколько я знаю, в России есть строгие ограничения по хранению данных - данные географически должны храниться в рамках РФ. Т.е. вы не можете использовать сервера, которые находятся за пределами страны, а как раз такие сервера предоставляют 3 крупных провайдера (AWS, Azure и GCP). Yandex Cloud же может предоставить сервера внутри РФ, и вы не будете нарушать закон.

* Возможно, я чего-то не учёл здесь, поэтому поправьте меня в комментариях, если что.

Нужно знать главное - принципы у всех провайдеров одни и те же. Все делают одно и то же, просто сервисы немного отличаются. Но, если вы комфортно чувствуете себя с каким-то одним облаком, вам не составит огромного труда попробовать другое, так как вы будете понимать принципы. Поэтому, это не критически важно, какое конкретное облако вы выберете для изучения. Главное, не хватайтесь за все))Толку от такого изучения будет мало.

4.36K viewsDenis Solovyov, edited 20:27

Ресурсы для изучения:
AWS Cloud Practitioner Essentials
Data Analytics Fundamentals
Amazon Redshift - Getting Started Guide
Azure Fundamentals part 1: Describe core Azure concepts
Azure Fundamentals part 2: Describe core Azure services
Azure Fundamentals part 3: Describe core solutions and management tools on Azure
Data Engineering, Big Data, and Machine Learning on GCP
Серия постов по Google BigQuery

2. Работа с orchestration tools (или на русском - оркестраторами). Оркестратор - это инструмент, который позволяет объединить все наши этапы по извлечению, трансформации и загрузке данных в единую логическую цепочку, в единый data-пайплайн, чтобы весь ETL-процесс работал слаженно и бесперебойно. Такими инструментами могут выступать:
1) Специализированные решения для оркестрации по типу Apache Airflow, Apache NiFi или Luigi.
2) Готовые ETL-инструменты, такие как AWS Glue, Azure Data Factory, Google Cloud Dataflow, Matillion ETL, Fivetran и др.

Также возможности оркестрации есть в таком инструменте, как Data Build Tool (dbt), но этот инструмент предназначен только для трансформаций данных внутри хранилища данных. Т.е. в ETL он делает T - transform. За E - extract и L - load этот инструмент не отвечает.

Какой из этих инструментов учить зависит, опять-таки, от многих факторов: популярности отдельных инструментов в вашей стране, компании, в которой вы хотите работать, какого-то личного видения и т.д.

Лично я сейчас активно работаю с dbt и решения по типу Apache Airflow ещё не доводилось использовать. Но у меня у самого есть желание хорошо выучить какой-то инструмент для оркестрации всего ETL-процесса и, скорее всего, это будет Airflow, так это решение гибкое - оно не ограничивает вас каким-то одним вендором (как, например, Amazon Glue или Azure Data Factory) и позволяет использовать DevOps-практики. Вы можете развернуть его на локальном сервере или на любом облаке. Но, опять же, повторюсь, всё зависит от многих факторов и тут нужно выбрать инструмент, подходящий конкретно вам. Сразу все инструменты учить нет смысла - достаточно знать один.

3. Spark. Теперь переходим к Big Data. Когда вы работаете уже с очень большими объёмами данных, стандартных решений может быть недостаточно, и вы прибегаете к технологиям параллельной обработки больших массивов данных. Одной из таких технологий является Spark. Так как вы до этого учили Python, то и учить Spark я вам рекомендую, используя уже знакомый вам синтаксис. Этот фреймворк называется PySpark (использовать возможности Spark можно также, программируя на Java или Scala). Хорошим вариантом для изучения PySpark будет использование Databricks Community Edition. Он бесплатный, и там вы можете сразу запускать свой код на PySpark. В общем, очень удобно.

Ресурсы для изучения:
Introduction to PySpark
Big Data Fundamentals with PySpark
Cleaning Data with PySpark
Databricks Community Edition

В принципе, это основные навыки, которые нужны будут вам, чтобы шагнуть на новую ступеньку в развитии вас как data-инженера.
Здесь я не упомянул экосистему Hadoop и сделал это намеренно, так как считаю, что Hadoop - это больше legacy-штука и, со временем, его будут использовать всё реже и реже. Сейчас основной тренд в построении аналитической инфраструктуры направлен на облачные технологии. Это можно увидеть по большому количеству проектов, связанных с миграцией аналитики из on-premise в cloud. В принципе возможности Hadoop можно использовать и в облаке, но не совсем понимаю зачем, если, например, HDFS можно полностью заменить AWS S3, Cloud Storage или Delta Lake, а Hive или Impala - Redshift Spectrum или Google BigQuery.
В общем, я топлю за путь изучения с погружением в Cloud, но вы можете быть со мной не согласны.

После изучения вышеперечисленных технологий и применения их в коммерческих проектах, можно пойти дальше и начать изучать DevOps для data-инжиниринга. В принципе у вас уже есть некоторые знания DevOps-инженера - вы уже изучили Linux и командную строку, Git, Docker и это очень неплохой бекграунд. Теперь можно двигаться дальше и разобраться с более сложными штуками:

4.71K viewsDenis Solovyov, 20:27

4. CI/CD. В принципе, если вы, имея предыдущие навыки, успели поработать на больших коммерческих проектах, то, скорее всего, вы уже сталкивались с CI/CD и использовали специальные инструменты. CI/CD расшифровывается как Continuous Integration и Continuous Deployment. Это автоматический процесс компиляции, тестирования и деплоя вашего кода и приложений в production. Пример CI/CD пайплайна: вы написали код на Python для вашего ETL и сделали push этого кода через Git на GitHub. После этого запускается так называемый build, который запускает автоматический процесс тестирования и деплоймента вашего кода на рабочий сервер или в Docker-контейнер. Для запуска CI/CD пайплайнов используются специальные сервисы, такие как Jenkins, GitLab CI/CD, Bamboo, Circle CI. Облачные провайдеры имеют свои CI/CD сервисы, например, Google Cloud Build, Azure DevOps или AWS CodePipeline.
Что учить, опять-таки, зависит от компании и проекта. Я, например, в своей работе использую Cloud Build, так как тесно работаю с Google Cloud.

Полезные ресурсы здесь посоветовать сложнее, потому что я учил Cloud Build, просто разбираясь с ним на практике, читая разные статьи и справку Google Cloud. Знаю только хороший курс по Jenkins. Если вы до этого не имели опыта с CI/CD, могу рекомендовать этот курс, так как мне нравится как его автор подаёт материал.

5. Infrastructure as Code (IaC). Это когда мы поднимаем всю инфраструктуру, т.е. создаём сервера, группы серверов, load balancer, кластеры контейнеров, привязываем ip-адреса и т.д., через код. Это очень удобно, когда мы создаём отдельные ресурсы для разных сред (dev, test, prod) и хотим просто скопировать всю инфраструктуру на другой проект.
Сам с таким не работал, но хочу обязательно получить такой опыт)
Для IaC также используются свои сервисы, такие как Terraform, AWS CloudFormation, Ansible, Puppet и др. Часто слышу о первых 3-х. Какой из них изучать, снова-таки, зависит от компании и проекта.

Полезные ресурсы:
Курс по Terraform
Урок по AWS Cloud Formation

Думаю, на этом закончим. Как вы смогли увидеть, путь становления data-инженером высокого уровня длинный и интересный. Очень много различных технологий и инструментов. С таким скоупом не соскучишься:)

В следующих постах хочу рассказать о том, что учить и в каком порядке для других специализаций, опираясь на свой опыт и опыт коллег по рынку. Эти пути могут быть не менее интересными для вас:)

Jenkins - Автоматизация CI/CD - Полный Курс на Простом Языке

#devops #девопс #jenkins #ityoutubersru
1-Jenkins - Автоматизация CI/CD

Если помог, поддержите парой баксов, хотябы Канадских :) https://www.paypal.me/DenisAstahov

4.68K viewsDenis Solovyov, edited 20:27

Вот и первая тысяча подписчиков набежала)
Спасибо всем, что читаете!☺️

1.4K viewsDenis Solovyov, 08:43

Мне написали по поводу довольно интересной вакансии BI-аналитика уровня Middle. В вакансии указывается на то, что работа будет заключаться не только в построении дашбордов, но и в поиске инсайтов, а также обучении бизнес-пользователей работать с этими дашбордами.

Так как сейчас мои посты посвящены как раз развитию в сфере работы с данными, то считаю, на такой работе потенциально можно получить очень хороший опыт.

Пересылаю сообщение с вакансией.
У кого есть соответствующий набор скиллов и желание расти, можете откликнуться)

1.38K viewsDenis Solovyov, edited 07:03

Forwarded from George Vinogradov 🍀

Денис привет,

Ищу к себе в команду BI аналитика. Подумал, что в сообществе может быть кому-то интересно.

Описание ниже:

В команду Data Management в Novartis ищу BI аналитика (middle), которому предстоит развивать data-driven подход к принятию решений в компании, анализировать очень разные данные: начиная с продаж, заканчивая digital активностями и hr аналитикой.

Что по стеку: excel (куда без него), sql, alteryx, qliksense, python (nice-to-have)
+ английский на уровне - могу рассказать о своем исследовании.

Подробное описание вакансии и ссылка, чтобы откликнуться в notion.
https://www.notion.so/We-are-hiring-BI-Analyst-d87cae78ee914fbc8db630f607650b75

Georgiy Vinogradov on Notion

We are hiring | BI Analyst | Notion

В Novartis в команду Data Management ищем еще одного опытного BI аналитика для развития системы корпоративной отчетности и data-driven подхода к принятию решений в компании. Запросов на отчетность от бизнес пользователей крайне много, данные разные и интересные…

1.59K viewsDenis Solovyov, 07:03

Ребята, интересная конференция намечается по продуктовой аналитике. От организаторов Матемаркетинга - на мой взгляд, одной из самых толковых конференций по аналитике и инжинирингу на СНГ.

1.44K viewsDenis Solovyov, 14:30

Forwarded from Alexey Nikushin

Уже на следующей неделе пройдет первая в своем роде русскоязычная онлайн-конференция по продуктовой аналитике Aha!'21. Организаторы собрали убедительную программу:

- 20% - про монетизацию: из каких шагов состоит оптимальная воронка активации, как определить шаги (моменты) воронки, применение фреймворка от Reforge на практике и др.
- 20% - технологический стек - от работы с Power BI и Amplitude до Яндекс.Облака и Exasol.
- 20% - эксперименты: оценке долгосрочных эффектов после проведения эксперимента, этапам эволюции in-house системы экспериментов в любой компании, проверке качества систем сплитования трафика и мн. др.
- Много внимания уделено системам автоматического поиска инсайтов в данных, поиску, анализу и автоматизации процесса обнаружения аномалий, как находить инсайты по оптимизации монетизации. После этого, подходы к определению product market fit и обнаружению aha-моментов. Оргам удалось согласовать Q&A-сессию с вице-президентом Sequoia Capital (!!!) - самым успешным венчурным фондом в мире - они то уж точно знают что к чему в деньгах и продуктах + еще десяток тем и дискуссий. Подробная программа конференции.

🔥 Не пропускайте конференцию - промокод - LASTCALL - дает скидку 10% - регистрируйтесь!

❗️Важно! Все материалы — видео, презентации, мастер-классы, доступы в чаты - бессрочно доступны участникам в записи сразу после трансляции. Вещание студийного качества в формате FullHD, с возможностью поставить прямой эфир на паузу и потом ускорить. Если вы пропустили что-то в прямом эфире — не страшно! Вопросы к спикерам собираются в течение 1,5-2 недель и потом проводится общий Q&A Zoom со спикерами.

Помните - ничто не освобождает вас от знания матчасти!

matemarketing.timepad.ru

Aha! Лови момент / События на TimePad.ru

Aha! – международная практическая онлайн-конференция по продвинутой продуктовой аналитике. Среди спикеров конференции представители крупных российских и зарубежных компаний: Avito, Яндекс, Amplitude, Flo, MIRO и др. Целевая аудитория —продуктовые аналитики…

2.06K viewsDenis Solovyov, 14:30

Ребята, такой вопрос: интересно бы вам было читать информацию о парсинге веб-сайтов и получать объявления о митапах на эту тему здесь на канале?

Anonymous Poll

280 voters1.72K viewsDenis Solovyov, 07:49