Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
ETL Pipelines with Airflow: the Good, the Bad and the Ugly

In this article, we review how to use Airflow ETL operators to transfer data from Postgres to BigQuery with the ETL and ELT paradigms. Then, we share some challenges you may encounter when attempting to load data incrementally with Airflow DAGs. Finally, we argue why Airflow ETL operators won’t be able to cover the long tail of integrations for your business data.
Сказка ложь, да в ней намек🤣
Очень классный пост про было-стало. В данном случае оптимизация костов Snowflake в облаке. Очевидный факт, Snowflake - Data Warehouse as Services (SaaS - Software as a service is a software distribution model in which a cloud provider hosts applications and makes them available to end users over the internet.), облака у нас эластичные (The purpose of Elasticity is to match the resources allocated with actual amount of resources needed at any given point in time.)

Все работает как часы - больше данных, больше мощности, как результат мы получаем отчеты вовремя.

Если раньше при проблемах с производительностью нельзя было просто отмахнуться, так как, чтобы купить железку это надо пол года ждать, то теперь можно даже не париться, есть же - автоматическое масштабирование (Scalability handles the changing needs of an application.)

Но все это не бесплатно🤑 Поэтому инженерам важно отслеживать стоимость и стараться ее оптимизировать.
Посмотрел видео про Airbyte, где берут интервью у фаундеров в марте 2021. Они как раз получили инвестиции - 26 млн$. Airbyte - это сейчас open source набор коннекторов для вашего ETL/ELT инструмента. Они сказали несколько интересных вещей:
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе

Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.

Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud

И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
Умение анализировать данные полезно всем

Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.

Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...

Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.

Представители бизнеса поделятся реальными кейсами трансформации бизнеса:

* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций

Участие бесплатное, регистрация по ссылке https://day.loginom.ru/

PS Пост поддержал приют для собак Зоорассвет в Москве.
У нас ещё один замечательный и полезный перевод статьи - Будущее BI за открытым ПО, та самая которую написал создатель Airflow и Superset.

Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.

Поддержите лайком статью!
Прикольный пост про карьеру Бизнес Аналитика. Обычно все про технические роли и прикладные задачки, а тут вот про то как стать БА - So You Want To Be A… Business Analyst https://medium.com/ft-product-technology/so-you-want-to-be-a-business-analyst-fc28596411f5
Я недавно шарил пост про канал - Кибер Самурай или, что-то типа того, мы договорились сделать посты по обмену. Это оказался какой-то скам🙅‍♂️, по ощущуниям как гопники развели на телефон у метро🤣
Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà

https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)


Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Прособеседуйте команду рекламных продуктов Яндекса

13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.

Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:

- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым

Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.

- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track

PS пост поддержал приют для собак Зоорассвет в Москве
Картинка, которую мы заслужили?))
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark.

Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video

Все бесплатно и от лучших в индустрии.
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜

Хочу показать пример выполнения задания и фидбек от Романа.

1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.

2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard

3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.

Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.


PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!