DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
👍21
Машинное обучение для начинающих

Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
👍2🔥2💯1
Аналитик инструментов сборки и репозитория
Yandex Cloud

Москва, Санкт-Петербург, Новосибирск

Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.

Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности

Мы ждём, что вы

- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач

Откликнуться
Контакт в тг @oksidgi
👍2
Airflow 2.8

Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
👍16
Apache Airflow в Adyen

Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
👍7🔥3
Если вы активно пользуетесь (или пользовались) Kinesis Data Firehose, то Amazon объявил, что теперь этот сервис поддерживает zero buffering. Что означает, что им можно пользоваться для загрузки данных почти в режиме real-time streaming (с незначительной задержкой до нескольких секунд на обработку).

Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.

А как вы строите доставку данных внутри AWS?
👍6🔥3
У Haki Benita вышла полезная статья про эффективное чтение Excel файлов в Python 😉 Как ни крути, а дата инженерам часто приходится копаться в csv/excel файлах, поэтому наверняка его заметка может вам пригодиться, если вы оперируете действительно огромными excel файлами.

FYI: Pandas оказался худшим решением.
🔥20
Обзор разных подходов для построения распределенного хранилища на базе PostgreSQL: https://www.crunchydata.com/blog/an-overview-of-distributed-postgresql-architectures

Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
🔥6
Релиз Luigi 3.5.0

Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
👍7🔥3
Data Engineering for Beginners

На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
🔥17👍5
Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время работал в компании Confluent (авторы Apache Kafka), где активно продвигал Кафку в массы. Сейчас же он работает в StarTree, cloud-решение на базе Apache Pinot. Его новый доклад как раз посвящен Apache Pinot, распределенному OLAP хранилищу.

Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot

И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
🔥10👍3
📣One Day Offer для Data Engineer📣

10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.

One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».

Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.

📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).

🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.

🔥Успейте отправить форму до 6 февраля!

Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
👍6