DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021

На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".

Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
💥 DWHard митап
21 декабря / вторник
17:00 - 20:00 (мск)

Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?

👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.

👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.

Больше информации по ссылке внизу
📌 Подробности и регистрация

Регистрируйся и уже сейчас задай вопросы спикерам митапа!
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp

Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.

У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.

Старт намечен на 17 января 2022 года
Интересная статья про то как в Великобритании строили COVID-дэшборд на PostgreSQL, Citus и Microsoft Azure. В статье речь идёт про этот дэшборд.

Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.

Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
👍1
#вакансия

Аналитик DWH (от Junior до Senior)
Москва
Accenture

В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.

Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.

Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.

Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.

Оплата: 130–250 тысяч рублей (Gross)

Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Запись докладов ранее анонсированной конференции: https://youtu.be/WHN8bLSqebQ
Отличный ресурс про внутреннее устройство PostgreSQL: https://www.interdb.jp/pg/index.html
Wes McKinney, автор pandas, пишет 3-е издание своей книги Python for Data Analysis в рамках Open Edition: https://wesmckinney.com/book/
Мой опыт работы с pandas начинался именно с этой книги, хотя тогда она мне казалась далеко не дружелюбной для новичков.
Исследование data engineering позиций внутри биг-техов

Наткнулся на небольшое исследование рынка dataeng позиций среди биг-тех компаний: Amazon, Google, Facebook (ой, Meta) и т.д. Автор вручную проанализировал 1К вакансий и выяснил некоторые инсайты:

- основное требование это знать Python и SQL
- чтобы расти дальше по технической части необходимо помимо Python/SQL иметь знания Java/Scala/C++
- биг-техи предпочитают code-heavy решения вместо новомодных low/no-code перделок
- почему то автор в статье упоминает Airflow как low-code pipeline solution, думаю это опечатка
- доля Amazon среди открытых вакансий по dataeng 65%
- Tableau в 2 раза популярнее Power BI
- Доли среди клауд провайдеров: AWS 53% (но стоит учесть, что 65% всех вакансий от Amazon), у Azure и GCP доли примерно одинаковые
- стриминг становится всё популярнее (spark streaming, flink, kafka)
- автор не забыл и про софт-скиллы, как ни крути, а работаем мы прежде всего с людьми

У меня была идея сделать анализ dataeng вакансий среди популярных площадок для понимания наиболее актуальных требований и не ограничиваться только FAANG. Ждите в ближайшее время (это, кстати, также может стать неплохим data engineering проектом в копилку).
🔥4👍1
У ребят из Astronomer прошел очередной вебинар, на этот раз тема вебинара — Масштабирование Airflow
Посмотреть можно в ютубе: https://www.youtube.com/watch?v=i9F0LFobejc
Основной фокус сделали на двух самых популярных Executors: CeleryExecutor и KubernetesExecutor. Рассказали про нюансы и подводные камни каждого, в целом получилось полезно!
👍9
Налетай, разбирай!
На Udemy раздают двухчасовой курс по Redis бесплатно и без смс, но с регистрацией: https://bit.ly/3LeuoBQ
👍13