🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafold

https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄

На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет без монетизации через рекламу).

26 августа в 18:00 компания IT_One вместе с JUG Ru Group проведет онлайн митап по Big Data и Java.

В программе:
— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;
— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;
— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных, архитектуры и разные подходы к работе с Big Data.

А еще вас будет ждать дискуссионная зона и розыгрыш подарков среди участников 🎁

Участие бесплатное, нужно только зарегистрироваться.

В общем, если вам интересны эти темы - приходите.
https://habr.com/ru/company/ods/blog/572264/

Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).
Интересные цифры и выводы внутри статьи.
Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:

DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁

Не отпускать вас на конференцию, потому что вас там переманят - это глупость со стороны работодателя и от такого нужно бежать. Я бы сбежал.
Не ходить на конференцию, ибо “я в записи посмотрю” - это упускать возможность узнать из первых уст в кулуарах о состоянии индустрии, и выстроить связи, которые вам помогут в будущем: интересным проектом или вы найдете себе коллегу.
Мерч, стикеры, книги - куда ж без этого =)


Если что, этой осенью меня можно поймать тут:
- 18 сентября, уже завтра, TechTrain https://bit.ly/3Dxabny, я выступаю с докладом впервые) Приходите поддержать!
- 20-21 сентября, Saint HighLoad ++, https://www.highload.ru/spb/2021, тут все просто - это флагманские конференции, такие не стоит пропускать.
- 27-28 сентября, MoscowPython Conf++ https://conf.python.ru/moscow/2021. Эту конференцию я помогал организовывать, курирую один из докладов. Если вы вдруг не купили билет, то есть промокодик SimonOsipov{MPC2021} на 7% скидки
- 11-14 октября, SmartData, https://bit.ly/3ypGykp. Ну как дата инженеру не посетить конференцию для Дата Инженеров? Опять же, если у вас еще нет билета - есть промокодик trubadannykh2021JRGpc
- 25 и 26 ноября, HighLoad++ https://www.highload.ru/moscow/2021. Завершение сезона крупнейшей конференцией.
Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)

Подавляющее большинство инженеров из больших и очень больших компаний, и облаков в России немного, а большинство это on-prem компоненты. Тут все очевидно было. Как и с языком программирования: почти половина пишет на Python, 30% на Scala и всего 9% на Java. Тоже предсказуемо.

А вот неочевидное:
1) Лишь 11% ответивших считают, что самый главный технический навык это ЯП, 36% за SQL и 43% за знание тулинга и фреймворков. Литкоднинужен?😁
2) Лишь 30% сразу начали заниматься DE, все остальные - перекатывались из другой сферы.
3) Топ-5 навыков это вообще боль. За 67 ответов их набежало >35 разнообразных. Аж на слайд все не поместились.
https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.html

Тут Airflow 2.2.0 подвезли.

Из заметного:
➡️ Custom Timetables (AIP-39)
➡️ Deferrable Tasks (AIP-40)
➡️ Custom @task decorators and @task.docker
➡️ Validation of DAG params
➡️ Testing Connections from the UI - test the credentials for your Connection actually work
➡️ Duplication Connections from the UI
➡️ DAGs “Next run” info is shown in the UI, including when the run will actually start
➡️ airflow standalone command runs all of the Airflow components directly without docker - great for local development
Только сегодня Astronomer раздаёт бесплатно курсы и сертификации по Airflow - по промокоду airflow-free-cert

https://academy.astronomer.io/page/astronomer-certification
https://coalesce.getdbt.com/

Так, в недавнем докладе на TechTrain я рассказывал про разные пути развития Data Engineer. Так вот, “единорогом” на этом пути считается многорукая шива под названием Analytics Engineer. Это тот, кто вам и данных найдет, и построит пайплайн, положит это все в систему аналитики (которую сам может поднять) и сделает отчет для бизнеса. При этом, он сам пояснит бизнесу, зачем и почему этот отчет им нужен.

DBT в декабре проводит бесплатную онлайн конференцию Coalesce - The Analytics Engineering Conference.
Кажется, будет интересненько.

Регистрация по ссылке выше. Там же и программа конференции, воркшопов и дискуссий.
Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил).
У него тут прекрасное интервью вышло на тему будущего дата инженеров.

Главные моменты
- Скорость ETL и аналитики сильно возросла
- Единообразие в данных все еще сложно достижимо, но это норм
- Управление изменениями все также проблема, но уже есть инструменты
- Данные должны быть неизменяемыми, иначе хаос придет
- DE роль слишком объемная и начала дробиться на специализации
- Операционка все еще доставляет проблем, просто теперь она распределенная

Нагло подсмотрел ссылку на интервью в DE Annotated https://jb.gg/jg3ggt от @asm0dey
🔋 Труба данных
Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил). У него тут прекрасное интервью вышло…
Как в Википедии, ты тыкаешь на одну ссылку почитать, и все, через 3 часа ты читаешь про то, как разводить кабачки в условиях болтной местности.
Так и я продолжил читать статьи Maxime Beauchemin и наткнулся на свежую How the Modern Data Stack is Reshaping Data Engineering

Вообще, выражение Modern Data Stack это уже баззворд, пихают его везде. Чаще этой фразы я слышу только “Hadoop умер” (нормально он себе живет относительно нишево, ничего он не умер, как и Ruby, не слушайте шарлатанов).
Так вот, основные моменты из статьи

Data infrastructure as a service
Нам пора думать о платформах, потому что без развития платформы, невозможно расти дальше определенного этапа, слишком больно.

Data integration services
Готовые решения по интеграции данных будут заменять постепенно скриптики, которые мы написали для REST API

Mountains of Templated SQL and YAML
Были полотна YAML шаблонов, теперь и полотна SQL. Программисты не любят SQL, говорят про инъекции, грязный код и вот это все, но количество аналитиков всех мастей растет, а для них SQL основной инструмент

ELT > ETL и Reverse ETL
Данные в хранилище мы научились поставлять. А теперь бы нормально научиться отдавать в наши системы.

The rise of the analytics engineer
Ага, DataOps это вот сюда тоже.

Ну и еще несколько пунктов. Сходите почитать, полезное чтиво.


P.S. на картинках можно заметить, что почти во всех пайплайнах есть DBT. 😄

P.S.S. Если лень читать, можно послушать на английском языке его доклад на эту тему https://www.youtube.com/watch?v=EKhYGYrq0eI
https://drecon.org/

На просторах англоязычного интернета нашлась еще одна конференция по Data Engineering, но теперь с модной приставкой Reliability.
Доклады разные, кажется, что есть что послушать, однако это лишь на мой вкус. Поэтому лучше самому составить свое мнение, посмотрев на расписание.

Учтите, конференция по МСК будет вечер/ночь.
Так, во всем этом потоке новых статей и видосиков, как вы ориентируетесь? Напишите в комментарии! (Да-да, я прикрутил обсуждения)

Какие источники использую я?
- RSS. Обычная читалка, типа Feedly, подписываюсь на интересные мне сайты, читаю раз в неделю заголовки и, если нравится предпросмотр, читаю глубже. Из последнего подписался на All Things Distributed.
- Infomate. Продвинутая RSS, материал подобран уже, спасибо всем, кто постарался.
- Telegram. Тут подписан на профильные группы, типа @rockyourdata или @DE_events
- Twitter. Подписываемся на адекватных лидеров мнений (а не шитпостеров) и читаем периодически, что они приносят.
- LinkedIn. Вот тут редко, но все же иногда проскальзывает материал, полезный для чтения.
- Рассылки в стиле Data Engineering Annotated от Паши @asm0dey (бесплатная) или The Pragmatic Engineer от Gergely Orosz (платная)
- Подписчики. Да-да, и такое бывает. Иногда мне приносят что-то интересное прямо в личку почитать, например “Data Driven компания: Как продемонстрировать ценность данных вашим коллегам?” от Жени
Data Engineering Zoomcamp!

Вот такое вот клевое название у ребят из DataTalksClub. Они проводят бесплатные зум-кемпы по разным темам и вот добрались до DE. Начало 17 января 22 и бесплатно.
Может быть кому-нибудь интересно будет послушать / посмотреть

Программа следующая:

1. Data warehousing (BigQuery)
2. Batch processing (Airflow, Spark)
3. Analytics engineering (DBT)
4. Stream processing (Kafka)

Подробнее тут: https://t.co/KpYI2S5aIq

Слак Data Talks Club https://datatalks.club/slack.html