🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
#НамДжунаБы


Вакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.

Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz
#НамДжунаБы

Epoch8.co в поисках джуна DE

Для отклика заполните пожалуйста форму:

https://airtable.com/shrhBZuHzKPM1xA2t
https://news.1rj.ru/str/deordie/16

Очередной дайджест (8) DE or DIE

Темы выпуска
- 4 Things You Need to Know When Solving for Data Quality
- Data Lake vs. Data Warehouse
- Migrating to Apache Iceberg at Adobe Experience Platform
- 5 More Reasons to Choose Apache Pulsar Over Apache Kafka
- Create Cloud Architecture with Diagrams for AWS, Azure, and GPC
Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.

Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.

Лично меня интересует вот эта тема: “Миллиард мутаций: хранение и поиск О поиске оптимального способа хранения более миллиарда известных мутаций человека из различных открытых источников и о том, какое место занимает Python в цепочке от сдачи пациентом слюны до выдачи результатов с найденными мутациями.
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/

Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я постил выше.
Но это очень хорошая штука, когда все важные события внутри твоей профессиональной области собирают в одно месте. Поэтому милости просим.

#Data_Engineering_Annotated
Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafold

https://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄

На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет без монетизации через рекламу).

26 августа в 18:00 компания IT_One вместе с JUG Ru Group проведет онлайн митап по Big Data и Java.

В программе:
— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;
— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;
— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных, архитектуры и разные подходы к работе с Big Data.

А еще вас будет ждать дискуссионная зона и розыгрыш подарков среди участников 🎁

Участие бесплатное, нужно только зарегистрироваться.

В общем, если вам интересны эти темы - приходите.
https://habr.com/ru/company/ods/blog/572264/

Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).
Интересные цифры и выводы внутри статьи.
Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:

DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁

Не отпускать вас на конференцию, потому что вас там переманят - это глупость со стороны работодателя и от такого нужно бежать. Я бы сбежал.
Не ходить на конференцию, ибо “я в записи посмотрю” - это упускать возможность узнать из первых уст в кулуарах о состоянии индустрии, и выстроить связи, которые вам помогут в будущем: интересным проектом или вы найдете себе коллегу.
Мерч, стикеры, книги - куда ж без этого =)


Если что, этой осенью меня можно поймать тут:
- 18 сентября, уже завтра, TechTrain https://bit.ly/3Dxabny, я выступаю с докладом впервые) Приходите поддержать!
- 20-21 сентября, Saint HighLoad ++, https://www.highload.ru/spb/2021, тут все просто - это флагманские конференции, такие не стоит пропускать.
- 27-28 сентября, MoscowPython Conf++ https://conf.python.ru/moscow/2021. Эту конференцию я помогал организовывать, курирую один из докладов. Если вы вдруг не купили билет, то есть промокодик SimonOsipov{MPC2021} на 7% скидки
- 11-14 октября, SmartData, https://bit.ly/3ypGykp. Ну как дата инженеру не посетить конференцию для Дата Инженеров? Опять же, если у вас еще нет билета - есть промокодик trubadannykh2021JRGpc
- 25 и 26 ноября, HighLoad++ https://www.highload.ru/moscow/2021. Завершение сезона крупнейшей конференцией.
Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)

Подавляющее большинство инженеров из больших и очень больших компаний, и облаков в России немного, а большинство это on-prem компоненты. Тут все очевидно было. Как и с языком программирования: почти половина пишет на Python, 30% на Scala и всего 9% на Java. Тоже предсказуемо.

А вот неочевидное:
1) Лишь 11% ответивших считают, что самый главный технический навык это ЯП, 36% за SQL и 43% за знание тулинга и фреймворков. Литкоднинужен?😁
2) Лишь 30% сразу начали заниматься DE, все остальные - перекатывались из другой сферы.
3) Топ-5 навыков это вообще боль. За 67 ответов их набежало >35 разнообразных. Аж на слайд все не поместились.
https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.html

Тут Airflow 2.2.0 подвезли.

Из заметного:
➡️ Custom Timetables (AIP-39)
➡️ Deferrable Tasks (AIP-40)
➡️ Custom @task decorators and @task.docker
➡️ Validation of DAG params
➡️ Testing Connections from the UI - test the credentials for your Connection actually work
➡️ Duplication Connections from the UI
➡️ DAGs “Next run” info is shown in the UI, including when the run will actually start
➡️ airflow standalone command runs all of the Airflow components directly without docker - great for local development
Только сегодня Astronomer раздаёт бесплатно курсы и сертификации по Airflow - по промокоду airflow-free-cert

https://academy.astronomer.io/page/astronomer-certification
https://coalesce.getdbt.com/

Так, в недавнем докладе на TechTrain я рассказывал про разные пути развития Data Engineer. Так вот, “единорогом” на этом пути считается многорукая шива под названием Analytics Engineer. Это тот, кто вам и данных найдет, и построит пайплайн, положит это все в систему аналитики (которую сам может поднять) и сделает отчет для бизнеса. При этом, он сам пояснит бизнесу, зачем и почему этот отчет им нужен.

DBT в декабре проводит бесплатную онлайн конференцию Coalesce - The Analytics Engineering Conference.
Кажется, будет интересненько.

Регистрация по ссылке выше. Там же и программа конференции, воркшопов и дискуссий.
Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил).
У него тут прекрасное интервью вышло на тему будущего дата инженеров.

Главные моменты
- Скорость ETL и аналитики сильно возросла
- Единообразие в данных все еще сложно достижимо, но это норм
- Управление изменениями все также проблема, но уже есть инструменты
- Данные должны быть неизменяемыми, иначе хаос придет
- DE роль слишком объемная и начала дробиться на специализации
- Операционка все еще доставляет проблем, просто теперь она распределенная

Нагло подсмотрел ссылку на интервью в DE Annotated https://jb.gg/jg3ggt от @asm0dey