Написал небольшую заметку про работу с XCom в Apache Airflow: Apache Airflow и XCom
Код из заметки можно взять из репа у меня на гитхабе.
Код из заметки можно взять из репа у меня на гитхабе.
Нашел интересный блог дата инженера Anna Geller (Anisienia): https://www.annageller.com/
Судя по постам начинала она его в этом году, но уже есть ряд годных статей про Airflow, Prefect, AWS EKS и тд
Мне особенно понравился её глубокий и чуточку скептический пост про TaskFlow API, который появился в Airflow 2.0: https://www.annageller.com/posts/taskflow-api-in-apache-airflow-2-0-should-you-use-it
Я сейчас тоже готовлю подробный пост про TaskFlow API и кастомный бэкэнд для Xcom, где не всё так грустно как пишет Анна. Пост будет сегодня-завтра.
Ближе к концу этой недели все, кто оставил заявку на ранний доступ к курсу про Airflow получат письма на почту.
Судя по постам начинала она его в этом году, но уже есть ряд годных статей про Airflow, Prefect, AWS EKS и тд
Мне особенно понравился её глубокий и чуточку скептический пост про TaskFlow API, который появился в Airflow 2.0: https://www.annageller.com/posts/taskflow-api-in-apache-airflow-2-0-should-you-use-it
Я сейчас тоже готовлю подробный пост про TaskFlow API и кастомный бэкэнд для Xcom, где не всё так грустно как пишет Анна. Пост будет сегодня-завтра.
Ближе к концу этой недели все, кто оставил заявку на ранний доступ к курсу про Airflow получат письма на почту.
Нынче я сертифицированный Airflow юзер 🤣: https://www.youracclaim.com/badges/9e52c30b-8760-4f46-b43b-cbc7008fd32c/linked_in
Ребята из Astronomer подготовили экзамен из 75 вопросов, получил 90% из 100. В целом полезно для проверки знаний.
Ребята из Astronomer подготовили экзамен из 75 вопросов, получил 90% из 100. В целом полезно для проверки знаний.
Credly
Astronomer Certification for Apache Airflow Fundamentals was issued by Astronomer to Adil Khashtamov.
Earners of the Astronomer Certification for Apache Airflow Fundamentals can demonstrate the fundamental skills needed to create, manage and monitor DAGs on Apache Airflow effectively. This includes understanding the airflow components and the task lifecycle…
Forwarded from Mikhail Kumachev
DE or DIE #6
Друзья, мы рады анонсировать митап #6 нашего сообщества DE or DIE!
Дата и время: 25 марта (четверг) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1584420/
Наши спикеры:
1. Иван Трусов из Databricks с докладом: Delta Lake — table format for large scale storage and analytics
2. Паша Финкельштейн из JetBrains с докладом: Kotlin for Apache Spark: WHY?
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующий четверг. Ссылку на трансляцию опубликуем за час до мероприятия.
Друзья, мы рады анонсировать митап #6 нашего сообщества DE or DIE!
Дата и время: 25 марта (четверг) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1584420/
Наши спикеры:
1. Иван Трусов из Databricks с докладом: Delta Lake — table format for large scale storage and analytics
2. Паша Финкельштейн из JetBrains с докладом: Kotlin for Apache Spark: WHY?
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующий четверг. Ссылку на трансляцию опубликуем за час до мероприятия.
Системный аналитик умеет говорить как на языке IT, так и на языке бизнеса. Именно этот специалист решает, какое программное обеспечение понадобится для решения конкретных задач, чтобы достигнуть поставленной цели. Он понимает, чего хочет заказчик, и следит за тем, чтобы команда разработки сделала все правильно.
Если вы задумывались о карьере в IT и системной аналитике — приходите на бесплатный интенсив «Погружение в профессию системного аналитика» от GeekBrains.
Узнаете, что нужно знать, чтобы попасть в эту профессию, научитесь работать с JSON, разберетесь, что такое API и как их проектируют.
Кликайте по ссылке, чтобы записаться на интенсив → https://geekbrains.ru/link/gGL1Zh
Если вы задумывались о карьере в IT и системной аналитике — приходите на бесплатный интенсив «Погружение в профессию системного аналитика» от GeekBrains.
Узнаете, что нужно знать, чтобы попасть в эту профессию, научитесь работать с JSON, разберетесь, что такое API и как их проектируют.
Кликайте по ссылке, чтобы записаться на интенсив → https://geekbrains.ru/link/gGL1Zh
Небольшой курс по распределённым системам: https://www.distributedsystemscourse.com/
Distributedsystemscourse
Distributed Systems Course
The home page of a free online class in
distributed systems.
distributed systems.
🍾Команда Podlodka Crew запускает новую онлайн-конференцию! Если вы занимаетесь бэкенд-разработкой, специально для вас 29 марта стартует Podlodka Backend Crew!
Мы решили не завязываться на конкретные языки программирования и фреймворки, и выбрали такие темы недель, которые будут интересны всем. И эти темы – “Распределенные системы” и “Протоколы передачи данных”.
🤔На неделе “Распределенные системы” рассмотрим тонкости разработки и поддержки распределенных систем. Ответим на вопросы про то, как деплоить такие системы, как их правильно тестировать, как правильно организовать балансировку и сбор логов, как работать с данными и не только.
💾А на неделе “Протоколы передачи данных” прокачаем очень прикладной навык: как максимально осмысленно выбрать протокол в зависимости от решаемых задач, и как эффективно работать с выбранным протоколом. Не json’ом единым!
Мы бы не были Podlodka Crew, если бы у нас были только доклады, поэтому как всегда в программе множество нескучных форматов: рулетки кейсов, батлы, лайв-кодинги и не только. Добавим к этому общение со спикерами на зум-сессиях и нетворкинг в слаке, и получим прекрасный способ с пользой провести время!
Старт 29 марта, расписание уже на сайте. Ждем на борту! ⚓️
Мы решили не завязываться на конкретные языки программирования и фреймворки, и выбрали такие темы недель, которые будут интересны всем. И эти темы – “Распределенные системы” и “Протоколы передачи данных”.
🤔На неделе “Распределенные системы” рассмотрим тонкости разработки и поддержки распределенных систем. Ответим на вопросы про то, как деплоить такие системы, как их правильно тестировать, как правильно организовать балансировку и сбор логов, как работать с данными и не только.
💾А на неделе “Протоколы передачи данных” прокачаем очень прикладной навык: как максимально осмысленно выбрать протокол в зависимости от решаемых задач, и как эффективно работать с выбранным протоколом. Не json’ом единым!
Мы бы не были Podlodka Crew, если бы у нас были только доклады, поэтому как всегда в программе множество нескучных форматов: рулетки кейсов, батлы, лайв-кодинги и не только. Добавим к этому общение со спикерами на зум-сессиях и нетворкинг в слаке, и получим прекрасный способ с пользой провести время!
Старт 29 марта, расписание уже на сайте. Ждем на борту! ⚓️
podlodka.io
Онлайн-конференция Podlodka Backend Crew, сезон #5
Недельное мероприятие от команды Podlodka: ежедневные интерактивные сессии в Zoom по актуальным проблемам backend-разработки, нон-стоп общение с экспертами и звёздами индустрии, закрытое профессиональное сообщество в Telegram.
Друзья, всем привет!
Коллеги из ОТУСа собираются запускать курс DWH Analyst и просят заинтересованных поделиться фидбеком.
Необходимо пройти по ссылке, чтобы ознакомиться с подробной программой курса и заполнить анонимный опрос.
Заранее всем спасибо!
Коллеги из ОТУСа собираются запускать курс DWH Analyst и просят заинтересованных поделиться фидбеком.
Необходимо пройти по ссылке, чтобы ознакомиться с подробной программой курса и заполнить анонимный опрос.
Заранее всем спасибо!
Привет!
Всем, кто оставлял заявку на ранний доступ к курсу Apache Airflow, только что ушло письмо со скидкой и инструкцией как её активировать.
Пожалуйста, проверьте ваш почтовый ящик, оставленный в Гугл-форме.
Всем, кто оставлял заявку на ранний доступ к курсу Apache Airflow, только что ушло письмо со скидкой и инструкцией как её активировать.
Пожалуйста, проверьте ваш почтовый ящик, оставленный в Гугл-форме.
⚠ Ребят, все кто оплачивал курс и у кого зависает окно после оплаты (и деньги с карты были сняты) — не беспокойтесь, у Qiwi сейчас сильные задержки с зачислением средств.
Уведомления приходят в течение 5-6 часов после оплаты. Напишите мне в личку или на почту, я вручную открою доступ в этом случае.
Уведомления приходят в течение 5-6 часов после оплаты. Напишите мне в личку или на почту, я вручную открою доступ в этом случае.
В подкасте Data Engineering Podcast вышел эпизод с инженерами DoorDash про их Data-платформу: https://www.dataengineeringpodcast.com/doordash-data-platform-episode-176/
Data Engineering Podcast
Managing The DoorDash Data Platform - Episode 176
The team at DoorDash has a complex set of optimization challenges to deal with using data that they collect from a multi-sided marketplace. In order to handle the volume and variety of information that they use to run and improve the business the data team…
Всем салют! 🤝
А вот и обещанная статья про TaskFlow API, который появился во второй версии Airflow: https://bit.ly/39lsHSK
Кажется получилось неплохо, в заметке есть небольшой практический пример + сравнение old-style и нового стиля написания PythonOperator'ов.
Код с примерами лежит как всегда у меня в репе: https://github.com/adilkhash/airflow-taskflow-api-examples
Приветствуется конструктивная критика и пожелания 🙏
Скоро будет продолжение про кастомный бэкенд для XCom.
А вот и обещанная статья про TaskFlow API, который появился во второй версии Airflow: https://bit.ly/39lsHSK
Кажется получилось неплохо, в заметке есть небольшой практический пример + сравнение old-style и нового стиля написания PythonOperator'ов.
Код с примерами лежит как всегда у меня в репе: https://github.com/adilkhash/airflow-taskflow-api-examples
Приветствуется конструктивная критика и пожелания 🙏
Скоро будет продолжение про кастомный бэкенд для XCom.
Khashtamov
TaskFlow API в Apache Airflow 2.0
Декабрьский релиз Apache Airflow 2.0 принёс много нововведений в инструмент. А самое, пожалуй, заметное из них это TaskFlow API. В этой заметке я подробно разберу что это такое и как стало красиво и …
Про data engineering для тех, кто не в теме: https://www.youtube.com/watch?v=qWru-b6m030
Классное вводное видео.
Классное вводное видео.
YouTube
How Data Engineering Works
So, the sole purpose of data engineering is to take data from the source and save it to make it available for analysis. Sounds simple, but it’s the matter of the system that works under the hood.
Watch our video to find out more about data engineering:
00:00…
Watch our video to find out more about data engineering:
00:00…
В Казахстане компания Beeline организует бесплатную конференцию — BeeTech CONF: https://beetech.kz/conf
Она пройдёт завтра, начало в 8 утра по Москве. В программе есть несколько интересных докладов для вас:
Поток Big Data:
— Как нам живется с Apache Airflow, доклад от местной команды разработки Beeline Kazakhstan
— Строим собственную платформу данных: от отчётов и триггеров до сложных пайплайнов, от Samokat.ru
Регистрация по ссылке: https://beetech.kz/conf
Она пройдёт завтра, начало в 8 утра по Москве. В программе есть несколько интересных докладов для вас:
Поток Big Data:
— Как нам живется с Apache Airflow, доклад от местной команды разработки Beeline Kazakhstan
— Строим собственную платформу данных: от отчётов и триггеров до сложных пайплайнов, от Samokat.ru
Регистрация по ссылке: https://beetech.kz/conf
Видосы с прошедшего митапа DE or DIE #6:
— Delta Lake — table format for large scale storage and analytics: https://www.youtube.com/watch?v=znVE6fpQqAU
— Love to Frankenstein’s monster: Kotlin for Apache Spark: https://www.youtube.com/watch?v=sYTE-gICPuA
— Delta Lake — table format for large scale storage and analytics: https://www.youtube.com/watch?v=znVE6fpQqAU
— Love to Frankenstein’s monster: Kotlin for Apache Spark: https://www.youtube.com/watch?v=sYTE-gICPuA
YouTube
DE or DIE #6. Иван Трусов – Delta Lake — table format for large scale storage and analytics
Материалы всех наших митапов: https://deordie.org
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Иван Трусов, Solutions Architect, Databricks
Delta Lake — эффективный OSS…
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Иван Трусов, Solutions Architect, Databricks
Delta Lake — эффективный OSS…
Про Streams в Redis за 10 минут: https://www.youtube.com/watch?v=7cvyluza00Q
YouTube
Redis Streams Explained
Redis Streams allow us to aggregate numerous sources of information into one easily consumable source of truth. Join Justin as we learn about the utility and power of the Redis Streams data structure.
Links:
Redis University → https://university.redislabs.com/…
Links:
Redis University → https://university.redislabs.com/…
Про хранимые процедуры в Amazon Redshift: https://www.missioncloud.com/blog/get-started-with-amazon-redshift-stored-procedures
Missioncloud
Get Started With Amazon Redshift Stored Procedures
To help you get started, this article shows you how to create and call stored procedures in Amazon Redshift. All you need to follow along is some basic SQL or programming experience.
Forwarded from LEFT JOIN
Лучшие практики использования SQL по версии Metabase.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Metabase | Business Intelligence, Dashboards, and Data Visualization
Best practices for writing SQL queries | Metabase Learn
SQL best practices: a brief guide to writing better SQL queries.
Apache Software Foundation закрывает 13 Hadoop-related проектов: https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/
Среди них:
- Apex
- Chukwa
- Crunch
- Eagle
- Falcon
- Hama
- Lens
- Marmotta
- Metron
- PredictionIO
- Sentry
- Tajo
- Twill
Я правда ни одним из этих проектов никогда не пользовался, но может ли это быть сигналом о том, что эпоха Hadoop близится к концу?
Среди них:
- Apex
- Chukwa
- Crunch
- Eagle
- Falcon
- Hama
- Lens
- Marmotta
- Metron
- PredictionIO
- Sentry
- Tajo
- Twill
Я правда ни одним из этих проектов никогда не пользовался, но может ли это быть сигналом о том, что эпоха Hadoop близится к концу?
ZDNET
Apache Software Foundation retires slew of Hadoop-related projects
Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over.