В подкасте Data Engineering Podcast вышел эпизод с инженерами DoorDash про их Data-платформу: https://www.dataengineeringpodcast.com/doordash-data-platform-episode-176/
Data Engineering Podcast
Managing The DoorDash Data Platform - Episode 176
The team at DoorDash has a complex set of optimization challenges to deal with using data that they collect from a multi-sided marketplace. In order to handle the volume and variety of information that they use to run and improve the business the data team…
Всем салют! 🤝
А вот и обещанная статья про TaskFlow API, который появился во второй версии Airflow: https://bit.ly/39lsHSK
Кажется получилось неплохо, в заметке есть небольшой практический пример + сравнение old-style и нового стиля написания PythonOperator'ов.
Код с примерами лежит как всегда у меня в репе: https://github.com/adilkhash/airflow-taskflow-api-examples
Приветствуется конструктивная критика и пожелания 🙏
Скоро будет продолжение про кастомный бэкенд для XCom.
А вот и обещанная статья про TaskFlow API, который появился во второй версии Airflow: https://bit.ly/39lsHSK
Кажется получилось неплохо, в заметке есть небольшой практический пример + сравнение old-style и нового стиля написания PythonOperator'ов.
Код с примерами лежит как всегда у меня в репе: https://github.com/adilkhash/airflow-taskflow-api-examples
Приветствуется конструктивная критика и пожелания 🙏
Скоро будет продолжение про кастомный бэкенд для XCom.
Khashtamov
TaskFlow API в Apache Airflow 2.0
Декабрьский релиз Apache Airflow 2.0 принёс много нововведений в инструмент. А самое, пожалуй, заметное из них это TaskFlow API. В этой заметке я подробно разберу что это такое и как стало красиво и …
Про data engineering для тех, кто не в теме: https://www.youtube.com/watch?v=qWru-b6m030
Классное вводное видео.
Классное вводное видео.
YouTube
How Data Engineering Works
So, the sole purpose of data engineering is to take data from the source and save it to make it available for analysis. Sounds simple, but it’s the matter of the system that works under the hood.
Watch our video to find out more about data engineering:
00:00…
Watch our video to find out more about data engineering:
00:00…
В Казахстане компания Beeline организует бесплатную конференцию — BeeTech CONF: https://beetech.kz/conf
Она пройдёт завтра, начало в 8 утра по Москве. В программе есть несколько интересных докладов для вас:
Поток Big Data:
— Как нам живется с Apache Airflow, доклад от местной команды разработки Beeline Kazakhstan
— Строим собственную платформу данных: от отчётов и триггеров до сложных пайплайнов, от Samokat.ru
Регистрация по ссылке: https://beetech.kz/conf
Она пройдёт завтра, начало в 8 утра по Москве. В программе есть несколько интересных докладов для вас:
Поток Big Data:
— Как нам живется с Apache Airflow, доклад от местной команды разработки Beeline Kazakhstan
— Строим собственную платформу данных: от отчётов и триггеров до сложных пайплайнов, от Samokat.ru
Регистрация по ссылке: https://beetech.kz/conf
Видосы с прошедшего митапа DE or DIE #6:
— Delta Lake — table format for large scale storage and analytics: https://www.youtube.com/watch?v=znVE6fpQqAU
— Love to Frankenstein’s monster: Kotlin for Apache Spark: https://www.youtube.com/watch?v=sYTE-gICPuA
— Delta Lake — table format for large scale storage and analytics: https://www.youtube.com/watch?v=znVE6fpQqAU
— Love to Frankenstein’s monster: Kotlin for Apache Spark: https://www.youtube.com/watch?v=sYTE-gICPuA
YouTube
DE or DIE #6. Иван Трусов – Delta Lake — table format for large scale storage and analytics
Материалы всех наших митапов: https://deordie.org
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Иван Трусов, Solutions Architect, Databricks
Delta Lake — эффективный OSS…
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Иван Трусов, Solutions Architect, Databricks
Delta Lake — эффективный OSS…
Про Streams в Redis за 10 минут: https://www.youtube.com/watch?v=7cvyluza00Q
YouTube
Redis Streams Explained
Redis Streams allow us to aggregate numerous sources of information into one easily consumable source of truth. Join Justin as we learn about the utility and power of the Redis Streams data structure.
Links:
Redis University → https://university.redislabs.com/…
Links:
Redis University → https://university.redislabs.com/…
Про хранимые процедуры в Amazon Redshift: https://www.missioncloud.com/blog/get-started-with-amazon-redshift-stored-procedures
Missioncloud
Get Started With Amazon Redshift Stored Procedures
To help you get started, this article shows you how to create and call stored procedures in Amazon Redshift. All you need to follow along is some basic SQL or programming experience.
Forwarded from LEFT JOIN
Лучшие практики использования SQL по версии Metabase.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Некоторые советы действительно ценные. Из того, что реально встречалось на практике особенно выделил бы один, так как в свое время удалось существенно оптимизировать время выполнения запроса:
Prefer EXISTS to IN
If you just need to verify the existence of a value in a table, prefer EXISTS to IN, as the EXISTS process exits as soon as it finds the search value, whereas IN will scan the entire table. IN should be used for finding values in lists.
Metabase довольно интересный инструмент, на одном из проектов используем его, надо бы записать видео в продолжение Гайда по BI.
Если у кого-то есть время и интерес поисследовать Metabase, а также записать видео, пишите мне в DM: @valiotti.
Metabase | Business Intelligence, Dashboards, and Data Visualization
Best practices for writing SQL queries | Metabase Learn
SQL best practices: a brief guide to writing better SQL queries.
Apache Software Foundation закрывает 13 Hadoop-related проектов: https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/
Среди них:
- Apex
- Chukwa
- Crunch
- Eagle
- Falcon
- Hama
- Lens
- Marmotta
- Metron
- PredictionIO
- Sentry
- Tajo
- Twill
Я правда ни одним из этих проектов никогда не пользовался, но может ли это быть сигналом о том, что эпоха Hadoop близится к концу?
Среди них:
- Apex
- Chukwa
- Crunch
- Eagle
- Falcon
- Hama
- Lens
- Marmotta
- Metron
- PredictionIO
- Sentry
- Tajo
- Twill
Я правда ни одним из этих проектов никогда не пользовался, но может ли это быть сигналом о том, что эпоха Hadoop близится к концу?
ZDNET
Apache Software Foundation retires slew of Hadoop-related projects
Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over.
Про структуру B-tree в PostgreSQL: https://www.youtube.com/watch?v=n5-xEEQFqPY
YouTube
B-tree indexes - learn more about the heart of PostgreSQL
Talk by Anastasia Lubennikova
https://www.socallinuxexpo.org/scale/18x/presentations/b-tree-indexes-learn-more-about-heart-postgresql
This talk will offer a deep dive into the B-tree indexes architecture. It covers the newest major features of PostgreSQL…
https://www.socallinuxexpo.org/scale/18x/presentations/b-tree-indexes-learn-more-about-heart-postgresql
This talk will offer a deep dive into the B-tree indexes architecture. It covers the newest major features of PostgreSQL…
Про Query Plan в PostgreSQL: https://arctype.com/blog/postgresql-query-plan-anatomy/
Вышел релиз Apache Airflow 2.0.2: https://github.com/apache/airflow/releases/tag/2.0.2
Пофикшено немало багов, тем кто задумывается об апгрейде на 2-ю версию инструмента уже можно начинать пробовать это делать.
Пофикшено немало багов, тем кто задумывается об апгрейде на 2-ю версию инструмента уже можно начинать пробовать это делать.
GitHub
Release Apache Airflow v2.0.2 · apache/airflow
Bug Fixes
Bugfix: TypeError when Serializing & sorting iterable properties of DAGs (#15395)
Fix missing on_load trigger for folder-based plugins (#15208)
kubernetes cleanup-pods subcommand wil...
Bugfix: TypeError when Serializing & sorting iterable properties of DAGs (#15395)
Fix missing on_load trigger for folder-based plugins (#15208)
kubernetes cleanup-pods subcommand wil...
Forwarded from Mikhail Kumachev
Data Engineering Digest
Коллеги, сегодня мы хотим анонсировать наш новый проект: Data Engineering Digest
Мы создаем развиваемый сообществом digest интересных материалов по теме Data Engineering'а.
Наш пилотный выпуск можно посмотреть здесь: https://digest.deordie.org
Все мы с вами читаем статьи, смотрим видео с конференций, и находим массу полезного в сети. Однако, не все материалы одинаково полезны. При поддержке сообщества мы решили отбирать самое интересное и публиковать в виде дайджеста.
Нам нужна ваша поддержка. Прямо сейчас можно стать контрибьютером.
Приходите в наш issue tracker: https://github.com/deordie/deordie-digest/issues и добавляйте статьи, которые вам показались интересными. Обязательно добавьте 1-2 предложения, что вы вынесли интересного из этой статьи.
Также вы можете проголосовать за понравившиеся вам статьи (+1), самые интересные мы будем публиковать в следующих выпусках.
Коллеги, сегодня мы хотим анонсировать наш новый проект: Data Engineering Digest
Мы создаем развиваемый сообществом digest интересных материалов по теме Data Engineering'а.
Наш пилотный выпуск можно посмотреть здесь: https://digest.deordie.org
Все мы с вами читаем статьи, смотрим видео с конференций, и находим массу полезного в сети. Однако, не все материалы одинаково полезны. При поддержке сообщества мы решили отбирать самое интересное и публиковать в виде дайджеста.
Нам нужна ваша поддержка. Прямо сейчас можно стать контрибьютером.
Приходите в наш issue tracker: https://github.com/deordie/deordie-digest/issues и добавляйте статьи, которые вам показались интересными. Обязательно добавьте 1-2 предложения, что вы вынесли интересного из этой статьи.
Также вы можете проголосовать за понравившиеся вам статьи (+1), самые интересные мы будем публиковать в следующих выпусках.
digest.deordie.org
DE or DIE: Digest – Data Engineering Digest
Бесплатный вебинар «Как запустить проект в Kubernetes за 60 минут» от Mail․ru Cloud Solutions
Kubernetes — сложная для внедрения технология, если запускать ее самостоятельно, преодолевая все подводные камни и неочевидные препятствия. Специалисты MCS помогут вам подготовиться к возможным трудностям.
На вебинаре от Mail․ru Cloud Solutions 29 апреля вы узнаете, как быстро задеплоить проект в Kubernetes за 60 минут, как справиться со всеми сложностями и настроить автоматизированный конвейер разработки приложения.
По итогам вебинара вы получите готовый репозиторий в GitHub и сможете самостоятельно повторить все действия, которые будут продемонстрированы спикером в рамках вебинара.
Мероприятие пройдет в четверг, 29 апреля, онлайн.
Начало в 17:00 по Москве.
Регистрация обязательна: https://vk.cc/c1ejXC
Kubernetes — сложная для внедрения технология, если запускать ее самостоятельно, преодолевая все подводные камни и неочевидные препятствия. Специалисты MCS помогут вам подготовиться к возможным трудностям.
На вебинаре от Mail․ru Cloud Solutions 29 апреля вы узнаете, как быстро задеплоить проект в Kubernetes за 60 минут, как справиться со всеми сложностями и настроить автоматизированный конвейер разработки приложения.
По итогам вебинара вы получите готовый репозиторий в GitHub и сможете самостоятельно повторить все действия, которые будут продемонстрированы спикером в рамках вебинара.
Мероприятие пройдет в четверг, 29 апреля, онлайн.
Начало в 17:00 по Москве.
Регистрация обязательна: https://vk.cc/c1ejXC
Планировал написать про кастомный бэкенд для XCom в Airflow, а ребята из Astronomer уже это сделали: https://www.astronomer.io/guides/custom-xcom-backends
www.astronomer.io
Custom XCom Backends
Creating a custom XCom backend with Airflow 2.0.
Воу, в Amazon Redshift появилась поддержка JSON: https://aws.amazon.com/ru/about-aws/whats-new/2021/04/announcing-general-availability-of-amazon-redshift-native-json-and-semi-structured-data-support/
Amazon
Announcing general availability of Amazon Redshift native JSON and semi-structured data support
Forwarded from Data1984
New data engineering podcast episode about Superset with author of Superset and Airflow.
Data Engineering Podcast
Data Engineering Podcast: Self Service Data Exploration And Dashboarding With Superset
An interview with Maxime Beauchemin about how to use Apache Superset as a platform for self-service data exploration and analytics.
Если вдруг вы решили апгрейднуться до Airflow 2.0, то возможно вам будет полезен гайд от бывалых https://eatcodeplay.com/upgrading-to-airflow-2-0-massive-performance-wins-and-lessons-learned-8c6a15cec8e7
Medium
Upgrading to Airflow 2.0: Massive Performance Wins and Lessons Learned
At RealScout, we use Apache Airflow to orchestrate our crucial workflows such as data ingestions, health checks, and reconciliation…
Сегодня Настя вещает про Airflow & MLFlow у себя на канале: https://bit.ly/33faORO
YouTube
Airflow и MLFlow автоматизаций пайплайнов Machine Learning / MLOps
Разверните облачный сервер для Data Science в Selectel: https://slc.tl/JSss5, получите 1000 бонусных рублей по промокоду miracl6
Новая группа про Data Science ВКонтакте https://vk.com/pymagic
Курс Data Science для начинающих PyMagic
Подробная информация…
Новая группа про Data Science ВКонтакте https://vk.com/pymagic
Курс Data Science для начинающих PyMagic
Подробная информация…