NEW BOT Телеграм, страница

Нашел крутой обзорный видос Big Data движа в Китае: https://youtu.be/5vjFzZimEns
Из видео узнал об инструментах с весьма забавными названиями:

- Apache SeaTunnel: https://seatunnel.apache.org/
- Apache DolphinScheduler: https://dolphinscheduler.apache.org/

YouTube

New Trends of DataOps -- Perspectives from China

There are many new data technologies in 2021: more hot data engines such as ClickHouse, Iceberg, Delta Lake; more data pipeline tools: Apache DolphinScheduler, Apache SeaTunnel, more datamining libs: Ray, Orange and Hugging Face etc.

Today I would like to…

2.69K views07:19

DataEng

https://www.youtube.com/watch?v=A1YC_AC0qf8

YouTube

Streaming 101: Hello Streaming

Check out Josh Fischer's and Ning Wang's book 📖 Grokking Streaming Systems | http://mng.bz/voyq 📖 To save 40% off this book ⭐ DISCOUNT CODE: watchfischer40 ⭐ In this video, Josh gives a brief overview of streaming systems, how they differ from other data…

👍1

2.23K views07:41

DataEng

Отличный доклад про настоящее и будущее JSON/JSONB в PostgreSQL от Олега Бартунова: https://www.youtube.com/watch?v=CPoNZRpcHf4

YouTube

SQL/JSON в PostgreSQL: настоящее и будущее / Олег Бартунов (Postgres Professional)

Приглашаем на крупнейшую профессиональную конференцию для разработчиков высоконагруженных систем Saint HighLoad++ 2026
Подробнее: https://clck.ru/3QZHTb

Июнь, 2026
Санкт-Петербург, DESIGN DISTRICT DAA in SPb
---------
HighLoad++ Весна 2021
Крупнейшая…

2.76K views06:51

DataEng

Отличный обзор storage layers: Apache Hudi/Iceberg и Delta Lake от AWS https://www.youtube.com/watch?v=fryfx0Zg7KA

YouTube

Modern Data Lake Storage Layers

An overview of Apache Hudi, Apache Iceberg, and Delta Lake.

In this video, we talk about the basics of how Hudi, Iceberg, and Delta Lake work. You'll see how to insert, update, and delete data in your data lake and how each of these frameworks work behind…

2.7K views09:22

DataEng

Отличный ресурс про внутреннее устройство PostgreSQL: https://www.interdb.jp/pg/index.html

2.45K views10:00

DataEng

Wes McKinney, автор pandas, пишет 3-е издание своей книги Python for Data Analysis в рамках Open Edition: https://wesmckinney.com/book/
Мой опыт работы с pandas начинался именно с этой книги, хотя тогда она мне казалась далеко не дружелюбной для новичков.

Wesmckinney

Python for Data Analysis, 3E

2.53K views12:01

DataEng

Исследование data engineering позиций внутри биг-техов

Наткнулся на небольшое исследование рынка dataeng позиций среди биг-тех компаний: Amazon, Google, Facebook (ой, Meta) и т.д. Автор вручную проанализировал 1К вакансий и выяснил некоторые инсайты:

- основное требование это знать Python и SQL
- чтобы расти дальше по технической части необходимо помимо Python/SQL иметь знания Java/Scala/C++
- биг-техи предпочитают code-heavy решения вместо новомодных low/no-code перделок
- почему то автор в статье упоминает Airflow как low-code pipeline solution, думаю это опечатка
- доля Amazon среди открытых вакансий по dataeng 65%
- Tableau в 2 раза популярнее Power BI
- Доли среди клауд провайдеров: AWS 53% (но стоит учесть, что 65% всех вакансий от Amazon), у Azure и GCP доли примерно одинаковые
- стриминг становится всё популярнее (spark streaming, flink, kafka)
- автор не забыл и про софт-скиллы, как ни крути, а работаем мы прежде всего с людьми

У меня была идея сделать анализ dataeng вакансий среди популярных площадок для понимания наиболее актуальных требований и не ограничиваться только FAANG. Ждите в ближайшее время (это, кстати, также может стать неплохим data engineering проектом в копилку).

Medium

2022 Data Engineering Job Market: Analysis of 1,000 FAANG Job Postings

Recently, I was strongly considering the prospect of switching careers, so I set out to answer the question “What skills are in-demand for…

🔥4👍1

3.36K viewsedited 13:00

DataEng

У ребят из Astronomer прошел очередной вебинар, на этот раз тема вебинара — Масштабирование Airflow
Посмотреть можно в ютубе: https://www.youtube.com/watch?v=i9F0LFobejc
Основной фокус сделали на двух самых популярных Executors: CeleryExecutor и KubernetesExecutor. Рассказали про нюансы и подводные камни каждого, в целом получилось полезно!

YouTube

Scaling Out Airflow

Airflow is purpose-built for high-scale workloads and high availability on a distributed platform. Since the advent of Airflow 2.0, there are even more tools and features to ensure that Airflow can be scaled to accommodate high-throughput, data-intensive…

👍9

5.14K views07:25

DataEng

Налетай, разбирай!
На Udemy раздают двухчасовой курс по Redis бесплатно и без смс, но с регистрацией: https://bit.ly/3LeuoBQ

Udemy

Modern Redis Unleashed

Today's Redis is more than a cache! Learn how Redis can replace NoSQL, Elasticsearch, Neo4j, Kafka, and more.

👍13

5.39K views05:09

DataEng

Forwarded from How to DWH with Python

Подготовил конспект статьи от Shopify о сетапе Airflow на 10 тысяч DAG'ов со 150 тысячами запусков в день. Сэкономит вам время на прочтении и поможет освежить в памяти в будущем.

#briefly #airflow Airflow: scaling out recommendations by Shopify
https://telegra.ph/Airflow-scaling-out-recommendations-by-Shopify-06-03

What's inside:
— Cloud Storage vs Network File System.
— Metadata retention policy.
— Manifest file.
— Consistent distribution of load.
— Concurrency management.
— Using different execution environments.

Origin: Lessons Learned From Running Apache Airflow at Scale

Telegraph

Airflow: scaling out recommendations by Shopify

Shopify runs over 10k DAGs. 150k runs per day. Over 400 tasks at a given moment on average. This is a brief overview of their approach. Link to source article. Fast file access Problem: reading DAGs files from Google Cloud Storage (through GCSFuse as a filesystem…

🔥10👍4

3.23K views09:13

DataEng

Доклады с Airflow Summit 2022 подъехали: https://bit.ly/3mzyl9T

YouTube

Airflow Summit 2022 Opening Video

👍7🔥2🎉1

4.6K views06:32

DataEng

Хех, тут новый релиз Luigi нарисовался — https://github.com/spotify/luigi/releases/tag/3.1.0
В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.

GitHub

Release 3.1.0 · spotify/luigi

3.1.0
Added
luigi

Documentation guidance around release version increments #3074
Add support for naming tasks in @requires #3077
Add traceback_max_length parameter for error email notifications #3...

🔥6

2.73K views14:11

DataEng

Про таймауты и внешние API

Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема.

Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать.

К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса:

FacebookAdsApi.init(access_token=access_token, api_version='v13.0', timeout=settings.FACEBOOK_ADS_API_TIMEOUT)

Не наступайте на грабли, ставьте таймауты 😉

Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/

GitHub

GitHub - facebook/facebook-python-business-sdk: Python SDK for Meta Marketing APIs

Python SDK for Meta Marketing APIs. Contribute to facebook/facebook-python-business-sdk development by creating an account on GitHub.

👍21

5.94K viewsedited 07:30

DataEng

На канале IT's Tinkoff появились видео с их конференции:

— Как мы строим Metadata Management
— Под капотом каталога данных
— Как с помощью Data Mesh разломать ваше DWH
— Data-docs — как найти данные о данных

Enjoy! ☀️

YouTube

Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф

Пользователи хранилища регулярно сталкиваются с проблемами поиска нужных данных, внутренней несогласованностью и сложностью восприятия.

Юлия и Энрика рассмотрели подходы к улучшению качества метаданных и поделимся способами повышения уровня их полноты и…

🔥6💩4

3.66K views09:45

DataEng

Forwarded from DevBrain

Как работает Redis? Узнать можно тут: https://bit.ly/3pIbA5b

architecturenotes.co

Redis Explained

A deep technical dive into all things Redis. Covering various Redis topologies, data persistence and process forking.

👍13

2.45K views07:06

DataEng

Forwarded from DevBrain

Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ

Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).

YouTube

Memcached Architecture - Crash Course with Docker, Telnet, NodeJS

Memcached is an in memory cache with one major feature be a transient cache. Memcached has a very simple design. It was originally designed to help with database load by storing the query result in memory to avoid further querying the database. By default…

👍4👎2

2.73K views08:54

About

Blog

Apps

Platform