NEW BOT Телеграм, страница

❤‍🔥3

383 views17:15

Airflow Summit 2023

https://www.youtube.com/playlist?list=PLGudixcDaxY29qXIXhd90htHp_BFk-Bqf

356 viewsedited 05:26

Superset 2.1.1 LTS

While that new (3.0.0) major release has been tested fairly extensively, 2.1.1 is officially our “stable” release and will continue to receive patches alongside 3.0. Superset 2.X will continue to receive such patches at least until the release of Superset 3.1.0 or 4.0.0 in the future.

https://preset.io/blog/superset-2-1-1-a-more-secure-and-stable-patch-release/

421 views08:36

❤‍🔥4

553 views12:17

https://mad.firstmark.com/

Firstmark

FirstMark | 2025 MAD (ML/AI/Data) Landscape

The 2025 MAD (ML/AI/Data) Landscape is the definitive market map of companies and products in machine learning, artificial intelligence and data, compiled by FirstMark.

326 views09:30

❤‍🔥2

334 views18:55

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

298 views09:09

306 views09:56

https://youtu.be/ujXKnUZKrNM?si=hyi-23efWYE-mmyo

YouTube

GPT-3 / ChatGPT: your AI assistant in DBeaver

GPT-3 has taken a huge step forward and quickly gained popularity around the world. One of its more popular uses is to help you write code in various languages. And now, ChatGPT can become your assistant in writing SQL queries in DBeaver.
--
Text version:…

344 views06:33

Forwarded from DataEng

Run periodic jobs in PostgreSQL

Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡

GitHub

GitHub - citusdata/pg_cron: Run periodic jobs in PostgreSQL

Run periodic jobs in PostgreSQL. Contribute to citusdata/pg_cron development by creating an account on GitHub.

223 views10:50

Forwarded from DataEng

На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.

Хабр

Airflow в Kubernetes. Часть 1

Приветствую! На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача...

❤‍🔥2

208 views12:30

Про пулы в Airflow

Celery использует разные способы выполнения задач, которые называются пулами (pools). Стандартным пулом является prefork. Каждая задача в этом пуле выполняется в отдельном процессе, поэтому память может быть затрачена, особенно на виды работ, которые занимают в основном время ожидания.

Введение gevent/eventlet в состав Celery дало возможность использовать зеленые потоки (green threads) вместо процессов. Зеленые потоки - это корутины, по сути - легковесные потоки, которые многократно снижают использование памяти в режиме ожидания.

Переход на gevent/eventlet довольно простой процесс, нужно указать опцию -P gevent или -P eventlet при запуске воркера Celery. Но есть одно "но" - это работает только с кодом, который не блокируется. Если у вас есть блокирующий код, который не может быть асинхронным, тогда это может вызвать проблемы. Поэтому перед переходом убедитесь, что ваш код подходит для асинхронных параметров.

Теперь о pool=threads. В Celery, threads pool (-P threads) - это другой тип пула, который использует потоки, а не процессы. Использование потоков может снижать использование памяти, т.к. они разделяют эту память, а не создают новую в каждом процессе, как это происходит в prefork. Однако, задачи в потоках будут разделять те же системные ресурсы и блокировки GIL (Global Interpreter Lock) как и основной процесс. По этой причине, threads pool часто используются для I/O-bound типов работ или тех, которые много времени проводят в ожидании данных. Но с обычными проблемами синхронизации при работе с потоками стоит быть осторожным.

И как всегда, важно не забывать!

Airflow предназначен для выполнения кода по расписанию, а не для выполнения нескольких задач одновременно. Если вам нужно выполнять много задач одновременно, возможно, стоит рассмотреть другие инструменты, такие как Dask или Ray.

❤‍🔥2

269 views16:30

https://pybit.es/articles/6-cool-things-you-can-do-with-the-functools-module/

Pybites

6 Cool Things You Can Do With The Functools Module - Pybites

In this article let's look at the functools Standard Library module and 6 cool things you can do with it (be warned, a lot of decorators are coming your way!

260 views05:18

https://www.avestura.dev/blog/explaining-the-postgres-meme

Avestura's Blog

Explaining The Postgres Meme

Have you seen this legendary SQL iceberg meme? Let's talk about it while wearing our PostgreSQL hat!

❤‍🔥1

294 views11:48

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

#kerberos

271 views15:06

http://smalldatum.blogspot.com/2023/10/postgres-vs-mysql-impact-of-cpu.html

Blogspot

Postgres vs MySQL: the impact of CPU overhead on performance

This post documents how MySQL and Postgres performance has changed over time using sysbench. It compares QPS for Postgres 11.21 vs MySQL 5.6...

❤‍🔥6

225 views07:34

https://www.linkedin.com/posts/apache-airflow_weve-just-released-apache-airflow-273-activity-7127194709231308800-N6G6

Apache Airflow on LinkedIn: We've just released Apache Airflow 2.7.3 🎉

📦 PyPI:…

We've just released Apache Airflow 2.7.3 🎉

📦 PyPI: https://lnkd.in/e9xCcuRK
📚 Docs: https://lnkd.in/eyYZ9z-8
🛠 Release Notes: https://lnkd.in/epHjb3jC
🐳…

❤‍🔥2

257 views04:31

6 шагов, позволяющих избежать беспорядка данных в хранилище

📎

Введение

В большинстве компаний с данными полный бардак. Команды, отвечающие за работу с данными, сталкиваются с множеством проблем, таких как ручное редактирование таблиц, дублирование определённых метрик, некорректные исходные данные, отсутствие управления данными, отсутствие инфраструктуры и т.д. Если тебе в голову приходят такие мысли как:

Интересно, в каждой ли компании до сих пор царит неразбериха с данными?

Надеюсь найти лучшее место для работы с более совершенными методами обработки данных.

Верю в существование аналитических хранилищ, которые представляют собой сплошной кошмар.

Ищу работу в надежде найти мифическую “зрелую организацию”, где научусь всё делать правильно.

Считаю, что хранилище данных - это повсеместное дерьмо.

Тогда цикл следующих постов для тебя! Представь себе, что твоё хранилище данных работает как хорошо отлаженная машина с правильными данными и очень простое в использовании! Твоя работа будет приносить удовлетворение, а карьерный рост будет быстрым - именно на это нацелен этот цикл.

Рассмотрим шесть важнейших шагов по созданию (и поддержке) хранилища данных, которое предоставляет заинтересованным сторонам всё, что им может понадобиться, и при этом позволяет избежать бардака в данных.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥5

271 views19:17

0⃣ Шесть шагов, которые помогут тебе создать отличное хранилище данных. Хотя идеальным вариантом является последовательное выполнение этих шагов, в реальных проектах, возможно, придётся менять их в зависимости от конкретной ситуации или задачи.

Хотя некоторые из приведённых ниже разделов не являются техническими, их выполнение позволит команде разработчиков (например DE) получить больше ресурсов (времени и/или денег), что поможет тебе избежать путей, которые могут приводить к беспорядку в данных.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥3

241 views19:22

1️⃣

Понимай бизнес

Прежде чем приступить к проектированию любой системы, необходимо в первую очередь узнать, как твоя компания зарабатывает деньги. Понимание экономических аспектов деятельности компании, таких как её клиенты, партнёры и продаваемые продукты, имеет решающее значение для всего, что ты делаешь как инженер данных (DE).

Понимание бизнеса позволит тебе не только создать модель данных, но и определить, какие показатели важны для заинтересованных сторон, каким бизнес-подразделениям (или таблицам) отдать предпочтение и т.д. Хотя для понимания бизнеса можно прочитать сайт компании, лучше всего поговорить с кем-то из руководства, чтобы узнать о нём подробнее. Вот несколько вопросов, которые можно задать для начала:

🔘Что это за бизнес, как он зарабатывает деньги, куда тратит деньги?
🔘Что представляют собой субъекты бизнеса (например, продавец, покупатель и т.д.) и как они взаимодействуют друг с другом?
🔘Какие бизнес-процессы происходят (например, клики, оформление заказа, доставка и т.д.)?
🔘Какие данные используются для расчёта итоговых показателей компании? (KPI, метрики и т.д. на уровне компании)
🔘Что является наиболее приоритетным для бизнеса на следующий квартал, следующий год и следующие пять лет?

Хотя приведенные выше вопросы могут показаться простыми, чаще всего для ответа на них требуется несколько встреч (в зависимости от размера компании). Практически всегда отсутствует актуальная документация, и для понимания текущего и будущего планируемого состояния требуется беседа с менеджерами/инженерами по продукту.

📌

Примечание: Для DE в крупных компаниях в первую очередь необходимо понять вертикаль, которую ты обслуживаешь, поскольку понять бизнес в целом может оказаться практически невозможно.

Результатом этого этапа является создание концептуальной модели данных (CDM), представляющей взаимодействие бизнес-субъектов друг с другом.

Например, рассмотрим этот простой CDM для сайта электронной коммерции.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥4

287 viewsedited 20:25

251 views20:26

About

Blog

Apps

Platform