DE – Telegram
523 subscribers
313 photos
81 videos
15 files
407 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Почему Data Engineering считается привлекательной профессией.

Инжиниринг данных является важной частью конвейера обработки данных, поскольку он включает в себя проектирование, создание и обслуживание инфраструктуры, которая позволяет организациям превращать данные в идеи и информировать их о принятии решений. Инженеры данных работают с большими объемами сложных данных, следя за тем, чтобы они были точными, непротиворечивыми и пригодными для использования в различных целях.

Инжиниринг данных — это высокотехнологичная и сложная область, требующая сочетания навыков программирования, проектирования систем и опыта управления данными. Способность обрабатывать огромные объемы данных и превращать их в полезные идеи — очень востребованный навык в современном мире, управляемом данными.

Спрос на квалифицированных инженеров данных продолжает расти, что делает эту карьеру прибыльной и увлекательной. Работа дата-инженеров является неотъемлемой частью многих отраслей, включая финансы, здравоохранение и технологии, предоставляя возможность работать над интересными и эффективными проектами.

Data Engineering, безусловно, является сложной и полезной областью, которая предлагает отличные перспективы трудоустройства и возможность реально изменить мир.
👍3
🔥2
SQL и SCD: понимание медленно меняющихся измерений [Slowly Changing Dimensions]

В мире хранилищ данных обработка изменений данных измерений может быть сложной задачей. Именно здесь вступают в действие медленно меняющиеся измерения (SCD). Подход SCD позволяет вести историю изменений данных измерений с течением времени, что имеет решающее значение для многих целей анализа данных и создания отчетов.

Существует два основных типа SCD: SCD типа 1 и SCD типа 2.

SCD Тип 1: при этом подходе, когда в записи измерения происходит изменение, старая запись перезаписывается новой информацией. Этот метод прост и понятен, но он не поддерживает историю изменений данных.

SCD типа 2: в этом подходе создается новая запись для фиксации изменения, а старая запись сохраняется. Этот метод обеспечивает историческую запись изменений, что особенно полезно для отслеживания тенденций и изменений с течением времени.

Реализация подхода SCD типа 2 в SQL включает создание новой записи в таблице измерений с новым суррогатным ключом и использование исходного суррогатного ключа в качестве ссылки. Таким образом, все факты в таблице фактов могут быть связаны с правильной записью измерения, даже если со временем вносятся изменения.

В заключение, подход SCD является ценным инструментом для хранения и анализа данных. Независимо от того, выберете ли вы SCD типа 1 или SCD типа 2, важно тщательно рассмотреть требования ваших процессов анализа данных и отчетности, чтобы выбрать наилучший подход для ваших нужд. При правильной реализации SCD в SQL вы можете гарантировать, что ваши данные останутся точными, непротиворечивыми и актуальными с течением времени.

#sql #scd #dwh
👍3👎1
REST (Representational State Transfer) — популярный архитектурный стиль для создания веб-сервисов. Он основан на протоколе HTTP, который используется для отправки и получения запросов через Интернет. В этом сообщении блога мы рассмотрим основы запросов REST и их назначение.

Запрос REST состоит из нескольких компонентов:

Конечная точка (endpoint): конечная точка — это URL-адрес веб-службы, на которую вы отправляете запрос. Например, если вы хотите получить информацию о конкретном пользователе, конечной точкой может быть что-то вроде https://api.example.com/users/1.

Метод. Существует несколько различных методов, которые можно использовать в запросе REST, включая GET, POST, PUT и DELETE. Используемый метод зависит от того, что вы хотите делать с данными. Например, если вы хотите получить информацию, вы должны использовать запрос GET, но если вы хотите обновить информацию, вы должны использовать запрос PUT.

Заголовки. Заголовки содержат дополнительную информацию о запросе, такую как тип содержимого, данные аутентификации и т. д.

Тело. В тело вы можете включить данные, которые хотите отправить на сервер, например полезные данные JSON или XML. Это используется только с запросами POST и PUT.

Вот несколько распространенных вариантов использования каждого из методов REST:

GET: используется для получения информации с сервера.
POST: используется для отправки новых данных на сервер, например, для создания нового пользователя.
PUT: используется для обновления информации на сервере, например, для обновления имени пользователя.
УДАЛИТЬ: Используется для удаления информации с сервера, например, для удаления пользователя.
Таким образом, запросы REST являются важным инструментом для создания веб-сервисов и обмена данными через Интернет. Они позволяют отправлять данные на сервер и получать информацию взамен, используя стандартные методы HTTP и четко определенную структуру. Являетесь ли вы новичком или опытным разработчиком, понимание основ запросов REST — отличное место для начала обучения созданию веб-сервисов.

#rest #api
Что такое Apache Airflow

Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.

🔑 Ключевые особенности

- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.

💻 Использование

Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.

🚀 С чего начать?

Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.

Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/

#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
👍3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
import pandas as pd

pd.tumble()
👎2😁2👍1🤗1
😁5
Стэнфордский открытый практический курс по Linux. C лабораторными работами.

#linux

https://practicalunix.org/stanford-course-logistics
👍4
Introducing To Algorithms
MIT Open Course
Massachusetts Institute of Technology
Prof. Erik Demaine

#algo

И другие курсы профессора Demaine

https://ocw.mit.edu/courses/6-006-introduction-to-algorithms-spring-2020/
🔥3👍1
Бесплатный курс по базовому Python от сообщества ODS (простым и понятным язком, идеально для быстрого старта)

#python #ods

https://open-data-science.github.io/pycourse/base/
❤‍🔥1🔥1
Визуальное отображение плана запроса, просто копируем план запроса и получаем, например, такой, как на изображении, результат. 🧙

https://explain.dalibo.com/

#sql #postgres #postgreSQL
👍6
😁1💩1
Практическое руководство о том, как начать использовать Rust для задач инженерии данных. Практические примеры того, как Rust можно использовать для большинства задач, ожидаемых от дата-инженера.
👍2