DE – Telegram
523 subscribers
313 photos
81 videos
15 files
407 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
REST (Representational State Transfer) — популярный архитектурный стиль для создания веб-сервисов. Он основан на протоколе HTTP, который используется для отправки и получения запросов через Интернет. В этом сообщении блога мы рассмотрим основы запросов REST и их назначение.

Запрос REST состоит из нескольких компонентов:

Конечная точка (endpoint): конечная точка — это URL-адрес веб-службы, на которую вы отправляете запрос. Например, если вы хотите получить информацию о конкретном пользователе, конечной точкой может быть что-то вроде https://api.example.com/users/1.

Метод. Существует несколько различных методов, которые можно использовать в запросе REST, включая GET, POST, PUT и DELETE. Используемый метод зависит от того, что вы хотите делать с данными. Например, если вы хотите получить информацию, вы должны использовать запрос GET, но если вы хотите обновить информацию, вы должны использовать запрос PUT.

Заголовки. Заголовки содержат дополнительную информацию о запросе, такую как тип содержимого, данные аутентификации и т. д.

Тело. В тело вы можете включить данные, которые хотите отправить на сервер, например полезные данные JSON или XML. Это используется только с запросами POST и PUT.

Вот несколько распространенных вариантов использования каждого из методов REST:

GET: используется для получения информации с сервера.
POST: используется для отправки новых данных на сервер, например, для создания нового пользователя.
PUT: используется для обновления информации на сервере, например, для обновления имени пользователя.
УДАЛИТЬ: Используется для удаления информации с сервера, например, для удаления пользователя.
Таким образом, запросы REST являются важным инструментом для создания веб-сервисов и обмена данными через Интернет. Они позволяют отправлять данные на сервер и получать информацию взамен, используя стандартные методы HTTP и четко определенную структуру. Являетесь ли вы новичком или опытным разработчиком, понимание основ запросов REST — отличное место для начала обучения созданию веб-сервисов.

#rest #api
Что такое Apache Airflow

Apache Airflow — это платформа с открытым исходным кодом для программного создания, планирования и мониторинга рабочих процессов. Он был разработан командой инженеров Airbnb и теперь поддерживается Apache Software Foundation.

🔑 Ключевые особенности

- Динамический: Airflow позволяет вам определять рабочие процессы как код, упрощая поддержку и повторное использование рабочих процессов.
- Расширяемый: Airflow имеет обширную коллекцию плагинов для расширения его функциональности, включая поддержку различных баз данных, систем обмена сообщениями и т. д.
- Масштабируемый: Airflow можно масштабировать от одного экземпляра до многоузлового кластера, что делает его подходящим для небольших и крупномасштабных вариантов использования.
- Мониторинг: Airflow предоставляет веб-интерфейс для мониторинга состояния рабочих процессов, включая прошлые и текущие экземпляры задач и журналы.

💻 Использование

Apache Airflow широко используется в различных отраслях, включая, помимо прочего:
- Инжиниринг данных: Airflow можно использовать для планирования конвейеров обработки данных и управления ими.
- Машинное обучение: Airflow можно использовать для автоматизации рабочих процессов машинного обучения, включая обучение и развертывание моделей.
- Автоматизация бизнес-процессов: Airflow можно использовать для автоматизации различных бизнес-процессов, таких как финансовая отчетность и процессы управления персоналом.

🚀 С чего начать?

Чтобы начать работу с Apache Airflow, выполните следующие действия:
1. Установите Apache Airflow
2. Определите свои рабочие процессы как код Python
3. Используйте веб-интерфейс Airflow или интерфейс командной строки для запуска, мониторинга и управления рабочими процессами.

Для получения дополнительной информации ознакомьтесь с официальной документацией Apache Airflow: https://airflow.apache.org/

#airflow #etl #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
👍3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
import pandas as pd

pd.tumble()
👎2😁2👍1🤗1
😁5
Стэнфордский открытый практический курс по Linux. C лабораторными работами.

#linux

https://practicalunix.org/stanford-course-logistics
👍4
Introducing To Algorithms
MIT Open Course
Massachusetts Institute of Technology
Prof. Erik Demaine

#algo

И другие курсы профессора Demaine

https://ocw.mit.edu/courses/6-006-introduction-to-algorithms-spring-2020/
🔥3👍1
Бесплатный курс по базовому Python от сообщества ODS (простым и понятным язком, идеально для быстрого старта)

#python #ods

https://open-data-science.github.io/pycourse/base/
❤‍🔥1🔥1
Визуальное отображение плана запроса, просто копируем план запроса и получаем, например, такой, как на изображении, результат. 🧙

https://explain.dalibo.com/

#sql #postgres #postgreSQL
👍6
😁1💩1
Практическое руководство о том, как начать использовать Rust для задач инженерии данных. Практические примеры того, как Rust можно использовать для большинства задач, ожидаемых от дата-инженера.
👍2
Json or not Json. Плюсы и минусы использования Json в PostgreSQL / Олег Бартунов, Никита Глухов

скачать доклад
смотреть видео


#postgres #database #db #psql #json
👏1
В PostgreSQL индексы не содержат ссылку на кластерный индекс или первичный ключ, как в MySQL или MS SQL Server. Вместо этого, каждый индекс в PostgreSQL содержит указатель на строку таблицы на диске, называемый TID (tuple ID). TID состоит из двух компонент: номера блока и номера строки в блоке. Номер блока указывает на физическое расположение блока на диске, а номер строки - на конкретную строку в этом блоке.

Когда выполняется запрос, использующий индекс, PostgreSQL использует TID, чтобы найти соответствующую строку в таблице на диске. Это позволяет получить быстрый доступ к данным, поскольку индекс позволяет быстро найти нужную строку без необходимости сканировать всю таблицу.

Важно отметить, что если строка таблицы переносится на другой блок из-за обновления или вставки новых строк, то TID также будет изменяться, что может повлиять на производительность запросов, использующих индекс. Однако PostgreSQL обеспечивает автоматическую обновление индексов после изменения данных в таблицах, чтобы гарантировать целостность индексов и устранить такие проблемы.


#postgres #database #db #psql
👍3
pandas 2.0 and the Arrow revolution (part I)

Революция Arrow особенно важна для пользователей библиотеки pandas. Ранее DataFrame в pandas сохранялся в оперативной памяти, и рекомендуемое соотношение объема оперативной памяти к размеру набора данных было примерно 5-10 раз в 2017 году. Однако с улучшением pandas это соотношение стало около 2 раз.

Это означает, что пользователи могут обрабатывать наборы данных, занимающие до 8 ГБ оперативной памяти на 16-гигабайтной машине. Однако, объем 8 ГБ оперативной памяти в pandas значительно отличается от ожидаемого. Ранее строковые столбцы в pandas сохранялись как объекты, что было чрезвычайно неэффективно. Новый тип столбца строковых данных [pyarrow] более эффективен примерно в 3,5 раза, как показывают исследования.

Допустим, пользователь pandas может обрабатывать набор строковых данных размером 2 ГБ на диске (8 ГБ в памяти) на своей 16-гигабайтной машине для определенного анализа. Если его набор данных вырастет до 3 ГБ, то произойдет ошибка из-за нехватки оперативной памяти.

Однако с использованием более эффективного типа столбца строковых данных пользователь может обрабатывать наборы данных размером до 7 ГБ (в 3,5 раза больше), что является большой новостью для многих пользователей pandas.

#pandas #arrow #python #de
🔥2