DE – Telegram
523 subscribers
313 photos
81 videos
15 files
406 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
👍3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
import pandas as pd

pd.tumble()
👎2😁2👍1🤗1
😁5
Стэнфордский открытый практический курс по Linux. C лабораторными работами.

#linux

https://practicalunix.org/stanford-course-logistics
👍4
Introducing To Algorithms
MIT Open Course
Massachusetts Institute of Technology
Prof. Erik Demaine

#algo

И другие курсы профессора Demaine

https://ocw.mit.edu/courses/6-006-introduction-to-algorithms-spring-2020/
🔥3👍1
Бесплатный курс по базовому Python от сообщества ODS (простым и понятным язком, идеально для быстрого старта)

#python #ods

https://open-data-science.github.io/pycourse/base/
❤‍🔥1🔥1
Визуальное отображение плана запроса, просто копируем план запроса и получаем, например, такой, как на изображении, результат. 🧙

https://explain.dalibo.com/

#sql #postgres #postgreSQL
👍6
😁1💩1
Практическое руководство о том, как начать использовать Rust для задач инженерии данных. Практические примеры того, как Rust можно использовать для большинства задач, ожидаемых от дата-инженера.
👍2
Json or not Json. Плюсы и минусы использования Json в PostgreSQL / Олег Бартунов, Никита Глухов

скачать доклад
смотреть видео


#postgres #database #db #psql #json
👏1
В PostgreSQL индексы не содержат ссылку на кластерный индекс или первичный ключ, как в MySQL или MS SQL Server. Вместо этого, каждый индекс в PostgreSQL содержит указатель на строку таблицы на диске, называемый TID (tuple ID). TID состоит из двух компонент: номера блока и номера строки в блоке. Номер блока указывает на физическое расположение блока на диске, а номер строки - на конкретную строку в этом блоке.

Когда выполняется запрос, использующий индекс, PostgreSQL использует TID, чтобы найти соответствующую строку в таблице на диске. Это позволяет получить быстрый доступ к данным, поскольку индекс позволяет быстро найти нужную строку без необходимости сканировать всю таблицу.

Важно отметить, что если строка таблицы переносится на другой блок из-за обновления или вставки новых строк, то TID также будет изменяться, что может повлиять на производительность запросов, использующих индекс. Однако PostgreSQL обеспечивает автоматическую обновление индексов после изменения данных в таблицах, чтобы гарантировать целостность индексов и устранить такие проблемы.


#postgres #database #db #psql
👍3
pandas 2.0 and the Arrow revolution (part I)

Революция Arrow особенно важна для пользователей библиотеки pandas. Ранее DataFrame в pandas сохранялся в оперативной памяти, и рекомендуемое соотношение объема оперативной памяти к размеру набора данных было примерно 5-10 раз в 2017 году. Однако с улучшением pandas это соотношение стало около 2 раз.

Это означает, что пользователи могут обрабатывать наборы данных, занимающие до 8 ГБ оперативной памяти на 16-гигабайтной машине. Однако, объем 8 ГБ оперативной памяти в pandas значительно отличается от ожидаемого. Ранее строковые столбцы в pandas сохранялись как объекты, что было чрезвычайно неэффективно. Новый тип столбца строковых данных [pyarrow] более эффективен примерно в 3,5 раза, как показывают исследования.

Допустим, пользователь pandas может обрабатывать набор строковых данных размером 2 ГБ на диске (8 ГБ в памяти) на своей 16-гигабайтной машине для определенного анализа. Если его набор данных вырастет до 3 ГБ, то произойдет ошибка из-за нехватки оперативной памяти.

Однако с использованием более эффективного типа столбца строковых данных пользователь может обрабатывать наборы данных размером до 7 ГБ (в 3,5 раза больше), что является большой новостью для многих пользователей pandas.

#pandas #arrow #python #de
🔥2
PgAdmin - это бесплатное, мощное и популярное программное обеспечение администрирования PostgreSQL, которое позволяет управлять базами данных PostgreSQL и выполнить множество рутинных задач. Он доступен для Windows, Mac и Linux и является одним из самых широко используемых инструментов для управления базами данных PostgreSQL.

Основные возможности pgAdmin:

1️⃣ Создание, удаление и модификация таблиц в базе данных, создание ограничений на данные.

2️⃣ Создание и редактирование запросов SQL, выполняемых на сервере.

3️⃣ Просмотр и изменение данных в таблицах.

4️⃣ Управление пользователями и группами пользователей.

5️⃣ Поддержка нескольких серверов и свободный доступ к каждому из них.

6️⃣ Работа в графическом режиме, что делает работу с базой данных более удобной.

Без pgAdmin управление базой данных PostgreSQL будет гораздо более сложным. Программа предоставляет пользователю более простой способ доступа и управления информацией с помощью большого количества инструментов для работы с PostgreSQL. Он также позволяет пользователям работать с несколькими серверами одновременно, что облегчает их работу, уменьшает временные затраты и повышает производительность.

Кроме того, бесплатность, расширяемость и поддерживаемость инструментария делает его очень популярным среди разработчиков и системных администраторов. С его помощью можно легко создавать и настраивать базы данных, выполнять запросы, создавать пользователей, просматривать статистику базы данных и многое другое.

В заключение, pgAdmin - это эффективный и важный инструмент для управления базами данных PostgreSQL. Если вы работаете с PostgreSQL, то pgAdmin - это то, что вам нужно, чтобы сделать свою работу быстрее и проще.

#db #postgresql #postgres #pgadmin
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
Внезапно: теперь в Python можно использовать Tableau!

PyGWalker – пакет для визуализации данных в Pandas. Он позволяет создавать удобный интерфейс, с помощью которого можно легко визуализировать данные и построить красивые графики.

PyGWalker – это по сути мини-версия Tableau, которая работает внутри Python. Больше не нужно переключаться между различными приложениями – теперь всё можно сделать в одном месте.

Этот пакет подойдет всем, кто работает с большими массивами данных и хочет быстро создавать качественные визуализации. PyGWalker делает это процесс простым и удобным, предоставляя широкий выбор настроек и опций.

Можно запускать в Google Colab, Kaggle или Graphic Walker

#tableau #python #colab #kaggle #bi
👍3🤩1