DE – Telegram
524 subscribers
320 photos
81 videos
15 files
410 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Ребята, которые сделали ruff, выпустили свой тул для работы с зависимостями для python - uv. Они позиционируют его как замену pip, pip-tools и virtualenv. Написан на расте, поэтому работает быстро.

Также они взяли на себя дальнейшую поддержку rye (который изначально сделал Армин Ронахер, автор flask) и судя по всем планируют постепенно эти проекты объединить в один.

Выглядит круто.

Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
🆒4
OS DE Landscape 2024
❤‍🔥6
🔥 Бесплатный курс по LuigiВведение в Data Engineering: дата-пайплайны

Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 автор курса писал небольшой обзорный пост на Luigi в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒3❤‍🔥2
😁13
Media is too big
VIEW IN TELEGRAM
RabbitMQ vs Apache Kafka
10 минут
❤‍🔥4
🔥 Бесплатный курс про Apache Airflow

Apache Airflow 2.2: практический курс

За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые автор планирует покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе автор подробно разбирает как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒8
https://developers.google.com/idx

А вы знали, что Google разрабатывает облачную IDE - IDX?

Напичкана всем подряд: кросс-платформа, iOS и Android эмуляторы, интерпретаторы и компиляторы, облачная среда и терминал и конечно же аналог Copilot.

Проект в публичной бете, можно встать в лист ожидания и получить приглашение.
😁2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Steampipe — это zero ETL решение для получения данных непосредственно из API и сервисов.

Твоё облако — это живая база данных, которая быстро меняется. Не жди синхронизации ETL и не полагайся на старые данные. Забирай данные там, где они появились, создавая новые варианты использования и быстрые решения.

Используй native Postgres Foreign Data Wrappers для подключения к api через Postgres.
🆒3❤‍🔥1
🤓 🖥 GQL - Git Query Language

GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.

Движок выполняет запрос на лету без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2
😁7
👩‍💻 Генераторы данных

🔘Mimesis - надежный генератор данных для Python, который может создавать широкий спектр поддельных данных на различных языках.

🔘Spawner - инструмент для создания данных для разнообразных баз данных и искусственного интеллекта. Содержит широкий набор полей, включая возможность пользовательской настройки вручную.

🔘Benerator - генератор текстовых данных для оценки, тестирования и обучения ИИ-моделей.

🔘DataFactory - удобный способ создавать разнообразные наборы тестовых данных для наполнения баз данных и проверки ИИ-моделей.

🔘MockNeat - простой интерфейс для программной генерации данных в форматах json, xml, csv и sql.

🔘Faker - с помощью этого инструмента можно быстро создать фейковые данные для тестов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒4
Открыл для себя алмаз 💎 среди ресурсов для разработчиков - коллекция незаменимых шпаргалок! Настоящая находка для тех, кто стремится улучшить свою продуктивность и ускорить процесс написания качественного кода. ⭐️


🔜 DEV - шпаргалки для разрабов
🔜 SQL - шпаргалки для аналитиков


Эти шпаргалки - твой личный ментор, всегда под рукой. Используй их, чтобы с легкостью навигировать по сложным концепциям и кодам, сократив время на поиски ответов и повысив точность выполнения задач. 🎩


#разработчики #шпаргалки #GitHub #SQL #продуктивность
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
😁8
😁6
❤️ ingestr

Твой личный маг по переносу данных. Без кода, без сложностей - чистая магия! 🪄


✔️ Проще не бывает: копируй данные из своей базы в любое место всего одной командой.

🔄 Инкремент: append, merge or delete+insert без головной боли.

🐍 Установка одним тапом - и всё готово к работе!


#инструментыДляРазработчиков #безКодирования #простотаИУдобство #переносДанных #автоматизация #длинныеНеудобныеБесполезныеХэштегиКоторыеНикомуНафигНеНужны
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2❤‍🔥1
🔥 Открываем двери для упрощённой обработки данных с dlt - data load tool

Твой скрипт уже почти идеален? Сделай его волшебным с библиотекой data load tool! Без хлопот по подключениям, без лишних сервисов – просто чистая магия загрузки данных из любых источников прямо в твои руки. 🧙‍♀️

😎 Особенность? Никаких контейнеров, никаких сложностей. Импортируй dlt в свой код и вуаля - твои данные летят как по волшебству в структурированном виде! 🌪️

🎓 А ещё, dlt и dbt вместе - это как два могучих волшебника одного клана! Есть поддержка dbt из коробки

📌dlt используется под капотом у Ingestr, про который был предыдущий пост.

#Python #DataIngestion #Innovation
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒2