DE – Telegram
522 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Forwarded from partially unsupervised
Формально у меня сегодня последний день в Neon, потому что я оказался среди поглощенных кирпичным заводом, на котором - пока столь же формально - начинаю работать завтра.

Поэтому символично, что сегодня успели зарелизить app.build - продукт, над которым мы небольшой командой работали с февраля. Это just another end2end генератор CRUD веб-приложений от промпта до деплоя.

Он полностью опенсорсный (можно покопаться в истории и увидеть все мои коммиты в стиле “maybe fix a lot of things”), работает как CLI и обычно генерит скорее работающие приложения. Можно сгенерить на наших серверах, можно развернуть у себя (все равно понадобится gemini и claude API, но можете прислать PR с поддержкой любимого LLM-провайдера). Шероховатостей еще много, но уже скорее работает, чем нет, так что пробуйте и присылайте баг-репорты!
👏4
😁142
Forwarded from Data Coffee
Установили новую версию Airflow 3.0 вместе со слушателями подкаста🎧, посмотрели на новый модный интерфейс📊, и даже запустили пару DAGs в прямом эфире😱

В свежем видео от Data Coffee рассказываем:
• о новых фичах Airflow в версии 3.0
• как установить себе Airflow локально через Docker Compose
• достучаться до небес интерфейса
• и другое

#datacoffee #airflow #установка #прямойэфир

https://youtu.be/SVJRb9zf9SA?feature=shared
❤‍🔥7
📊 Продвинутый SQL: Моделирование и эффективный доступ к данным

Если ты сталкивался с требованиями «знания продвинутого SQL» в вакансиях, но не понимал, что именно под этим подразумевается, эта статья для тебя.

🐱 В ней рассматриваются:
- Оконные функции и CTEs
- Различные типы JOIN и MERGE INTO
- Оптимизация запросов: партиционирование, кластеризация, избегание data skew
- Моделирование данных: Dimension, Fact, Bridge, OBT и агрегированные таблицы

📖 Подробнее: https://www.startdataengineering.com/post/advanced-sql/

#DE #DataEngineering #SQL #BigData #ETL #Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
Уже многие могли видеть униформу эксельщика 😁

#meme #excel
😁8
DE
Уже многие могли видеть униформу эксельщика 😁 #meme #excel
Подвезли и униформу эйрфлоущика 😂

#meme #airflow
😁76👏11
Выкатили новую версию Airflow, но утечка памяти с dag-processor пока никуда не делась.

Свежая багфикс-версия Apache Airflow 3.0.2. Если ты уже сидишь на тройке, то, скорее всего, успел заметить неприятную штуку: dag-processor бесконтрольно плодит треды и открытые файлы, из-за чего растёт не только нагрузка на память, но и число file denoscriptors.

С этим багом столкнулись уже многие, не ты один. Причём даже после апдейта до 3.0.2 утечка не исчезла.

Подозреваю, патч появится в одном из следующих хотфиксов. Пока что мониторь свои процессы, и не забывай лимитить ulimit -n.
7😁1
Forwarded from DataEng
Ранее я писал про релиз Airflow 3.0.2 в котором исправили утечку памяти, но на деле оказалось, что не полностью. Проблема была решена лишь частично, мои пайплайны продолжали периодически падать и съедать память. Посидев вечерок я локализовал проблему и написал фикс, который благополучно был принят в главную ветку Airflow.

Судя по всему релиз 3.0.3 не за горами.
10
📚 Data Engineer Handbook 🔜 супер‑ресурс для тебя и тех, кто хочет стать профи в DE.

🌟 Что внутри:

▶️ Пошаговая дорожная карта: от базовых SQL‑запросов до продвинутого использования потоков и LLM-интеграций.

▶️ Bootcamp на YouTube: 6‑недельный курс в котором есть всё от установки софта до проектов.

▶️ Реальные проекты и задачи: попрактикуйся на настоящих сценариях 🔜 ETL, пайплайны, стриминг, облако.

▶️ Обширная подборка книг (25+) и тебе нужно обязательно прочесть хотя бы этот минимум: Fundamentals of Data Engineering, Designing Data‑Intensive Applications, Designing Machine Learning Systems.

▶️ Сообщества:

Для DE: DataExpert.io Discord, Data Talks Club Slack, Data Engineer Things.

Для ML‑интеграций: AdalFlow Discord, Chip Huyen MLOps Discord.

🔥 Репозиторий активно развивается 🔜 31k+ звёзд, 6k+ форков, 400+ контрибьютеров.

〰️〰️〰️〰️〰️〰️〰️〰️

📌 Итог:
Data Engineer Handbook 🔜 это всё, что тебе нужно в мире DE: самообучение, проекты, сообщества, советы, сертификация. Начни уже сегодня!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥522
В python добавляют очередной тип строк, который явно разделяет шаблон и его аргументы. Выглядеть это будет примерно так:
attributes = {"src": "shrubbery.jpg", "alt": "looks nice"}
template = t"<img {attributes:.2f} />"
assert html(template) == '<img src="shrubbery.jpg" alt="looks nice" />'
assert template.strings == ("<img ", " />")
assert template.interpolations == attributes
assert template.interpolations[0].format_spec == ".2f"

Т.е. html - кастомная функция, которая разворачивает аргумент-словарь у строки в набор тегов. Я вот так сходу не могу придумать мест применения, кроме экранирования секретов в логах. Но во-первых, это решается по-другому (своим логгером), а во-вторых, уже есть string.Template, который делает нечто похожее. Ну ладно, ещё защита от инъекций (XSS, SQL и т.п.), но там это делается совсем другим способом.

В общем, меня не покидает ощущение, что python становится слишком фичастым. И когда-нибудь это обязательно стрельнет.

https://habr.com/ru/articles/911196/ #python
6❤‍🔥1😁1
Forwarded from DLS — новости
📹 Анонс открытой лекции!

На курсе DLS сейчас череда проектов и многие задаются вопросом, о том, как можно было бы представить свои результаты не только наглядно и красиво, но и желательно в виде доступном с любого устройства и понятном даже бабушке 🇷🇺, незнакомой с программированием.

Мы знаем как это можно сделать! И на практической лекции во вторник, 24ого числа в 19:00, спикер Матвей Аношин (МФТИ x DLS), расскажет как превратить свой Jupyter-ноутбук в веб-сервис.

Ссылку на занятие выложим 24ого. Подключайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
SQLZoo — живой онлайн-тренажёр с задачами от простых SELECT до продвинутых оконных функций. Если хочешь свободно «разговаривать» с базами данных, тебе это нужно и будет полезным изучить каждый интерактивный урок.

1️⃣ Почему именно SQLZoo?
Платформа комбинирует теорию и практику в одном окне. Ты сразу видишь результат запроса, исправляешь ошибки на месте и не тратишь время на настройку окружения.

2️⃣ Как учиться быстрее?
🟡 Проходи уроки подряд: Basics 🔜 Joins 🔜 Aggregates 🔜 Windows.
🟡 Фиксируй новые приёмы в конспект: GROUP BY, HAVING, WITH RECURSIVE.
🟡 Старайся решить каждое задание без подсказок, а затем сравни свой запрос с эталоном.

3️⃣ Что получишь на выходе?
За пару вечеров наберёшься практики, которой хватает, чтобы читать чужие SQL-скрипты без боли и писать свои, не заглядывая в подсказки.

Чтобы SQL больше не был тёмным лесом - залетай сюда ➡️ sqlzoo.net

#sql #de #postgres
Please open Telegram to view this post
VIEW IN TELEGRAM
4
1😁14
😁11
Учёные становятся дороже футболистов. В этом мире не всё потеряно 🙂

#ai #science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7👏4😁3