DE – Telegram
522 subscribers
313 photos
81 videos
15 files
406 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Релиз 🖼️
🔘Apache Airflow 3.1.2
🔘Task SDK 1.1.2

🤔 Что нового

Улучшена стабильность при работе с динамическими задачами и TaskFlow API

Оптимизированы механизмы импорта и загрузки плагинов

Повышена совместимость с Python 3.12

Улучшения в логировании, UI и Scheduler

😊 Ничего нового, баги фиксят

📦 Релизные ресы

▶️ Дока

▶️ Release Notes

▶️ Constraints

#airflow #release #de
Please open Telegram to view this post
VIEW IN TELEGRAM
8
Forwarded from DataEng
Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow_3.pdf
3.6 MB
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3

Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
9👏3💯11
Forwarded from 5 minutes of data
Pipedash

Десктопное приложение для управления CI/CD-пайплайнами от нескольких провайдеров

Большинство команд разработчиков со временем используют несколько платформ CI/CD.
Open source-проекты часто полагаются на GitHub Actions, внутренние сервисы могут работать на GitLab CI или Buildkite, нативные для Kubernetes — на Tekton, а обычно есть ещё какой-нибудь экземпляр Jenkins, который обслуживает legacy-системы.
Чтобы всё проверить, приходится открывать кучу вкладок и вручную обновлять.

Pipedash — собирает данные о пайплайнах из разных провайдеров и отображает их в одном месте.

@five_minutes_of_data
7
😕 Сбер запустил в продажу монету на базе мема "This is fine"

🔘Напечатали на монетном дворе Камеруна.

🔘Картинку вероятно генерили с помощью сберовского GigaChat.

🔘Иероглиф настоящий - "лошадь" 🐴

#meme #thisisfine #coin #sber
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10😁21
Media is too big
VIEW IN TELEGRAM
🤖 XPeng показала IRON - самый человечный робот года

На AI Day в Гуанчжоу IRON вышел на сцену, прошёл "кошачьим шагом" и жестами как человек. Зрители решили, что это костюм - поэтому Хэ Сяопэн прямо на сцене "распаковал" робота, показав skелет и "мышцы".

Что интересно:
1:1 габариты человека: 178 см, 70 кг
22 DOF в каждой руке, до 82 DOF по телу
Три чипа Turing, до 3 000 TOPS (по данным XPeng)
Полноразмерная мягкая "кожа" и бионные "мышцы"
Впервые для класса - твердотельная батарея
Цель - коммерция и масштабирование в 2026

Применение: витрины/гиды в ритейле и промышленные инспекции (партнёрство с China Baowu уже в работе).

📹 Смотри на видео как доказывали, что это не человек.

#XPeng #IRON #роботы #гуманоид #AI #humanoid #robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
54👏1
🍺 brew не хочет обновлять codex?
🔧 Написал скрипт, который берёт свежак из репозитория.
⬇️ Пользуйся:

#!/usr/bin/env bash
set -e

echo "🔍 Detecting system architecture..."

ARCH=$(uname -m)
OS=$(uname -s)
VERSION=$(curl -s https://api.github.com/repos/openai/codex/releases/latest | grep -o '"tag_name": *"[^"]*"' | cut -d'"' -f4)
BASE_URL="https://github.com/openai/codex/releases/download/${VERSION}"

EXT=".tar.gz"

# Определяем правильный бинарь
if [[ "$OS" == "Darwin" ]]; then
if [[ "$ARCH" == "arm64" ]]; then
FILE="codex-aarch64-apple-darwin"
else
FILE="codex-responses-api-proxy-x86_64-apple-darwin"
fi
elif [[ "$OS" == "Linux" ]]; then
if [[ "$ARCH" == "aarch64" ]]; then
FILE="codex-aarch64-unknown-linux-musl"
else
FILE="codex-x86_64-unknown-linux-musl"
fi
else
echo " Unsupported OS: $OS"
exit 1
fi

DEST="/usr/local/bin/codex"
if [[ "$OS" == "Darwin" && -d "/opt/homebrew/bin" ]]; then
DEST="/opt/homebrew/bin/codex"
fi

echo "⬇️ Downloading ${FILE}${EXT} from Codex ${VERSION}..."
curl -fL -o codex.tmp "${BASE_URL}/${FILE}${EXT}" || {
echo " Download failed — release or file not found at ${BASE_URL}/${FILE}${EXT}"
exit 1
}

mv codex.tmp codex.tar.gz
mkdir -p codex_unpack
tar -xzf codex.tar.gz -C codex_unpack || {
echo "⚠️ tar extraction failed, maybe it's pure gzip. Trying gunzip..."
gunzip -c codex.tar.gz > codex_unpack/codex
}

# Ищем бинарь "codex" или файл, начинающийся с codex-
BIN_PATH=$(find codex_unpack -type f \( -name "codex" -o -name "codex-*" \) | head -n 1)
if [[ -z "$BIN_PATH" ]]; then
echo " Could not find extracted codex binary after unpacking."
echo " Contents of archive:"
ls -R codex_unpack
exit 1
fi

echo "⚙️ Installing to ${DEST}..."
sudo mv "$BIN_PATH" "$DEST"
sudo chmod +x "$DEST"
rm -rf codex_unpack codex.tar.gz

echo " Codex updated successfully!"
"$DEST" --version
6😁2❤‍🔥1👏1
Я, конечно, не пробовал эту штуку, но почему-то кажется, что она работает. Возможно, потому что уже наловчились проходить собесы другими подобными инструментами. И вот как теперь быть нанимающей стороне?

Я вижу 3 варианта:
1. Нанимать на срочный договор на полгода и лишь затем брать в штат. Далеко не все кандидаты на такое пойдут, особенно высоких грейдов.
2. Организовать "чистые комнаты" (ловите идею для стартапа!) — на базе Почты России, СДЭКа и т.п. сделать отдельное помещение с компом. Т.к. эти организации есть примерно в каждом Мухосранске, можно не терять кандидатов.
3. Личное знакомство. Конференции, бары и прочий нетворкинг всё-таки победит. Онтико сможет поднять цены на билеты и организовать стенд "Ищу работу".

Честно говоря, ни один из них мне не нравится, но реагировать как-то надо 🤷‍♂️

А какой вариант вас бы устроил? 🤝 - №1, 🤔 - № 2, 👌 - № 3.

https://www.interviewcoder.co/ #dev
8
https://topicpartition.io/blog/postgres-pubsub-queue-benchmarks

Прекрасная статья о том, что момент, когда вам в большинстве случаев, перестанет хватать Posgres на самом деле очень и очень далек.
И как Pub/Sub решение, и как Redis решение, и Data Lake решение.

Циферки, метрики, замеры внутри, все как вы любите 😃


P.S. Конечно же, никто не говорит о том, что Kafka надо заменять на Postgres. The claim isn’t that Postgres is functionally equivalent to any of these specialized systems. The claim is that it handles 80%+ of their use cases with 20% of the development effort.

Но поздно, стервятники уже налетели...https://www.morling.dev/blog/you-dont-need-kafka-just-use-postgres-considered-harmful/

@ohmydataengineer
💯7😁1
🖼️ Релиз Apache Airflow CTL 0.1.0

airflowctl - новый официальный CLI, который разговаривает с Airflow Public API и даёт удобные команды для повседневных задач:
🔘триггерить DAG-и
🔘листать и проверять DagRun-ы
🔘паузить/анпаузить
🔘управлять connections/variables

Всё это удалённо, из CI/CD или локально, без SSH на кластеры.

Зачем это нужно:
🔘централизованный доступ к продам и стейджам через API
🔘единый инструмент для SRE/Platfоrm/DE‑команд и пайплайнов
🔘безопаснее: используем API‑токен, который хранится в keyring.

Пример - поставить и дернуть DAG удалённо:

# установка
pip install apache-airflow-ctl

# логин (через токен; API должен быть включён)
export AIRFLOW_CLI_TOKEN=<api_token>
airflowctl auth login --api-url https://airflow.example.com --env prod

# посмотреть доступные DAG-и
airflowctl dags list -o table

# триггернуть DAG с конфигом и заметкой
airflowctl dags trigger \
--dag-id example_etl \
--conf '{"country":"RU"}' \
--note "triggered from airflowctl"

# проверить последние запуски
airflowctl dagrun list --dag-id example_etl --limit 5 -o table

Подробнее в доке.


#airflow #release #airflowctl
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥11
DE
Эволюция прямохождения роботов Figure #robotics #ai #figure #helix #openai
Media is too big
VIEW IN TELEGRAM
Для уверенного прямохождения чего-то не хватает роботу IDOL 🙃

Шагал, как-будто перебрал тормозной жидкости...

#robot #humanod #humanoids #robotics #robofails #idol #роботы #робототехника #гуманоид #гуманоиды
😁71
Forwarded from Data is data
Сразу видно, что компания разбирается в IT-разработке и продуктовой аналитике.
9😁5
Субагенты и мультиагенты, в чём разница.

Субагенты - это внутренние помощники одной модели. Мультиагенты - это полноценная экосистема отдельных моделей, взаимодействующих друг с другом.

Субагенты - это когда одна большая модель разбивает работу на своих "внутренних специалистов". Как мини-команда в голове одного ИИ: каждый субагент отвечает за кусок задачи, а итог собирает сама модель.

Мультиагенты - это уже реальная команда из разных моделей/агентов, у каждого свои цели, навыки и автономия. Они общаются, координируются и делают то, что одной модели сложно: планирование, распределение ролей, параллельные процессы.

Проще:
Субагенты 🔜 внутренние роли одной модели.
Мультиагенты 🔜 самостоятельные игроки, работающие вместе.

#agents #subagents #multiagents #AI #LLM #агенты #субагенты #мультиагенты #ИИ #БЯМ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥51
🖼️ Выкатили Airflow 3.1.3

TL;DR: 3.1.3 — это security+stability апдейт: безопаснее API‑сервер, корректная работа Connections/Variables в контекстах сервера, рывок по скорости UI/API и пачка важных фиксов планировщика и миграций. Обновляться стоит.

Главное в 3.1.3:

▶️Security: удалён небезопасный endpoint /api/v2/dagReports, который исполнял пользовательский код в процессе API‑сервера. Рекомендация — использовать airflow dags report.

▶️Секреты и контексты: исправлен доступ к Connections/Variables в контекстах API‑сервера (плагины, лог‑хендлеры) за счёт явного разграничения цепочек секретов для client/server/fallback. Плагины и хуки теперь корректно работают без компромиссов изоляции воркеров.

▶️Производительность UI/API: заметно ускорены страницы (включая список task instances и “next run assets”), исправлен экспорт логов.

▶️Надёжность планировщика: фикс использования неверного max_active_runs из кеша DAG; корректнее обработка триггер‑правил.

▶️Миграции БД и XCom: устранены падения миграций и апгрейда при NaN в XCom.

▶️Поведение воркеров: healthcheck теперь уважает --worker-timeout.

▶️HITL & UX‑мелочи: валидация параметров для HITL‑тасков, фикс logout, рабочая кнопка “Test connection”, resize заметок в UI, обновления переводов.

#airflow #release #de #data
Please open Telegram to view this post
VIEW IN TELEGRAM
6
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Walker S2: когда демки превращаются в поставки

UBTECH показала массовую отгрузку человекоподобных Walker S2. На видео — строй роботов в цеху: синхронный марш. Снято так чисто, что интернет спорит, CGI это или нет — но именно такая синхронность и отличает хорошо отлаженное производство.

Почему это важно?
🔘Вместо шоукейсов — операционная готовность: батарейная логистика, док‑станции, единый такт.
🔘Заявка на первую массовую поставку гуманоидов для реальных линий и складов.

Как тебе такой марш будущего?

#robotics #AI #UBTECH #WalkerS2 #humanoids #automation #industry40 #роботы #гуманоиды #ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
4👏11
Статья Data Warehouse, Data Lake, Data Lakehouse, Data Mesh: What They Are and How They Differ

Склад данных (DWH) — про централизованную чистую аналитику и жёсткие схемы

Озеро (Data Lake) — про гибкость и дешёвое хранение сырья

Лейкхаус (DLH) — пытается объединить их на объектном хранилище с ACID

Меш (DataMesh) — не технология, а оргмодель с доменным владением данными

Выбор зависит от типа данных, требований к скорости/качества и зрелости команды.

〰️〰️〰️〰️〰️〰️〰️〰️

🌙 Как отличаются подходы 🌙

1️⃣ Data Warehouse (DWH) — "чистая кухня" для BI
Централизованное, чтение-оптимизированное хранилище под OLAP‑аналитику и отчёты. Схема фиксируется на записи (schema‑on‑write), сильные гарантии качества и согласованности (ACID), быстрые агрегации. Лучше всего отвечает на "известные вопросы про известные данные".
✏️ Минусы: жёсткость к изменениям, дороговизна при росте, слабая работа с полуструктурой.

2️⃣ Data Lake — "сырьевой парк" для экспериментов
Складывает данные "как есть" (schema‑on‑read) — от логов и JSON до медиа, дёшево масштабируется на объектных сторах. Идеально для исследований и ML.
✏️ Риск: без управления качество деградирует в "болото", запросы часто медленнее, транзакционных гарантий нет.

3️⃣ Data Lakehouse — "самолёт‑гибрид"
Один слой поверх дешёвого объектного стора + "табличный формат" (Delta/Hudi/Iceberg), который приносит ACID, снапшоты, эволюцию схем и ускорение запросов. Цель — гибкость озера c надёжностью склада.
✏️ Ограничения: зрелость стеков, сложность внедрения, иногда уступает специализированному DWH по перформансу.

4️⃣ Data Mesh — "микросервисы для данных"
Это не новый стор, а операционная модель: доменные команды владеют данными как продуктами, есть самосервисная платформа и федеративная (программируемая) дата‑гавернанс.
✏️ Хорош в больших организациях с автономными командами; требует культуры и инвестиций в платформу.

〰️〰️〰️〰️〰️〰️〰️〰️

Когда что выбирать — ориентиры

❗️ У тебя отчётность и стабильные метрики, много SQL‑пользователей, высокие требования к "единой правде": начни с DWH (или с легковесной его версии в облаке).

❗️ Много полуструктуры/неструктуры, активный ML/DS, дешёвое "историческое" хранение сырья критично: ставь Data Lake, но сразу добавляй управление качеством и метаданными, чтобы не получить "болото".

❗️ Нужно и то, и другое, а два стека — боль: бери Lakehouse на открытом табличном формате (Delta/Iceberg/Hudi) — один слой, ACID, time‑travel, апгрейд до "медальонов".

❗️ У тебя много доменов и центральная дата‑команда — узкое горло: добавляй Data Mesh как орг‑надстройку (поверх DWH/Lake/Lakehouse), но не недооценивай стоимость самосервиса и федеративной политики.

👌 Пример из жизни продукта

Представь маркетплейс:
🟡 BI‑команда хочет "вчера к утру" отчёты по GMV/конверсии 🔜 витрины/март в DWH.
🟡 DS‑команда обучает рекомендашки на кликах/поисковых логах/изображениях 🔜 сырые/серебряные слои в Lakehouse на Iceberg/Delta.
🟡 Бизнес растёт, появляются автономные направления (Поиск, Логистика, Финансы) 🔜 они публикуют доменные "данные‑как‑продукт" (контракты, версии, SLO), а платформа обеспечивает каталог, lineage, права и качество ➡️ это уже Data Mesh поверх твоего Lakehouse.

⚡️ Что важно унести из статьи

Автор трезво разводит технологии и организацию:
🟢Lakehouse решает техническую боль разрыва "озеросклад"
🟢Mesh — организационную боль централизованных "бутылочных горлышек".

Серебряных пуль нет: стоимость владения и зрелость команды решают не меньше, чем выбор логотипа на диаграмме. Рекомендую прочитать оригинал.

#DE #DWH #DataWareHouse #DL #DataLake #DLH #LakeHouse #Mesh #DataMesh
Please open Telegram to view this post
VIEW IN TELEGRAM
2👏7❤‍🔥31