DE – Telegram
523 subscribers
313 photos
81 videos
15 files
407 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Что это значит для ролей в команде

Data/ML инженеры.

HITL превращает "тёмные" места пайплайна в управляемые точки контроля: стоп‑краны для выкладки моделей, ручные апрувы сложных джоб. Deadline Alerts убирают "реактивность': меньше пост‑мортемов, больше проактивных пингов до того, как SLA сорван.

Платформенные команды.

React‑плагин‑система снимает извечную дилемму "форкнуть UI или жить с тем, что есть": теперь можно расширять интерфейс без форков и кастомных патчей. Плюс - 17 языков, что помогает поддержке и бизнес‑пользователям.

SRE/Observability.

Deadline Alerts и "возвращение" Gantt/Calendar дают более плотную картину времени и зависимостей. А ещё: в 3.1 добавили streaming‑endpoint /wait для отслеживания выполнения DAG‑run в реальном времени - удобно для интеграций и ChatOps.

Пример интеграции с асинхронным клиентом:

import httpx, json, asyncio


base, dag_id = "https://<airflow>", "daily_batch"

async def run_and_wait():
async with httpx.AsyncClient() as c:
r = await c.post(f"{base}/api/v2/dags/{dag_id}/dagRuns")
run_id = r.json()["dag_run_id"]
async with c.stream("GET", f"{base}/api/v2/dags/{dag_id}/dagRuns/{run_id}/wait") as s:
async for line in s.aiter_lines():
if line:
state = json.loads(line)["state"]
return state

asyncio.run(run_and_wait())

Эндпоинт /wait - новая фича в 3.1 для "реактивных" интеграций.
422
🚀Будущее неизбежно настигает тебя: Роботы выходят на улицы, а ИИ учится действовать в мире!

🦾 В Бостоне прошёл RoboBoston 2025 - крупнейший робототехнический праздник на Восточном побережье.

Более 50 компаний и университетов показывают дронов, робособак, подводных роботов, манипуляторы и массу интерактивных демо. Всё бесплатно и открыто для всех!

🤖А всего несколько дней назад DeepMind представил Gemini Robotics 1.5 — систему, которая не только планирует и рассуждает (ER 1.5), но и реально управляет роботами разных типов.
Она "думает перед действием", умеет объяснять свои шаги и переносить навыки между разными роботами - от манипуляторов до гуманоидов. Это шаг к ИИ, который может по-настоящему работать в физическом мире.

🌍Массовый фестиваль роботов и релиз передового embodied-AI за одну неделю - сигнал: робототехника и ИИ переходят из лабораторий в твою повседневность.

#robotics #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
4
🤖 Восемь наиболее заметных гуманоидных роботов, которые активно развиваются сегодня.

1️⃣ Optimus от Tesla

Робот Илона Маска. Цель - универсальный помощник для завода и дома. Активно демонстрируется, умеет ходить, манипулировать предметами, сейчас обучается простым рабочим задачам.

2️⃣ Atlas от Boston Dynamics

Один из самых известных гуманоидов. Отличается невероятной подвижностью: бегает, прыгает, делает акробатические элементы. Недавно компания показала электрическую версию, рассчитанную на реальные применения.

3️⃣ Digit от Agility Robotics

Робот для логистики и складов. Может брать коробки, переносить их, ориентироваться в пространстве. Amazon уже тестирует его для автоматизации складских процессов.

4️⃣ Helix от Figure AI

Стартап из Кремниевой долины, собравший сотни миллионов инвестиций. Ставка на интеграцию ИИ, чтобы робот мог общаться с человеком и выполнять задачи общего назначения. Сотрудничают с OpenAI.

5️⃣ Apollo от Apptronik

Американский гуманоид, созданный для индустриальных задач. Отличается модульным дизайном и надёжностью. Недавно Google DeepMind подтвердила, что их ИИ-модель Gemini будет работать на Apollo - это как раз про Gemini Robotics из постов выше.

6️⃣ Raise от AgiBot

Китайский игрок, делающий ставку на массовое производство гуманоидов. Уже заявляет о серийных партиях, активно демонстрирует роботов на выставках в Китае.

7️⃣ Walker X от UBTech

Ещё один китайский гуманоид, известный по презентациям на CES. Может ходить, распознавать лица, взаимодействовать с предметами. Ориентирован больше на сервис и коммуникацию.

8️⃣ Unitree G1

Более компактный и доступный китайский гуманоид. Известен демонстрациями с акробатикой и устойчивостью. Компания Unitree также популярна своими роботами-собаками.

#robotics #ai #llm #бям
Please open Telegram to view this post
VIEW IN TELEGRAM
💯6
Какой из этих роботов-гуманоидов тебе кажется самым перспективным
Anonymous Poll
38%
Tesla Optimus
46%
Atlas Boston Dynamics
8%
Digit Agility Robotics
31%
Helix Figure AI
15%
Appolo Apptronik
23%
Raise AgiBot
23%
Walker X UBTech
46%
Unitree G1
4👏1
⭐️ Чистые зависимости с помощью uv

Часто в проектах получается одна из двух крайностей:
🔘огромный requirements.txt, который тащит всё подряд,
🔘боль с поддержкой разных окружений для прода, CI и локалки.

⚡️ Решение - использовать uv и группы зависимостей прямо в pyproject.toml.

✏️ Пример pyproject.toml

[project]
name = "myapp"
version = "0.1.0"
requires-python = ">=3.12"
dependencies = [
"fastapi",
"httpx",
]

[tool.uv.group.dev]
dependencies = [
"ruff",
"ty",
"pytest",
"pytest-cov",
"ipython",
"types-requests",
]

[tool.uv.group.test]
dependencies = [
"pytest",
"pytest-xdist",
"pytest-randomly",
]

[tool.uv.group.docs]
dependencies = [
"mkdocs-material",
"mkdocstrings[python]",
]


📌Как устанавливать

Prod:

uv sync --frozen

Dev-окружение:

uv sync --group dev

Тесты:

uv sync --group test

Комбинированно (например, dev + доки):

uv sync --group dev --group docs


🙂Паттерны для CI/CD

Prod-образ:

uv sync --frozen минимум зависимостей, детерминированная сборка.

Тесты:

uv sync --group test --frozen && pytest -q


Линтеры:


uv sync --group dev --frozen && ruff check . && mypy .


☕️ Бонус: фичи как extras

[project.optional-dependencies]
s3 = ["boto3"]
clickhouse = ["clickhouse-connect"]

Установка:

uv sync --extras s3,clickhouse --group dev

🔥 В итоге: один pyproject.toml много сценариев чистые окружения быстрые билды.

#uv #pipelines #ci #tests
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁1
🔥 Создатель Flask о том, как 90% кода ему написала БЯМ:

✍️ Армин Роначер пишет:
В последнем проекте я действительно сгенерировал с помощью ИИ более 90% кода: сервис на Go, SDK на Python и TypeScript, даже SQL и миграции. Но важно - я просматривал каждую строчку, переписывал архитектуру, чистил дубликаты.

ИИ идеально справляется с рутиной, но всё, что касается дизайна и общей целостности системы - пока ещё исключительно на человеке. Без этого код развалится.

Когда-то ты перестал писать ассемблер, сейчас перестаёшь писать рутину.

Звучит как новая ступень эволюции. Но ценность умения видеть систему целиком только растёт.

#ai #llm #dev #coding #agents #бям
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁2💯21
🖼️ + 🖼️ без боли в IDE

Часто хочется выжать из Rust скорость, но остаться в Python-экосистеме. Самый удобный путь сейчас:

1️⃣ PyO3: пишешь функции/классы на Rust и экспортируешь их как питонячий модуль.
2️⃣ maturin: собирает и ставит Rust-модуль в venv как обычный wheel.
3️⃣ .pyi-стабы: чтобы PyCharm/VS Code видели автодополнение и типы.

😀 Минимальный проект
myext/
Cargo.toml
src/lib.rs
pyproject.toml

Cargo.toml
[package]
name = "myext"
version = "0.1.0"
edition = "2021"

[lib]
name = "myext"
crate-type = ["cdylib"]

[dependencies]
pyo3 = { version = "0.22", features = ["extension-module"] }

src/lib.rs
use pyo3::prelude::*;

#[pyfunction]
fn add(a: i64, b: i64) -> i64 { a + b }

#[pymodule]
fn myext(m: &Bound<'_, PyModule>) -> PyResult<()> {
m.add_function(wrap_pyfunction!(add, m)?)?;
Ok(())
}

pyproject.toml
[build-system]
requires = ["maturin>=1.6"]
build-backend = "maturin"

[project]
name = "myext"
version = "0.1.0"
requires-python = ">=3.9"
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤‍🔥33😁1
😁17❤‍🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь мемы будут живее)

#sora #sora2 #meme #dev #etl
😁92👏1
Хочешь погонять модерн дата‑стек у себя на ноуте без облачных вычислений и лишней боли?

🔥 Лови Data Forge - аккуратная песочница, где всё уже скручено docker compose’ом.

Что внутри: MinIO+Hive (каталог), Trino и Spark, Kafka+Schema Registry+Debezium, Postgres 🔜 ClickHouse, Airflow, Superset и JupyterLab.

Запуск профилями: core, airflow, explore, datagen.

Есть генератор реалистичных retail‑данных, плюс Learning Path с ноутбуками - можно пройтись end‑to‑end.

Из железа просят ~8+ ГБ RAM и ~20 ГБ диска. Лицензия MIT.

▶️ Репо: https://github.com/fortiql/data-forge

#sandbox #de #modenstack #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
62❤‍🔥1
🖼️ PostgreSQL 18 релизнули в конце сентября.

Свежий релиз принёс серьёзные улучшения:

⚙️ Асинхронный ввод-вывод (AIO) — теперь чтение данных может идти параллельно, ускоряя seq-scan и VACUUM.
🔍 Skip-scan в B-tree — индекс по нескольким полям теперь работает даже без фильтра по первому.
🔄 pg_upgrade без "холодного старта" — статистика сохраняется при апгрейде.
🔐 OAuth 2.0 аутентификация, плюс прощание с MD5.
🧮 Мелкие радости: uuidv7(), виртуальные столбцы, подробная статистика в EXPLAIN и включённые по умолчанию checksums.

💡 Если твои базёнки упираются в диск - самое время затестить.

#postgres #db #de #dev #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
9👏4💯2
❤‍🔥8😁3
Кратко - основные инсайты с круглого стола «Хадуп мертв»

1️⃣ HDFS сам по себе мало кому нужен, если есть S3.
2️⃣ Даже YARN уже не так необходим.
3️⃣ Современная BigData признана начинающейся от 10 Петабайт. Эта планка постепенно растет.
4️⃣ Приходится делать много ухищрений, чтобы получить в он-преме S3. И принимать множество компромиссов.
5️⃣ Hadoop (HDFS) - все еще хороший, надежный, понятный и предсказуемый способ получить скалированное хранилище для бигдаты
6️⃣ Но с нуля Hadoop сейчас мало кто решится разворачивать для GreenField проектов
7️⃣ Apache Ozone - перспективный способ получить S3 (+HDFS) на сегодня - признано 60% участниками дискуссии.
Please open Telegram to view this post
VIEW IN TELEGRAM
7💯2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Печалька, но факт опровергнуть невозможно 🙃☹️

#meme #dev #ai #llm #stackoverflow #notmeme
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10432
DE
🔥 Создатель Flask о том, как 90% кода ему написала БЯМ: ✍️ Армин Роначер пишет: В последнем проекте я действительно сгенерировал с помощью ИИ более 90% кода: сервис на Go, SDK на Python и TypeScript, даже SQL и миграции. Но важно - я просматривал каждую строчку…
🔥 ИИ-разработка - это уже мета-программирование

Раньше, чтобы быть сильным инженером, достаточно было знать язык, предметную область и свой проект.
Теперь к этому добавилось новое измерение - понимание самой нейросети, с которой ты работаешь.

Ты должен знать:
🧠 как она "думает"
🧩 где у неё слепые зоны
📚 какая у неё внутренняя терминология
⚙️ и как подать задачу так, чтобы она дала не просто ответ, а нужное решение.

Фактически, ты уже не просто пишешь код - ты проектируешь мышление инструмента, который пишет код за тебя.
ИИ стал новым языком программирования. И чем лучше ты его понимаешь, тем мощнее твой код.
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁1
Автор статьи сравнивает асинхронность и многопоточность в Python на фоне свободнопоточности (No GIL) в Python 3.13.

Выводы:
🔘 при IO‑bound до ≈1000 одновременных задач скорости близки
🔘 асинхронность выигрывает по ресурсам и масштабируемости (10k+ соединений)
🔘 с No GIL классическая многопоточность начинает догонять и местами обгонять async на смешанных нагрузках (есть заметная доля CPU)

✏️ Что важно из статьи:

Для CPU‑bound задач по‑прежнему уместен multiprocessing; для IO‑bound многопоточность и асинхронность дают схожие времена, разница - в механике переключений (OS‑scheduler vs await) и сложности разработки: асинхронный код труднее писать и отлаживать.

Async нередко маскирует пулы потоков: aiofiles внутри зовёт loop.run_in_executor, а Motor (async‑драйвер MongoDB) использует под капотом синхронный PyMongo через thread‑pool; часть Django‑стека вынужденно прыгает между sync/async, добавляя оверхед.

Микротесты ожидания: при 100–1000 задач разницы почти нет; при 10 000 - у threading "can’t start new thread". Память: ~4 МБ на поток против ~4 КБ на async‑задачу, поэтому на больших кардинальностях async существенно экономнее; у множества потоков растёт стоимость переключений и нагрузка на планировщик.

В реальных библиотеках возможен крупный выигрыш: у psycopg 3 асинхронный путь даёт ≈2200–2500 RPS против ≈700–800 RPS у синхронного.

Эксперимент с FastAPI: многопоточность с GIL - ~2800 RPS, async - ~3500 RPS. С No GIL: async остаётся примерно на том же уровне, а многопоточность поднимается до ~3540 RPS, местами обгоняя async. Итог автора: апгрейд на No GIL даёт прирост, сопоставимый с полной перепиской на async.

⚡️ Итог:

🟢 асинхронность - про экономию железа и экстремальную конкурентность (10k+)
🟢 No GIL усиливает многопоточность там, где в запросе есть заметная доля CPU (условно 20–40% и выше)
🟢При чистом IO (например, LLM‑агенты 5/95) разумнее оставаться на async; при типичных нагрузках <1000 конкурентных запросов решающей разницы нет.


Все цифры - из измерений автора статьи, на твоих задачах результаты могут отличаться.
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁1