NEW BOT Телеграм, страница

Статья Data Warehouse, Data Lake, Data Lakehouse, Data Mesh: What They Are and How They Differ

⏩Склад данных (DWH) — про централизованную чистую аналитику и жёсткие схемы

⏩Озеро (Data Lake) — про гибкость и дешёвое хранение сырья

⏩Лейкхаус (DLH) — пытается объединить их на объектном хранилище с ACID

⏩Меш (DataMesh) — не технология, а оргмодель с доменным владением данными

Выбор зависит от типа данных, требований к скорости/качества и зрелости команды.

〰️

🌙

Как отличаются подходы

🌙

1️⃣ Data Warehouse (DWH) — "чистая кухня" для BI
Централизованное, чтение-оптимизированное хранилище под OLAP‑аналитику и отчёты. Схема фиксируется на записи (schema‑on‑write), сильные гарантии качества и согласованности (ACID), быстрые агрегации. Лучше всего отвечает на "известные вопросы про известные данные".
✏️ Минусы: жёсткость к изменениям, дороговизна при росте, слабая работа с полуструктурой.

2️⃣ Data Lake — "сырьевой парк" для экспериментов
Складывает данные "как есть" (schema‑on‑read) — от логов и JSON до медиа, дёшево масштабируется на объектных сторах. Идеально для исследований и ML.
✏️ Риск: без управления качество деградирует в "болото", запросы часто медленнее, транзакционных гарантий нет.

3️⃣ Data Lakehouse — "самолёт‑гибрид"
Один слой поверх дешёвого объектного стора + "табличный формат" (Delta/Hudi/Iceberg), который приносит ACID, снапшоты, эволюцию схем и ускорение запросов. Цель — гибкость озера c надёжностью склада.
✏️ Ограничения: зрелость стеков, сложность внедрения, иногда уступает специализированному DWH по перформансу.

4️⃣ Data Mesh — "микросервисы для данных"
Это не новый стор, а операционная модель: доменные команды владеют данными как продуктами, есть самосервисная платформа и федеративная (программируемая) дата‑гавернанс.
✏️ Хорош в больших организациях с автономными командами; требует культуры и инвестиций в платформу.

〰️

❓

Когда что выбирать — ориентиры

❗️ У тебя отчётность и стабильные метрики, много SQL‑пользователей, высокие требования к "единой правде": начни с DWH (или с легковесной его версии в облаке).

❗️ Много полуструктуры/неструктуры, активный ML/DS, дешёвое "историческое" хранение сырья критично: ставь Data Lake, но сразу добавляй управление качеством и метаданными, чтобы не получить "болото".

❗️ Нужно и то, и другое, а два стека — боль: бери Lakehouse на открытом табличном формате (Delta/Iceberg/Hudi) — один слой, ACID, time‑travel, апгрейд до "медальонов".

❗️ У тебя много доменов и центральная дата‑команда — узкое горло: добавляй Data Mesh как орг‑надстройку (поверх DWH/Lake/Lakehouse), но не недооценивай стоимость самосервиса и федеративной политики.

👌

Пример из жизни продукта

Представь маркетплейс:
🟡 BI‑команда хочет "вчера к утру" отчёты по GMV/конверсии 🔜 витрины/март в DWH.
🟡 DS‑команда обучает рекомендашки на кликах/поисковых логах/изображениях 🔜 сырые/серебряные слои в Lakehouse на Iceberg/Delta.
🟡 Бизнес растёт, появляются автономные направления (Поиск, Логистика, Финансы) 🔜 они публикуют доменные "данные‑как‑продукт" (контракты, версии, SLO), а платформа обеспечивает каталог, lineage, права и качество ➡️ это уже Data Mesh поверх твоего Lakehouse.

⚡️

Что важно унести из статьи

Автор трезво разводит технологии и организацию:
🟢Lakehouse решает техническую боль разрыва "озеро↔склад"
🟢Mesh — организационную боль централизованных "бутылочных горлышек".

Серебряных пуль нет: стоимость владения и зрелость команды решают не меньше, чем выбор логотипа на диаграмме. Рекомендую прочитать оригинал.

#DE #DWH #DataWareHouse #DL #DataLake #DLH #LakeHouse #Mesh #DataMesh

Please open Telegram to view this post

VIEW IN TELEGRAM

2👏7❤‍🔥31

267 views22:57

Forwarded from DataEng

Доклады с Airflow Summit 2025

Подъехали доклады с прошедшей не так давно конференции Airflow Summit 2025, много вкусного, будет что посмотреть по вечерам:

— Airflow at OpenAI
— Benchmarking the Performance of Dynamically Generated DAGs
— Airflow That Remembers: The Dag Versioning Era is here!
— DAGLint: Elevating Airflow DAG Quality Through Automated Linting
— Allegro's Airflow Journey: From On-Prem to Cloud Orchestration at Scale
— Deadline Alerts in Airflow 3.1
— Beyond Logs: Unlocking Airflow 3.0 Observability with OpenTelemetry Traces
— Introducing Apache Airflow® 3 – The Next Evolution in Orchestration
— Security made us do it: Airflow’s new Task Execution Architecture
— Unlocking Event-Driven Scheduling in Airflow 3

Полный список видео смотрите на Ютуб канале — Apache Airflow

YouTube

Airflow at OpenAI - Airflow Summit 2025

Presented by Ping Zhang, Howie Wang at Airflow Summit 2025.

This talk shares how we scaled and hardened OpenAI’s Airflow deployment to orchestrate thousands of workflows on Kubernetes.
We’ll cover key architecture choices, scaling strategies, and reliability…

234 views07:32

Gemini 3.0 ломает интернет — и делает «теорию мёртвого интернета» не такой уж теорией 🤯

Сейчас по X летает формулировка:

Gemini 3.0 is breaking the internet. Users reported that this model is from another world. 10 unbelievable examples.

Теория мёртвого интернета говорит, что бóльшая часть контента онлайн уже давно создаётся не людьми, а ботами, нейросетями и фермами трафика. Раньше это звучало как полуконспирология.

Но с моделями уровня Gemini 3.0 / GPT-5.x / Claude 4.x мы реально подходим к точке, где:

🔘посты, комменты, обзоры и даже «личные истории» можно генерить пачками;

🔘инфополе забивается не тем, что важно, а тем, что легко сгенерировать;

🔘человеку всё сложнее отличить живой опыт от очень качественной симуляции.

Получается парадокс:
чем мощнее становятся модели, тем меньше "живого интернета" у нас остаётся. Лента ощущается насыщеннее, но живых голосов там всё меньше.

И на этом фоне вопрос уже не «какой ИИ лучше», а как не превратиться в статиста в мире, где львиная доля контента — синтетика.

❓Как тебе такое: через пару лет большинство того, что ты читаешь в ленте, будет написано моделями уровня Gemini 3.0 — норм или крипово?

#deadInternettheory #AI #LLM #теориямёртвогоинтернета #ИИ #БЯМ

Please open Telegram to view this post

VIEW IN TELEGRAM

110

252 views17:18

📕

Dagster выкатил Scaling Data Teams — практическое руководство по масштабированию дата-команд

В этой книге собраны реальные сценарии того, как дата-команды растут: от одного специалиста до полноценной платформы с десятками инженеров.

〰️

🙂

Почему стоит прочитать

Помогает ответить на вопрос: «Как построить такую платформу, чтобы она масштабировалась не хаотично, а с ясностью, надёжностью и уверенностью?»

Не теория, а ориентир: описаны этапы роста — 1, 5, 10, 20 человек.

Разбирает технологический стек и архитектуру таких инструментов как dbt, dlt, Sling, DuckDB и др.

〰️

📌

Ключевые моменты

1️⃣ Этап «1 человек» — как действовать, пока платформа почти не сформирована: выбирать инструменты, делать архитектурные решения, которые не убьют рост.

2️⃣ Этап «5-10 человек» — важность качества, тестирования, рабочих процессов и модульного дизайна.

3️⃣ Этап «20 человек» и больше — как платформа становится инфраструктурой: управление, кросс-командная работа, строгие guardrails.

4️⃣ Архитектурный обзор: современный стек данных, оркестрация, загрузка, трансформация, аналитика.

〰️

✔️

Что можно применить прямо сейчас

⏩ Посмотри на свою текущую команду и платформу: на каком ты этапе?

⏩ Проверь, не делаешь ли архитектурные решения «как для 1 человека», в то время как фактически рост уже требует другого подхода.

⏩ Внедри практики тестирования и процессов, которые подходят не только сейчас, но и под будущий рост.

⏩ Обрати внимание: инструменты могут быть важны, но правильное время для их внедрения и синхронизация с ростом команды — ключ к успеху.

〰️

✏️

Для кого эта книга особенно полезна

➡️ Руководителям дата-инженерных или платформенных команд, которые думают о росте.

➡️ Платформенным дата-инженерам и технологическим лидерам, которые хотят улучшить процессы и архитектуру.

➡️ Организациям, которые понимают — просто больше данных или больше инструментов не решат проблему, пока не построены процессы и культура.

#book #dataengineering #data #dataengineer #engineer #данные #книга #инженерияданных #датаинженер #инженер

Please open Telegram to view this post

VIEW IN TELEGRAM

6❤‍🔥1👏1

244 views05:39

Forwarded from Находки в опенсорсе

Breaking news

В CPython предлагают добавить Rust: https://discuss.python.org/t/pre-pep-rust-for-cpython/104906

Пример кода: https://github.com/emmatyping/cpython/pull/13/files


#[unsafe(no_mangle)]
pub unsafe extern "C" fn b64encode(
    _module: *mut PyObject,
    args: *mut *mut PyObject,
    nargs: Py_ssize_t,
) -> *mut PyObject {
    if nargs != 1 {
        unsafe {
            PyErr_SetString(
                PyExc_TypeError,
                c"b64encode() takes exactly one argument".as_ptr(),
            );
        }
        return ptr::null_mut();
    }

    let source = unsafe { *args };
    let buffer = match unsafe { BorrowedBuffer::from_object(source) } {
        Ok(buf) => buf,
        Err(_) => return ptr::null_mut(),
    };

    let view_len = buffer.len();
    if view_len < 0 {
        unsafe {
            PyErr_SetString(
                PyExc_TypeError,
                c"b64encode() argument has negative length".as_ptr(),
            );
        }
        return ptr::null_mut();
    }
    let input_len = view_len as usize;
    let input = unsafe { slice::from_raw_parts(buffer.as_ptr(), input_len) };

    let Some(output_len) = encoded_output_len(input_len) else {
        unsafe {
            PyErr_NoMemory();
        }
        return ptr::null_mut();
    };

    if output_len > isize::MAX as usize {
        unsafe {
            PyErr_NoMemory();
        }
        return ptr::null_mut();
    }

    let result = unsafe {
        PyBytes_FromStringAndSize(ptr::null(), output_len as Py_ssize_t)
    };
    if result.is_null() {
        return ptr::null_mut();
    }

    let dest_ptr = unsafe { PyBytes_AsString(result) };
    if dest_ptr.is_null() {
        unsafe {
            Py_DecRef(result);
        }
        return ptr::null_mut();
    }
    let dest = unsafe { slice::from_raw_parts_mut(dest_ptr.cast::<u8>(), output_len) };

    let written = encode_into(input, dest);
    debug_assert_eq!(written, output_len);
    result
}

Discussions on Python.org

Pre-PEP: Rust for CPython

Introduction We (@emmatyping, @eclips4) propose introducing the Rust programming language to CPython. Rust will initially only be allowed for writing optional extension modules, but eventually will become a required dependency of CPython and allowed to be…

421

216 views16:27

Forwarded from DataEng

Orchestrate LLMs and Agents with Apache Airflow.pdf

2.6 MB

Orchestrate LLMs and Agents with Apache Airflow®

Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.

181

202 views16:28

Forwarded from Data Secrets

Андрей Карпаты: «ИИ – это ПО 2.0, и оно автоматизирует то, что можно проверить»

Понравился свежий емкий пост Карпаты на вечную тему автоматизации в эпоху ИИ. Подготовили сокращенный перевод:

ИИ часто сравнивают с историческими прорывами: электричеством, промышленной революцией и тд. Но, по-моему, самая точная аналогия – ИИ как новая вычислительная парадигма, Software 2.0.

В обоих случаях речь про автоматизацию обработки цифровой информации. В 80-х автоматизировались задачи, которые сводились к механическому преобразованию информации по простым, чётко формализуемым правилам (например, бухгалтерия).

Сейчас же, с ИИ, мы можем автоматизировать то, что вручную описать невозможно, но можно проверить. Мы задаем таргет (например, accuracy) и с помощью градиентного спуска ищем в пространстве алгоритмов нейросеть, которая оптимизирует этот таргет лучше всего.

Это и есть Software 2.0, и в этой парадигме ключевым факторов автоматизируемости задачи выступает ее проверяемость. Лучше всего можно автоматизировать именно то, что легко проверить.

Если задача непроверяема, останется надеяться на волшебную обобщающую способность нейросетей. Именно поэтому прогресс ИИ такой зубчатый: в проверяемых задачах прогресс стремительный (код, математика, головоломки), а вот многое другое отстает (творчество, стратегия, здравый смысл).

Software 1.0 легко автоматизирует то, что можно формально описать.
Software 2.0 легко автоматизирует то, что можно проверить.

❤‍🔥6

275 views17:30

Data Secrets

Андрей Карпаты: «ИИ – это ПО 2.0, и оно автоматизирует то, что можно проверить» Понравился свежий емкий пост Карпаты на вечную тему автоматизации в эпоху ИИ. Подготовили сокращенный перевод: ИИ часто сравнивают с историческими прорывами: электричеством…

Согласен.

💯1

262 views17:30

Согласен?

Anonymous Quiz

78%

Согласен

22%

🙅‍♀️

32 voters272 views17:31

Мы?

#dev #meme #cat

😁15

297 views06:40

#dev #ai #meme #llm

😁11

305 views10:19

Forwarded from Математика Дата саентиста

This media is not supported in your browser

VIEW IN TELEGRAM

✨ Превращай математику в живые анимации с Manim

Статические слайды — это хорошо, но сложные идеи гораздо легче объяснить через динамические визуализации.

Manim позволяет создавать профессиональные математические анимации в Python — такие же, как в видео 3Blue1Brown.

Что делает Manim мощным:

• MathTex — задаёт формулы в LaTeX
• Transform — плавно превращает одну формулу в другую
• play() и wait() — управляют ходом анимации
• Рендеринг одной командой:
manim -p -ql noscript.py

Manim — идеальный инструмент, когда нужно не просто показать формулу, а *объяснить идею* так, чтобы она оживала на экране.

https://docs.manim.community/en/stable/reference/manim.mobject.geometry.html#module-manim.mobject.geometry

275 views14:49

Forwarded from Борис опять

Для тех кто не понимает почему когда у AWS проблемы пол интернета падает, объясняю. Это тоже самое как когда в России выпадает снег и весь транспорт встает как будто зимы раньше никогда не случалось

8😁3

263 views15:17

#dev #meme #heroes3

3😁17❤‍🔥2👏1

316 views08:48

Forwarded from Время Валеры

Забавно, что outage Cloudflare был из-за SQL.

X (formerly Twitter)

swyx 🔜 NeurIPS + #DevWritersRetreat (@swyx) on X

cloudflare outage was due to one bad SQL statement that baked in an assumption it shouldnt have

can you spot the bug here? no. because SQL does not Make Wrong Code Look Wrong.

sometimes i wonder how many SEVs, performance issues and privacy leaks happen…

224 views16:08

Forwarded from New Yorko Times (Yury Kashnitsky)

This media is not supported in your browser

VIEW IN TELEGRAM

Первые ощущения от Antigravity
#google

Ну, космос, конечно. Покажи это себе самому образца 5-летней давности.

Как минимум три отличия Antigravity от привычной IDE с нависшим над ней кодинг-агентом:

- Можно запускать несколько агентов параллельно. Отдал одному фронт, второму бэк, третьему рисеч. Возвращаешься результат проверять;
- Antigravity сам запускает приложение в песочнице, тестирует, прям как человек, отчитывается, что сработало, что нет, потом пишет отчет в файлик Walkthrough. На видео как раз это происходит – когда браузер синей рамкой подсвечивается, это Antigravity захватил управление;
- приятные мелочи в виде отдельных файлов Task, Implementation Plan и Walkthrough, мысли и действия агентов еще более прозрачны.

Можно еще вот это видео глянуть, попробовать повторить.

Для демки с кубиком рубика пойдет, дальше надо попробовать в реальном проекте. Тут скепсис еще есть.

6❤‍🔥2👏1

262 views16:35

Forwarded from [30/100] Витя Тарнавский

Иду вчера по Льва Толстого, смотрю в случайное окно, а там...

Спасите роботов из офиса Яндекса! Свободу железным пацанам! 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7💯3

256 views16:52

🔥

Почему у тебя в DWH вечный ад — и как из него выйти❓

Если твои пайплайны ощущаются так:
🔘всё надо вчера
🔘таблицы рождаются как попало
🔘техдолг растёт быстрее, чем зарплата
🔘каждую ошибку в данных чинят в пожарном режиме

то проблема чаще не в инструментах, а в отсутствии простых стандартов моделирования.

Представь жизнь дата-инженера, где:

1️⃣ Пайплайны собираются быстро, но при этом предсказуемо.

2️⃣Таблицы не ломаются от любого чиха продуктовой команды.

3️⃣Бизнес тебя воспринимает как инженера системы, а не "того, кто SQL крутит".

В ближайших постах — 6 конкретных техник, которые позволяют:
🟡строить продовые таблицы быстро
🟡при этом не закапываться в техдолге
🟡прозрачно показывать свою ценность бизнесу

Будет без воды: только то, что реально можно утащить к себе в проект и начать применять.

〰️

🔘

Bus Matrix

🔘

Data Contract

🔘

Insert Only факты и snapshot-измерения

🔘

4 проверки данных, которые дают 80% пользы

🔘

Линейность (lineage)

🔘

Единый источник правды

🔘

Всё вместе

#dev #de #dwh

Please open Telegram to view this post

VIEW IN TELEGRAM

211

291 viewsedited 06:11

⚡️

Bus Matrix — как одним артефактом показать бизнесу, зачем ты вообще нужен

Бизнесу пофиг на "fact_orders" и "dim_customer". Ему важны процессы: продажи, возвраты, конверсия, отток.

Bus matrix — это одна табличка, которая переводит:

мы сделали ещё одну факт-таблицу

мы покрыли ещё один бизнес-процесс, и вот какие разрезы вы теперь можете видеть

Пример (Bike Parts магазин, упрощённо):
🔘Строки — бизнес-процессы: Заказы, Возвраты, Скидки
🔘Колонки — измерения: Клиент, Товар, Дата заказа, Дата доставки, Регион, …
🔘Ячейка — есть связь или нет

То есть ты буквально показываешь:
🟢"Вот тут у вас появилась аналитика по возвратам по регионам"
🟢"Вот здесь — скидки по клиентским сегментам"

Что даёт bus matrix:

1️⃣ Ты говоришь на языке бизнеса: «процессы и разрезы», а не «джойны и ключи».

2️⃣ Легко демонстрируешь прогресс: было 3 процесса, стало 7.

3️⃣ Это по сути мини-ERD, но понятный не только дата-инженерам.

Такую матрицу можно держать в Notion / Confluence и тыкать в неё на всех созвонах: