NEW BOT Телеграм, страница

Apache Iceberg vs Delta Lake vs Hudi: выбор формата для AI/ML

Выбор правильного формата хранения данных имеет решающее значение для машинного обучения (ML) и аналитики. Неправильный выбор может привести к медленным запросам, плохой масштабируемости и проблемам с целостностью данных.

😕

Почему формат имеет значение?

Традиционные хранилища данных сталкиваются со следующими проблемами:
🔜 Отсутствие транзакций ACID - риск конфликтов чтения/записи
🔜 Отсутствие управления версиями данных — трудно отслеживать изменения
🔜 Медленные запросы — большие наборы данных замедляют аналитику

▶️

Apache Iceberg — решение для аналитики и пакетной обработки

📌 Зачем?

✔️ Обработка исторических наборов данных
✔️ Необходимость оптимизации запросов и развития схемы
✔️ Пакетная обработка является приоритетом

📌 Преимущества

✔️ ACID-транзакции с моментальной изоляцией
✔️ Возможность вернуться в прошлое - восстановление предыдущих версий данных
✔️ Скрытое разделение - ускоряет запросы
✔️ Поддержка Flink, Trino, Presto, Spark ⭐️

📌 Использование

✔️ BI и анализ тенденций
✔️ Хранение данных для обучения модели машинного обучения
✔️ Логи аудита и сценарии отката

▶️

Delta Lake — решение для рабочих нагрузок, связанных с AI, ML и потоковыми данными

📌 Зачем?

✔️ Потоковая передача данных имеет решающее значение для ML
✔️ Нужны настоящие транзакции ACID
✔️ Работа в основном с Apache Spark ⭐️

📌 Преимущества

✔️ Глубокая интеграция со Spark ⭐️
✔️ Инкрементальные обновления (позволяют избежать полной перезаписи набора данных)
✔️ Z-Ordering – группирует похожие данные для более быстрых запросов
✔️ Возможности отката и восстановления

📌 Использование

✔️ Конвейеры машинного обучения в реальном времени (обнаружение мошенничества, прогнозная аналитика)
✔️ Рабочие процессы ETL
✔️ Обработка данных IoT и логи

▶️

Apache Hudi — решение для обновлений в реальном времени

📌 Зачем?

✔️ Необходимость быстрой аналитики в реальном времени
✔️ Данные нуждаются в частых обновлениях
✔️ Работа с Apache Flink, Spark ⭐️ или Kafka

📌 Преимущества

✔️ Транзакции ACID и управление версиями
✔️ Слияние при чтении (MoR) – обновление без перезаписи целых наборов данных
✔️ Оптимизировано для машинного обучения в реальном времени (обнаружение мошенничества, рекомендации)
✔️ Поддержка микро-пакетирования и потоковой передачи

📌 Использование

✔️Обнаружение мошенничества (банковские операции, мониторинг безопасности)
✔️ Рекомендательные системы (электронная коммерция, стриминговые сервисы)
✔️ AdTech (торги в реальном времени, персонализированная реклама)

🧐 Какой формат лучше всего подходит для AI/ML?

😀

Iceberg — для исторических данных и бизнес-аналитики

😀

Delta Lake — для AI/ML, потоковой передачи и Apache Spark ⭐️

✔️

Hudi — для частых обновлений и машинного обучения в реальном времени (обнаружение мошенничества, рекомендации, AdTech)

🔜 Полный обзор можно найти в статье по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

delta.io

Home | Delta Lake

2❤‍🔥7👏32

500 views07:45

#meme #ai #llm

😁9

481 views15:36

#meme #ai

😁10

412 views04:14

📊

Как избежать хаоса с данными?
Способы обеспечения согласованности показателей в хранилище

Если ты работаешь с аналитикой, ты, вероятно, сталкивался с ситуацией, когда один и та же метрика рассчитывается по-разному в разных отделах. Это приводит к путанице, снижает доверие к данным и замедляет процесс принятия решений. Расскажу основные причины этой проблемы и два эффективных варианта решения.

🧐

Почему показатели расходятся?
Причина кроется в спонтанном росте аналитики:
🔘 Аналитик пишет SQL-запрос для расчёта метрики.
🔘 Затем другие команды создают свои собственные версии на основе этого запроса, внося незначительные изменения.
🔘 Со временем возникают расхождения, и команда аналитики тратит всё больше и больше времени на устранение несоответствий.

Чтобы избежать такой ситуации, стоит внедрить единые стандарты управления метриками.

✏️

Два подхода к обеспечению согласованности

▶️

Семантический слой
Это промежуточный слой между данными и инструментами аналитики, где метрики определяются централизованно. Они хранятся в статических файлах (например, YAML) и используются для автоматической генерации SQL-запросов.

🙂 Плюсы:
✔️ Гибкость — адаптируется к различным запросам без предварительного создания таблиц.
✔️ Прозрачность — единые определения доступны для всех команд.
✔️ Актуальность — данные обновляются в режиме реального времени.

🙄 Минусы:
✖️ Требует инвестиций в инфраструктуру и оптимизацию.
✖️ Может увеличить нагрузку на вычисления (это ты сможешь решить с помощью кэширования).

📌 Пример инструмента: Cube.js - одно из немногих зрелых open-source решений.

▶️

Предварительно агрегированные таблицы
Здесь заранее создаются таблицы с предварительно вычисленными метриками и фиксированными измерениями.

🙂 Плюсы:
✔️ Простая реализация, удобная для небольших проектов.
✔️ Экономия вычислительных ресурсов.
✔️ Полный контроль над вычислениями.

🙄 Минусы:
✖️ Сложно поддерживать по мере увеличения количества пользователей.
✖️ Возможны расхождения, если метрики определены в разных таблицах.

😎 Какой метод выбрать?
Оптимальный подход - гибридное использование:
🔘 Реализуй семантический слой для масштабируемости.
🔘 Используй предварительно агрегированные таблицы для критических показателей, где важна минимальная стоимость вычислений.

#de #engineering #chaos

Please open Telegram to view this post

VIEW IN TELEGRAM

cube.dev

Cube: Agentic Analytics Platform

Cube, the universal semantic layer, makes it easy to connect BI silos, embed analytics, and power your data data apps and AI with context.

6👏2❤‍🔥1

435 views18:02

Forwarded from DataEng

Курс AI Agents от Microsoft

Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.

ai-agents-for-beginners

AI Agents for Beginners - A Course

12 Lessons to Get Started Building AI Agents

❤‍🔥7

404 views18:34

#ai #llm #meme

😁13👏3

515 views09:38

😁101

552 views21:46

#sql #injection #meme

😁13

619 views09:20

Сколько часов ты спал?

#meme

😁6

597 views06:28

#ai #meme #api

😁9

460 views10:35

Forwarded from Павленко про Dev & AI

OpenAI показали свои новые модели GPT-4.1, GPT-4.1 mini и GPT-4.1 nano

В чате их не будет: они только для разработчиков в API. У всех трех моделей контекст 1 миллион токенов, для OpenAI это впервые. Знания до 1 июля 2024.

Эти модели тренировали специально, чтобы они были эффективны в задачах связанных с разработкой. В честь запуска Cursor и Windsurf дают попользоваться этими моделями совершенно бесплатно 🆓

❤‍🔥8

447 views16:41

MathArena: https://matharena.ai/

❤‍🔥5

407 views06:13

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

#ai #meme #llm #gpt #chatgpt #task #deadline

😁10

420 viewsedited 07:50

#meme #java #asm #python

😁9

401 views09:48

Forwarded from Dealer.AI

AirFlow, MLFlow, DVC, ClearML?? Пффф. IstructPipe от Google!!!

Вот тебе шкет, к вайб кодингу еще и вайб пайпинг. Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию. 🤣

🤣

Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.

https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥7

395 views22:42

🚀 Airflow 3.0.0 уже здесь!

Что нового?

🧩 Микросервисная архитектура

⚡ Событийное планирование

🧬 Версионирование DAG'ов

🖥️ Новый интерфейс на React

🔐 Улучшенная безопасность

🌍 Удалённое выполнение задач

🐍 Поддержка только Python 3.9+

🔗 Подробнее: Релиз Airflow 3.0.0

#ApacheAirflow #DataEngineering #Airflow3 #WorkflowOrchestration

https://github.com/apache/airflow/releases/tag/3.0.0

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

Release Airflow 3.0.0 · apache/airflow

📣 We are proud to announce the General Availability of Apache Airflow® 3.0, the most significant release in the project’s history.
Airflow 3.0 builds on the foundation of Airflow 2 and introduces a...

❤‍🔥6

356 views10:07

About

Blog

Apps

Platform