https://vutr.substack.com/p/i-spent-5-hours-understanding-how
Не в первый (и точно не в последний раз) советую статьи из этого блога. Сегодня - Uber и Apache Hudi и про то, как это работает на их масштабах.
@ohmydataengineer - канал "🕯 Труба Данных"
Не в первый (и точно не в последний раз) советую статьи из этого блога. Сегодня - Uber и Apache Hudi и про то, как это работает на их масштабах.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
I spent 5 hours understanding how Uber built their ETL pipelines.
Spoiler: They don't use batch or stream pipelines
👍10🔥6
https://topicpartition.io/blog/kip-1150-diskless-topics-in-apache-kafka
Помните я вам рассказывал про брокеры сообщений, которые пишут в S3? Warpstream и Bufstream
Так вот сама и в Kafka есть KIP-1150 и Diskless Topics (гусары, молчать!) 🤪
@ohmydataengineer - канал "🕯 Труба Данных"
Помните я вам рассказывал про брокеры сообщений, которые пишут в S3? Warpstream и Bufstream
Так вот сама и в Kafka есть KIP-1150 и Diskless Topics (гусары, молчать!) 🤪
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
TopicPartition
KIP-1150 in Apache Kafka is a big deal (Diskless Topics)
TL;DR KIP-1150 introduces Diskless Kafka topics that write directly to S3 instead of replicating between brokers. It literally reduces costs by 97% (from $1.8M to $20K annually for a 1GiB/s cluster) and brings operational benefits for diskless topics like:…
🔥7👍4
https://www.seangoedecke.com/ai-security/
Достаточно небольшая, но циничная статья про то, как "безопасно" вайб-кодить. Ведь это уже далеко не просто общение с чатиком, а агентские модели и deep search и всякие supply-chain attacks вполне себе возможны.
@ohmydataengineer - канал "🕯 Труба Данных"
Достаточно небольшая, но циничная статья про то, как "безопасно" вайб-кодить. Ведь это уже далеко не просто общение с чатиком, а агентские модели и deep search и всякие supply-chain attacks вполне себе возможны.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Seangoedecke
Principles for coding securely with LLMs
Writing code with LLMs is fundamentally different from other ways of programming. LLMs are often non-deterministic and always unpredictable. They have a…
👍5🥱2🔥1
https://github.com/duckdb/duckdb-encodings
Если вы вдруг используете DuckDB, то с v1.3 можно будет прочитать CSV в более чем 1000 кодировках.
@ohmydataengineer - канал "🕯 Труба Данных"
Если вы вдруг используете DuckDB, то с v1.3 можно будет прочитать CSV в более чем 1000 кодировках.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - duckdb/duckdb-encodings
Contribute to duckdb/duckdb-encodings development by creating an account on GitHub.
🔥16❤1
https://flink.apache.org/2025/03/24/apache-flink-2.0.0-a-new-era-of-real-time-data-processing
Кстати, месяц назад случился еще один мажорный релиз - Flink 2.0
@ohmydataengineer - канал "🕯 Труба Данных"
Кстати, месяц назад случился еще один мажорный релиз - Flink 2.0
In the 2.0 release, Flink introduces several innovative features that address key challenges in real-time data processing and align with the growing demands of modern applications, including AI-driven workflows.
• The Disaggregated State Management architecture enables more efficient resource utilization in cloud-native environments, ensuring high-performance real-time processing while minimizing resource overhead.
• The introduction and refinement of Materialized Tables empower users to focus on business logic without needing to understand the complexities of stream processing or the differences between stream and batch execution modes, simplifying development and enhances productivity for users across various domains. Optimizations in Batch Execution mode provide a cost-effective alternative for scenarios where near-real-time or non-real-time processing is sufficient, expanding Flink’s versatility for diverse use cases.
• Additionally, the deep integration with Apache Paimon strengthens the Streaming Lakehouse architecture, making Flink a leading solution for real-time data lake use cases.
• As AI and LLMs continue to gain prominence, the demand for scalable, real-time data processing solutions grows. Flink 2.0’s advancements in performance, resource efficiency, and ease of use position it as a strong foundation for AI workflows, ensuring that Flink remains at the forefront of real-time data processing innovations.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
flink.apache.org
Apache Flink 2.0.0: A new Era of Real-Time Data Processing
Today, the Flink PMC is proud to announce the official release of Apache Flink 2.0.0! This marks the first release in the Flink 2.x series and is the first major release since Flink 1.0 launched nine years ago. This version is the culmination of two years…
🔥11❤2
subprocess.run
Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪
@ohmydataengineer - канал "🕯 Труба Данных"
Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Python documentation
subprocess — Subprocess management
Source code: Lib/subprocess.py The subprocess module allows you to spawn new processes, connect to their input/output/error pipes, and obtain their return codes. This module intends to replace seve...
🔥16👍2❤1🥱1
https://dlthub.com
Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.
Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations
@ohmydataengineer - канал "🕯 Труба Данных"
Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.
Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Dlthub
dltHub: ELT as Python Code
Write any custom data source, achieve data democracy, modernise legacy systems and reduce cloud costs.
🔥16👎1🥱1
https://github.com/apache/iceberg/releases
Apache Iceberg 1.9 релиз!
- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0
и еще по мелочи всякое... @ohmydataengineer - канал "🕯 Труба Данных"
Apache Iceberg 1.9 релиз!
- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0
и еще по мелочи всякое... @ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Releases · apache/iceberg
Apache Iceberg. Contribute to apache/iceberg development by creating an account on GitHub.
🔥9👍3❤1
https://www.change-data-capture.com
Если вам не удалось еще потрогать CDC, то вот отличная и наглядная песочница про то, как это работает.
@ohmydataengineer - канал "🕯 Труба Данных"
Если вам не удалось еще потрогать CDC, то вот отличная и наглядная песочница про то, как это работает.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6💩5🥱1
https://www.getorchestra.io/
Очередной, cloud-based, не open-source, убийца Airflow. Ну или в данном случае - Dagster 🤪
@ohmydataengineer - канал "🕯 Труба Данных"
Очередной, cloud-based, не open-source, убийца Airflow. Ну или в данном случае - Dagster 🤪
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
www.getorchestra.io
Orchestra | Unified Control Plane for Data + Orchestration
Orchestra helps Data Teams connect any Data Tool to reliably and efficiently release data. Stop maintaining pipelines & start delivering value.
💩15
https://news.1rj.ru/str/leftjoin_insider/317
Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData👍 ) и курсы, но сегодня не смог отказать коллеге с острова с поиском.
DE, Middle, ремоут пофиг где.
Все по ссылке выше.
За это злостное нарушение принципов я, возможно, получу, худи 😁
Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData
DE, Middle, ремоут пофиг где.
Все по ссылке выше.
За это злостное нарушение принципов я, возможно, получу, худи 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
LEFT JOIN Insider
Middle Data Engineer в LEFT JOIN
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно…
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно…
1💩14👍5❤1👎1
https://antirez.com/news/151
Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL
@ohmydataengineer - канал "🕯 Труба Данных"
Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💩1
https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketing
Очередная приятно-читаемая маготка про Clickhouse
@ohmydataengineer - канал "🕯 Труба Данных"
Очередная приятно-читаемая маготка про Clickhouse
6 billion rows synced per month
Data from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subnoscriptions)
Configuration from 800+ Kubernetes clusters managing around 400,000 pods
6-7 million rows of real-time data at any given moment
4 TB of new data ingested monthly
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
CloudQuery
How We Handle Billion-Row ClickHouse Inserts With UUID Range Bucketing | CloudQuery Blog
How we solved memory explosion issues in ClickHouse when processing billions of rows of cloud configuration data using an Insert-Splitter with UUID-range bucketing technique.
🔥2
Разблокировалось тут забавное воспоминание!
Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?
Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.
Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂
У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное
>>> @roadofbugs_channel <<<
Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?
Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.
Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂
У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное
>>> @roadofbugs_channel <<<
👍12🔥5💩5
Forwarded from Клуб CDO
Comparing Analytics Engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
www.onehouse.ai
ClickHouse vs StarRocks vs Presto vs Trino vs Apache Spark™ — Comparing Analytics Engines
Read about how Apache Spark, ClickHouse, StarRocks, Presto, and Trino stack up against each other in terms of scalability, concurrency, and more.
👍9🔥7❤2
Исследование специалистов по работе с данными — 2025
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025
@ohmydataengineer
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025
@ohmydataengineer
Исследование специалистов DS/ML/AI-направлений, 2024
Исследование рынка специалистов DS/ML/AI-направлений, 2024
DevCrowd вместе с Контуром провели исследование рынка специалистов DS/ML/AI-направлений, 2024
💩6👍3❤2🔥2🥱1
https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse
Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack
@ohmydataengineer - канал "🕯 Труба Данных"
Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4