NEW BOT Телеграм, страница

🔋 Труба данных

https://buf.build/product/bufstream

Какое-то время назад говорил про "немного медленней и сильно дешевле" альтернативу Kafka - Warpstream. Потому что данные в объектном хранилище.

Так вот еще одно похожее решение, еще и с Iceberg - Bufstream.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!

Please open Telegram to view this post

VIEW IN TELEGRAM

buf.build

Bufstream - Buf

Guarantee streaming data quality and slash cloud costs 10x with Bufstream, a drop-in replacement for Apache Kafka®.

💩17👍1

2.51K viewsSimon Osipov, 06:46

🔋 Труба данных

Две важные новости в канале:
- с сегодняшнего дня в нем появится реклама, мне надо ипотеку в России закрыть
- это последний пост, на который можно будет поставить 💩

Please open Telegram to view this post

VIEW IN TELEGRAM

💩176👍14😢6🔥5🥱5❤2👎2

2.17K viewsSimon Osipov, 06:17

🔋 Труба данных

https://jsonbench.com

В 25.3 JSON нативный тип станет general available в Clickhouse. Судя по метрикам, для аналитики это райский рай.

Методология и датасеты для проверки доступны там же по ссылке.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12💩11👍6

2.38K viewsSimon Osipov, 07:21

🔋 Труба данных

Forwarded from Laptop Coach (Kirill Serykh)

Что-то пропустил это видео: очень классная презентация от DS Пармы про то, как работать с трекинговыми данными и как масштабировать инфраструктурные решения (на примере AWS). [если техническая часть не интересует - пропускайте следующий абзац]

В целом, брать спотовые инстансы и скейлиться горизонтально - хорошее решение, особенно когда все надо пост-матч (а это скаутинг). Но вот когда будет переход на лайв и если будет скелетал, объемы данных возрастут сильно на одну игру (например, по одному крупному провайдеру в лайве с 140+ метров в json / xml до 13 гигов, пост-матч с 50 метров до 730 метров в паркетах), нужен будет нормальный месседж брокер, а лайв потребует serverless из-за быстроты. Это будет отдельный уровень удовольствия, но если думать заранее, то в целом ничего страшного нет.

С 28 минуты можно посмотреть примеры красивых скаутинговых, предматчевых и послематчевых отчетиков в Tableau, как итог выхлопа всей инфры + смеси разных данных (Transfermarkt, Statsbomb, StatsPerform). Выглядит очень и очень приятно.

https://www.youtube.com/watch?v=wZ96Y6j0rzU

YouTube

Yannis Moudere - Enhancing Event Analysis at Scale: Leveraging Tracking Data in Sports

PyData Eindhoven 2024 - PySport Track

Learn how to automate the generation of contextual metrics from tracking data to enrich event analysis, handling the influx of games arriving daily in an efficient way by scaling-out the entire architecture.

In the…

👍7

2.69K viewsSimon Osipov, 07:42

🔋 Труба данных

https://langfuse.com/blog/2025-03-19-ai-agent-comparison

Тема агентов будет очень горячая в 2025 году, "AI Agent for X" будет самым популярным слоганом маркетинговым.
Давайте погружаться, что уж...

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Langfuse

Comparing Open-Source AI Agent Frameworks - Langfuse Blog

Get an overview of the leading open-source AI agent frameworks—LangGraph, OpenAI Agents SDK, Smolagents, CrewAI, AutoGen, Semantic Kernel, LlamaIndex agents, Strands Agents, and Pydantic AI agents. Compare features, learn when to use each, and see how to…

👍4💩3

3.35K viewsSimon Osipov, 07:14

🔋 Труба данных

https://vutr.substack.com/p/i-spent-5-hours-understanding-how

Не в первый (и точно не в последний раз) советую статьи из этого блога. Сегодня - Uber и Apache Hudi и про то, как это работает на их масштабах.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

I spent 5 hours understanding how Uber built their ETL pipelines.

Spoiler: They don't use batch or stream pipelines

👍10🔥6

3.15K viewsSimon Osipov, 11:45

🔋 Труба данных

🔥25👍5❤3

2.78K viewsSimon Osipov, 07:23

🔋 Труба данных

https://topicpartition.io/blog/kip-1150-diskless-topics-in-apache-kafka

Помните я вам рассказывал про брокеры сообщений, которые пишут в S3? Warpstream и Bufstream

Так вот сама и в Kafka есть KIP-1150 и Diskless Topics (гусары, молчать!) 🤪

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

TopicPartition

KIP-1150 in Apache Kafka is a big deal (Diskless Topics)

TL;DR KIP-1150 introduces Diskless Kafka topics that write directly to S3 instead of replicating between brokers. It literally reduces costs by 97% (from $1.8M to $20K annually for a 1GiB/s cluster) and brings operational benefits for diskless topics like:…

🔥7👍4

2.27K viewsSimon Osipov, 07:15

🔋 Труба данных

https://www.seangoedecke.com/ai-security/

Достаточно небольшая, но циничная статья про то, как "безопасно" вайб-кодить. Ведь это уже далеко не просто общение с чатиком, а агентские модели и deep search и всякие supply-chain attacks вполне себе возможны.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Seangoedecke

Principles for coding securely with LLMs

Writing code with LLMs is fundamentally different from other ways of programming. LLMs are often non-deterministic and always unpredictable. They have a…

👍5🥱2🔥1

2.18K viewsSimon Osipov, 07:25

🔋 Труба данных

https://github.com/apache/airflow/releases/tag/3.0.0

Приехало 🥹

GitHub

Release Airflow 3.0.0 · apache/airflow

📣 We are proud to announce the General Availability of Apache Airflow® 3.0, the most significant release in the project’s history.
Airflow 3.0 builds on the foundation of Airflow 2 and introduces a...

🔥26❤7😢1

2.36K viewsSimon Osipov, 16:01

🔋 Труба данных

https://github.com/duckdb/duckdb-encodings

Если вы вдруг используете DuckDB, то с v1.3 можно будет прочитать CSV в более чем 1000 кодировках.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - duckdb/duckdb-encodings

Contribute to duckdb/duckdb-encodings development by creating an account on GitHub.

🔥16❤1

2.2K viewsSimon Osipov, 07:25

🔋 Труба данных

https://flink.apache.org/2025/03/24/apache-flink-2.0.0-a-new-era-of-real-time-data-processing

Кстати, месяц назад случился еще один мажорный релиз - Flink 2.0

In the 2.0 release, Flink introduces several innovative features that address key challenges in real-time data processing and align with the growing demands of modern applications, including AI-driven workflows.
• The Disaggregated State Management architecture enables more efficient resource utilization in cloud-native environments, ensuring high-performance real-time processing while minimizing resource overhead.
• The introduction and refinement of Materialized Tables empower users to focus on business logic without needing to understand the complexities of stream processing or the differences between stream and batch execution modes, simplifying development and enhances productivity for users across various domains. Optimizations in Batch Execution mode provide a cost-effective alternative for scenarios where near-real-time or non-real-time processing is sufficient, expanding Flink’s versatility for diverse use cases.
• Additionally, the deep integration with Apache Paimon strengthens the Streaming Lakehouse architecture, making Flink a leading solution for real-time data lake use cases.
• As AI and LLMs continue to gain prominence, the demand for scalable, real-time data processing solutions grows. Flink 2.0’s advancements in performance, resource efficiency, and ease of use position it as a strong foundation for AI workflows, ensuring that Flink remains at the forefront of real-time data processing innovations.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

flink.apache.org

Apache Flink 2.0.0: A new Era of Real-Time Data Processing

Today, the Flink PMC is proud to announce the official release of Apache Flink 2.0.0! This marks the first release in the Flink 2.x series and is the first major release since Flink 1.0 launched nine years ago. This version is the culmination of two years…

🔥11❤2

2.51K viewsSimon Osipov, 07:25

🔋 Труба данных

subprocess.run

Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Python documentation

subprocess — Subprocess management

Source code: Lib/subprocess.py The subprocess module allows you to spawn new processes, connect to their input/output/error pipes, and obtain their return codes. This module intends to replace seve...

🔥16👍2❤1🥱1

2.6K viewsSimon Osipov, 07:25

🔋 Труба данных

https://dlthub.com

Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.

Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Dlthub

dltHub: ELT as Python Code

Write any custom data source, achieve data democracy, modernise legacy systems and reduce cloud costs.

🔥16👎1🥱1

2.42K viewsSimon Osipov, edited 07:25

🔋 Труба данных

https://github.com/apache/iceberg/releases

Apache Iceberg 1.9 релиз!

- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0

и еще по мелочи всякое... @ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

Releases · apache/iceberg

Apache Iceberg. Contribute to apache/iceberg development by creating an account on GitHub.

🔥9👍3❤1

2.49K viewsSimon Osipov, 07:21

🔋 Труба данных

https://www.change-data-capture.com

Если вам не удалось еще потрогать CDC, то вот отличная и наглядная песочница про то, как это работает.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥6💩5🥱1

2.85K viewsSimon Osipov, 08:29

🔋 Труба данных

https://www.getorchestra.io/

Очередной, cloud-based, не open-source, убийца Airflow. Ну или в данном случае - Dagster 🤪

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

www.getorchestra.io

Orchestra | Unified Control Plane for Data + Orchestration

Orchestra helps Data Teams connect any Data Tool to reliably and efficiently release data. Stop maintaining pipelines & start delivering value.

💩15

2.72K viewsSimon Osipov, 07:41

🔋 Труба данных

https://news.1rj.ru/str/leftjoin_insider/317

Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData 👍) и курсы, но сегодня не смог отказать коллеге с острова с поиском.

DE, Middle, ремоут пофиг где.
Все по ссылке выше.

За это злостное нарушение принципов я, возможно, получу, худи 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

LEFT JOIN Insider

Middle Data Engineer в LEFT JOIN
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно…

1💩14👍5❤1👎1

3.47K viewsSimon Osipov, 07:02

🔋 Труба данных

https://antirez.com/news/151

Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5💩1

3.02K viewsSimon Osipov, 07:52

🔋 Труба данных

https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketing

Очередная приятно-читаемая маготка про Clickhouse


6 billion rows synced per month
Data from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subnoscriptions)
Configuration from 800+ Kubernetes clusters managing around 400,000 pods
6-7 million rows of real-time data at any given moment
4 TB of new data ingested monthly

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

CloudQuery

How We Handle Billion-Row ClickHouse Inserts With UUID Range Bucketing | CloudQuery Blog

How we solved memory explosion issues in ClickHouse when processing billions of rows of cloud configuration data using an Insert-Splitter with UUID-range bucketing technique.

🔥2

2.83K viewsSimon Osipov, 07:42

About

Blog

Apps

Platform