NEW BOT Телеграм, страница - 754722207

🔋 Труба данных

@ohmydataengineer

4.05K subscribers

330 photos

5 videos

9 files

451 links

Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov

Download Telegram

About

Blog

Apps

Platform

🔋 Труба данных

4.05K subscribers

🔋 Труба данных

@ohmydataengineer - канал "🕯Труба Данных" и очередной пятничный юмор!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13😢6💩4

2.73K viewsSimon Osipov, 07:59

🔋 Труба данных

ZooKeeper Deprecation

With the release of Apache Kafka 3.5, Zookeeper is now marked deprecated. Removal of ZooKeeper is planned in the next major release of Apache Kafka (version 4.0), which is scheduled to happen no sooner than April 2024. During the deprecation phase, ZooKeeper is still supported for metadata management of Kafka clusters, but it is not recommended for new deployments.

Пересаживаемся на KRaft. И слава богу. https://kafka.apache.org/documentation/#kraft

P.S. Зукипер был главнюком 14(!!) лет в деплойментах Кафки.

@ohmydataengineer - канал "🕯Труба Данных" никогда не любил зукипер!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4🔥3

2.85K viewsSimon Osipov, edited 16:20

🔋 Труба данных

https://blog.2minutestreaming.com/p/apache-kafka-4-0-release

Что касается изменений в 4.0 у Кафки (релиз состоялся), уход на покой Zookeeper не самый горячий пирожочек.
А вот это - да.

KIP-932: Queues (EA) 🚇
Perhaps the hottest new feature, Queues introduces a new type of consumer group - the Share Consumer - that gives you queue-like semantics:
1. per-message acknowledgement/retries
2. ability to have many consumers collaboratively share progress reading from the same partition (previously, only one consumer per consumer group could read a partition at any time)

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

2 Minute Streaming

Announcing Apache Kafka 4.0

see the top 3 features, and some trivia around other major releases

👍12🔥5❤2

2.85K viewsSimon Osipov, 09:46

🔋 Труба данных

https://x-x.codes/posts/100-tips-on-how-to-use-me/

Если вам удалось попробовать заниматься разработкой с агентами, то вот прекрасный набор советов о том, как этот процесс ускорить и улучшить.
По себе могу заметить, как изменился flow разработки, в очень интересном мире мы живем 🤪

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

100 tips on how to use me (from ai agent)

100 Tips on How to Use Me (From AI Agent)
Getting Started

Start with clear, specific goals rather than vague requests.
Do: Specify the exact problem, component, file location, and expected behavior.
Don’t: Ask for general solutions like “Fix my app” without…

👍12💩2

3.17K viewsSimon Osipov, 08:51

🔋 Труба данных

In most businesses, data producers have no idea who their consumers are or why they need the data in the first place. They are unaware of which data is important for AI/BI, nor do they understand what it should look like. Platform teams are rarely informed about how their infrastructure is being leveraged and have little knowledge of the business context surrounding data, while consumers have business context but don't know where the data is coming from or whether or not it's quality.

Is it any wonder that data management programs are a complete, disjointed mess?

Читаешь иногда статьи, а там режут как по живому...

👍24😢5💩2🥱2

2.26K viewsSimon Osipov, 08:41

🔋 Труба данных

Forwarded from Клуб CDO

Команда ClickHouse наконец-то выпустила официальный коннектор к Tableau!

Проверено - работает! Правда не верьте тексту в официльном блоге (ниже), коннектор работает только с JDBC драйвером версии v0.4.6, а не с последней версией, как указано в инструкции ниже.

https://clickhouse.com/blog/announcing-clickhouse-connector-tableau#what-about-tableau-cloud

Announcing the official ClickHouse Connector for Tableau

Have you been looking to visualize data stored in ClickHouse with Tableau? Today, you can with the launch of the official ClickHouse Tableau Connector!

🔥12💩5

2.3K viewsSimon Osipov, 11:59

🔋 Труба данных

Стараемся не пропускать все-таки пятничный юмор!

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥31💩8

2.44K viewsSimon Osipov, 10:24

🔋 Труба данных

Astronomer (это который главный контрибуток в Airflow) заопенсорсил новые декораторы:

➡️ @task.llm: Define a task that calls an LLM
➡️ @task.agent: Define a task that calls an agent
➡️ @task.llm_branch: Control flow of a DAG based on LLM outputs.

По ссылке в репе https://github.com/astronomer/airflow-ai-sdk есть примеры
1️⃣ Deep research: Use duckdb to generate a research report
2️⃣ Email generation: Generates personalized email prospects
3️⃣ Github changelog: Summarize the commits to the Airflow project
4️⃣ Product Feedback Summarization: The project's name says it all
5️⃣ Support Ticket Routing: Routes support tickets to the correct department

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - astronomer/airflow-ai-sdk: An SDK for working with LLMs and AI Agents from Apache Airflow, based on Pydantic AI

An SDK for working with LLMs and AI Agents from Apache Airflow, based on Pydantic AI - astronomer/airflow-ai-sdk

🔥14👍8💩4❤1👎1

2.43K viewsSimon Osipov, 08:19

🔋 Труба данных

https://news.1rj.ru/str/ohmydataengineer/636

Помните, недавно рассказывал про парня, который сделал тулзу чтобы хакать литкод интервью и все завиралилось?
По его словам, Амазон пригрозил университету "Или исключайте челика, или мы больше не нанимаем из вашего вуза". И его исключили.

https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

💩31😢8🔥4👍2

2.58K viewsSimon Osipov, 08:14

🔋 Труба данных

https://buf.build/product/bufstream

Какое-то время назад говорил про "немного медленней и сильно дешевле" альтернативу Kafka - Warpstream. Потому что данные в объектном хранилище.

Так вот еще одно похожее решение, еще и с Iceberg - Bufstream.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!

Please open Telegram to view this post

VIEW IN TELEGRAM

Bufstream - Buf

Guarantee streaming data quality and slash cloud costs 10x with Bufstream, a drop-in replacement for Apache Kafka®.

💩17👍1

2.51K viewsSimon Osipov, 06:46

🔋 Труба данных

Две важные новости в канале:
- с сегодняшнего дня в нем появится реклама, мне надо ипотеку в России закрыть
- это последний пост, на который можно будет поставить 💩

Please open Telegram to view this post

VIEW IN TELEGRAM

💩176👍14😢6🔥5🥱5❤2👎2

2.17K viewsSimon Osipov, 06:17

🔋 Труба данных

https://jsonbench.com

В 25.3 JSON нативный тип станет general available в Clickhouse. Судя по метрикам, для аналитики это райский рай.

Методология и датасеты для проверки доступны там же по ссылке.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12💩11👍6

2.38K viewsSimon Osipov, 07:21

🔋 Труба данных

Forwarded from Laptop Coach (Kirill Serykh)

Что-то пропустил это видео: очень классная презентация от DS Пармы про то, как работать с трекинговыми данными и как масштабировать инфраструктурные решения (на примере AWS). [если техническая часть не интересует - пропускайте следующий абзац]

В целом, брать спотовые инстансы и скейлиться горизонтально - хорошее решение, особенно когда все надо пост-матч (а это скаутинг). Но вот когда будет переход на лайв и если будет скелетал, объемы данных возрастут сильно на одну игру (например, по одному крупному провайдеру в лайве с 140+ метров в json / xml до 13 гигов, пост-матч с 50 метров до 730 метров в паркетах), нужен будет нормальный месседж брокер, а лайв потребует serverless из-за быстроты. Это будет отдельный уровень удовольствия, но если думать заранее, то в целом ничего страшного нет.

С 28 минуты можно посмотреть примеры красивых скаутинговых, предматчевых и послематчевых отчетиков в Tableau, как итог выхлопа всей инфры + смеси разных данных (Transfermarkt, Statsbomb, StatsPerform). Выглядит очень и очень приятно.

https://www.youtube.com/watch?v=wZ96Y6j0rzU

Yannis Moudere - Enhancing Event Analysis at Scale: Leveraging Tracking Data in Sports

PyData Eindhoven 2024 - PySport Track

Learn how to automate the generation of contextual metrics from tracking data to enrich event analysis, handling the influx of games arriving daily in an efficient way by scaling-out the entire architecture.

In the…

👍7

2.69K viewsSimon Osipov, 07:42

🔋 Труба данных

https://langfuse.com/blog/2025-03-19-ai-agent-comparison

Тема агентов будет очень горячая в 2025 году, "AI Agent for X" будет самым популярным слоганом маркетинговым.
Давайте погружаться, что уж...

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Comparing Open-Source AI Agent Frameworks - Langfuse Blog

Get an overview of the leading open-source AI agent frameworks—LangGraph, OpenAI Agents SDK, Smolagents, CrewAI, AutoGen, Semantic Kernel, LlamaIndex agents, Strands Agents, and Pydantic AI agents. Compare features, learn when to use each, and see how to…

👍4💩3

3.35K viewsSimon Osipov, 07:14

🔋 Труба данных

https://vutr.substack.com/p/i-spent-5-hours-understanding-how

Не в первый (и точно не в последний раз) советую статьи из этого блога. Сегодня - Uber и Apache Hudi и про то, как это работает на их масштабах.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

I spent 5 hours understanding how Uber built their ETL pipelines.

Spoiler: They don't use batch or stream pipelines

👍10🔥6

3.15K viewsSimon Osipov, 11:45

🔋 Труба данных

🔥25👍5❤3

2.77K viewsSimon Osipov, 07:23

🔋 Труба данных

https://topicpartition.io/blog/kip-1150-diskless-topics-in-apache-kafka

Помните я вам рассказывал про брокеры сообщений, которые пишут в S3? Warpstream и Bufstream

Так вот сама и в Kafka есть KIP-1150 и Diskless Topics (гусары, молчать!) 🤪

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

KIP-1150 in Apache Kafka is a big deal (Diskless Topics)

TL;DR KIP-1150 introduces Diskless Kafka topics that write directly to S3 instead of replicating between brokers. It literally reduces costs by 97% (from $1.8M to $20K annually for a 1GiB/s cluster) and brings operational benefits for diskless topics like:…

🔥7👍4

2.27K viewsSimon Osipov, 07:15

🔋 Труба данных

https://www.seangoedecke.com/ai-security/

Достаточно небольшая, но циничная статья про то, как "безопасно" вайб-кодить. Ведь это уже далеко не просто общение с чатиком, а агентские модели и deep search и всякие supply-chain attacks вполне себе возможны.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

Principles for coding securely with LLMs

Writing code with LLMs is fundamentally different from other ways of programming. LLMs are often non-deterministic and always unpredictable. They have a…

👍5🥱2🔥1

2.18K viewsSimon Osipov, 07:25

🔋 Труба данных

https://github.com/apache/airflow/releases/tag/3.0.0

Приехало 🥹

Release Airflow 3.0.0 · apache/airflow

📣 We are proud to announce the General Availability of Apache Airflow® 3.0, the most significant release in the project’s history.
Airflow 3.0 builds on the foundation of Airflow 2 and introduces a...

🔥26❤7😢1

2.36K viewsSimon Osipov, 16:01

🔋 Труба данных

https://github.com/duckdb/duckdb-encodings

Если вы вдруг используете DuckDB, то с v1.3 можно будет прочитать CSV в более чем 1000 кодировках.

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - duckdb/duckdb-encodings

Contribute to duckdb/duckdb-encodings development by creating an account on GitHub.

🔥16❤1

2.2K viewsSimon Osipov, 07:25