🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
In most businesses, data producers have no idea who their consumers are or why they need the data in the first place. They are unaware of which data is important for AI/BI, nor do they understand what it should look like. Platform teams are rarely informed about how their infrastructure is being leveraged and have little knowledge of the business context surrounding data, while consumers have business context but don't know where the data is coming from or whether or not it's quality.

Is it any wonder that data management programs are a complete, disjointed mess?


Читаешь иногда статьи, а там режут как по живому...
👍24😢5💩2🥱2
Forwarded from Клуб CDO
Команда ClickHouse наконец-то выпустила официальный коннектор к Tableau!

Проверено - работает! Правда не верьте тексту в официльном блоге (ниже), коннектор работает только с JDBC драйвером версии v0.4.6, а не с последней версией, как указано в инструкции ниже.

https://clickhouse.com/blog/announcing-clickhouse-connector-tableau#what-about-tableau-cloud
🔥12💩5
Стараемся не пропускать все-таки пятничный юмор!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30💩8
Astronomer (это который главный контрибуток в Airflow) заопенсорсил новые декораторы:

➡️ @task.llm: Define a task that calls an LLM
➡️ @task.agent: Define a task that calls an agent
➡️ @task.llm_branch: Control flow of a DAG based on LLM outputs.

По ссылке в репе https://github.com/astronomer/airflow-ai-sdk есть примеры
1️⃣ Deep research: Use duckdb to generate a research report
2️⃣ Email generation: Generates personalized email prospects
3️⃣ Github changelog: Summarize the commits to the Airflow project
4️⃣ Product Feedback Summarization: The project's name says it all
5️⃣ Support Ticket Routing: Routes support tickets to the correct department


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍8💩41👎1
https://news.1rj.ru/str/ohmydataengineer/636

Помните, недавно рассказывал про парня, который сделал тулзу чтобы хакать литкод интервью и все завиралилось?
По его словам, Амазон пригрозил университету "Или исключайте челика, или мы больше не нанимаем из вашего вуза". И его исключили.

https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
💩31😢8🔥4👍2
https://buf.build/product/bufstream

Какое-то время назад говорил про "немного медленней и сильно дешевле" альтернативу Kafka - Warpstream. Потому что данные в объектном хранилище.

Так вот еще одно похожее решение, еще и с Iceberg - Bufstream.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!
Please open Telegram to view this post
VIEW IN TELEGRAM
💩17👍1
Две важные новости в канале:
- с сегодняшнего дня в нем появится реклама, мне надо ипотеку в России закрыть
- это последний пост, на который можно будет поставить 💩
Please open Telegram to view this post
VIEW IN TELEGRAM
💩176👍14😢6🔥5🥱52👎2
https://jsonbench.com

В 25.3 JSON нативный тип станет general available в Clickhouse. Судя по метрикам, для аналитики это райский рай.

Методология и датасеты для проверки доступны там же по ссылке.

@ohmydataengineer - канал "🕯Труба Данных" опять радуется прикольным незнакомым инструментам!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12💩11👍6
Forwarded from Laptop Coach (Kirill Serykh)
Что-то пропустил это видео: очень классная презентация от DS Пармы про то, как работать с трекинговыми данными и как масштабировать инфраструктурные решения (на примере AWS). [если техническая часть не интересует - пропускайте следующий абзац]

В целом, брать спотовые инстансы и скейлиться горизонтально - хорошее решение, особенно когда все надо пост-матч (а это скаутинг). Но вот когда будет переход на лайв и если будет скелетал, объемы данных возрастут сильно на одну игру (например, по одному крупному провайдеру в лайве с 140+ метров в json / xml до 13 гигов, пост-матч с 50 метров до 730 метров в паркетах), нужен будет нормальный месседж брокер, а лайв потребует serverless из-за быстроты. Это будет отдельный уровень удовольствия, но если думать заранее, то в целом ничего страшного нет.

С 28 минуты можно посмотреть примеры красивых скаутинговых, предматчевых и послематчевых отчетиков в Tableau, как итог выхлопа всей инфры + смеси разных данных (Transfermarkt, Statsbomb, StatsPerform). Выглядит очень и очень приятно.

https://www.youtube.com/watch?v=wZ96Y6j0rzU
👍7
https://langfuse.com/blog/2025-03-19-ai-agent-comparison

Тема агентов будет очень горячая в 2025 году, "AI Agent for X" будет самым популярным слоганом маркетинговым.
Давайте погружаться, что уж...

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4💩3
https://vutr.substack.com/p/i-spent-5-hours-understanding-how

Не в первый (и точно не в последний раз) советую статьи из этого блога. Сегодня - Uber и Apache Hudi и про то, как это работает на их масштабах.

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6
🔥25👍53
https://topicpartition.io/blog/kip-1150-diskless-topics-in-apache-kafka

Помните я вам рассказывал про брокеры сообщений, которые пишут в S3? Warpstream и Bufstream

Так вот сама и в Kafka есть KIP-1150 и Diskless Topics (гусары, молчать!) 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
https://www.seangoedecke.com/ai-security/

Достаточно небольшая, но циничная статья про то, как "безопасно" вайб-кодить. Ведь это уже далеко не просто общение с чатиком, а агентские модели и deep search и всякие supply-chain attacks вполне себе возможны.

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🥱2🔥1
https://github.com/duckdb/duckdb-encodings

Если вы вдруг используете DuckDB, то с v1.3 можно будет прочитать CSV в более чем 1000 кодировках.


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥161
https://flink.apache.org/2025/03/24/apache-flink-2.0.0-a-new-era-of-real-time-data-processing

Кстати, месяц назад случился еще один мажорный релиз - Flink 2.0

In the 2.0 release, Flink introduces several innovative features that address key challenges in real-time data processing and align with the growing demands of modern applications, including AI-driven workflows.
• The Disaggregated State Management architecture enables more efficient resource utilization in cloud-native environments, ensuring high-performance real-time processing while minimizing resource overhead.
• The introduction and refinement of Materialized Tables empower users to focus on business logic without needing to understand the complexities of stream processing or the differences between stream and batch execution modes, simplifying development and enhances productivity for users across various domains. Optimizations in Batch Execution mode provide a cost-effective alternative for scenarios where near-real-time or non-real-time processing is sufficient, expanding Flink’s versatility for diverse use cases.
• Additionally, the deep integration with Apache Paimon strengthens the Streaming Lakehouse architecture, making Flink a leading solution for real-time data lake use cases.
• As AI and LLMs continue to gain prominence, the demand for scalable, real-time data processing solutions grows. Flink 2.0’s advancements in performance, resource efficiency, and ease of use position it as a strong foundation for AI workflows, ensuring that Flink remains at the forefront of real-time data processing innovations.



@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥112
subprocess.run

Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍21🥱1
https://dlthub.com

Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.

Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👎1🥱1
https://github.com/apache/iceberg/releases

Apache Iceberg 1.9 релиз!

- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0

и еще по мелочи всякое... @ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍31