🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://flink.apache.org/2025/03/24/apache-flink-2.0.0-a-new-era-of-real-time-data-processing

Кстати, месяц назад случился еще один мажорный релиз - Flink 2.0

In the 2.0 release, Flink introduces several innovative features that address key challenges in real-time data processing and align with the growing demands of modern applications, including AI-driven workflows.
• The Disaggregated State Management architecture enables more efficient resource utilization in cloud-native environments, ensuring high-performance real-time processing while minimizing resource overhead.
• The introduction and refinement of Materialized Tables empower users to focus on business logic without needing to understand the complexities of stream processing or the differences between stream and batch execution modes, simplifying development and enhances productivity for users across various domains. Optimizations in Batch Execution mode provide a cost-effective alternative for scenarios where near-real-time or non-real-time processing is sufficient, expanding Flink’s versatility for diverse use cases.
• Additionally, the deep integration with Apache Paimon strengthens the Streaming Lakehouse architecture, making Flink a leading solution for real-time data lake use cases.
• As AI and LLMs continue to gain prominence, the demand for scalable, real-time data processing solutions grows. Flink 2.0’s advancements in performance, resource efficiency, and ease of use position it as a strong foundation for AI workflows, ensuring that Flink remains at the forefront of real-time data processing innovations.



@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥112
subprocess.run

Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍21🥱1
https://dlthub.com

Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.

Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👎1🥱1
https://github.com/apache/iceberg/releases

Apache Iceberg 1.9 релиз!

- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0

и еще по мелочи всякое... @ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍31
https://www.change-data-capture.com

Если вам не удалось еще потрогать CDC, то вот отличная и наглядная песочница про то, как это работает.


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6💩5🥱1
https://www.getorchestra.io/

Очередной, cloud-based, не open-source, убийца Airflow. Ну или в данном случае - Dagster 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
💩15
https://news.1rj.ru/str/leftjoin_insider/317

Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData 👍) и курсы, но сегодня не смог отказать коллеге с острова с поиском.

DE, Middle, ремоут пофиг где.
Все по ссылке выше.

За это злостное нарушение принципов я, возможно, получу, худи 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
1💩14👍51👎1
https://antirez.com/news/151

Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💩1
https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketing

Очередная приятно-читаемая маготка про Clickhouse


6 billion rows synced per month
Data from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subnoscriptions)
Configuration from 800+ Kubernetes clusters managing around 400,000 pods
6-7 million rows of real-time data at any given moment
4 TB of new data ingested monthly


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Разблокировалось тут забавное воспоминание!

Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?

Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.

Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂



У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное

>>> @roadofbugs_channel <<<
👍12🔥5💩5
Интересных материалов нет, а интересные мемы - есть =)

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥1
Forwarded from Клуб CDO
Comparing Analytics Engines

Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.

Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)

Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.

В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.

https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
👍9🔥72
Как всегда по пятница!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍61
Исследование специалистов по работе с данными — 2025

DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.

Зачем участвовать?

– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.

🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24

📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.

👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025

@ohmydataengineer
💩6👍32🔥2🥱1
https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse

Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4
Неделя или месяц покупок

- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)

- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesforce-acquires-informatica-for-8-billion/ (оно еще живо и дергается на 8 миллиардов 🤪)

- Alation -> Numbers Station https://techcrunch.com/2025/05/20/alation-acquires-numbers-station-to-bolster-its-ai-agent-offerings/ (шо-то модное для агентов)

- ServiceNow -> Data.World https://techcrunch.com/2025/05/07/servicenow-acquires-data-world-two-months-after-acquiring-moveworks/ (кто-нибудь слышал про этот каталог и governance platform?)

- Databricks -> Neon https://techcrunch.com/2025/05/14/databricks-to-buy-open-source-database-startup-neon-for-1b/ (видимо, чтобы сделать Databricks Postgres... oh wait!)


Обратите внимание на первое в списке и последнее. Совпадение? Не думаю..

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
🔥25👍92
Simon Osipov
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
🔥4
Мои бывшие коллеги продолжают поставлять годный контент в пятничную рубрику!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
22
Clickhouse 25.5

https://clickhouse.com/blog/clickhouse-release-25-05

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍1