🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
subprocess.run

Маленькая, практичная шутка: кто-то купил домен subprocess.run и сделал редирект на документацию Питона по этому методу. Видимо, очень заколебался 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍21🥱1
https://dlthub.com

Кстати, у Airbyte появился интересный конкурент - dlt (звучит почти что dbt)
Концепция такая-же, только чуть больше кода в декларативном формате, чем в Airbyte.

Кажется, что open-source версии хватит чтобы закрыть бОльшую часть возможных source & destinations

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👎1🥱1
https://github.com/apache/iceberg/releases

Apache Iceberg 1.9 релиз!

- Native Geospatial Data Support
- Enhanced Row Lineage with Equality Deletes
- Deprecations and End of Support for Spark 3.3 and Hadoop 2.0

и еще по мелочи всякое... @ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍31
https://www.change-data-capture.com

Если вам не удалось еще потрогать CDC, то вот отличная и наглядная песочница про то, как это работает.


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6💩5🥱1
https://www.getorchestra.io/

Очередной, cloud-based, не open-source, убийца Airflow. Ну или в данном случае - Dagster 🤪

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
💩15
https://news.1rj.ru/str/leftjoin_insider/317

Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData 👍) и курсы, но сегодня не смог отказать коллеге с острова с поиском.

DE, Middle, ремоут пофиг где.
Все по ссылке выше.

За это злостное нарушение принципов я, возможно, получу, худи 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
1💩14👍51👎1
https://antirez.com/news/151

Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💩1
https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketing

Очередная приятно-читаемая маготка про Clickhouse


6 billion rows synced per month
Data from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subnoscriptions)
Configuration from 800+ Kubernetes clusters managing around 400,000 pods
6-7 million rows of real-time data at any given moment
4 TB of new data ingested monthly


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Разблокировалось тут забавное воспоминание!

Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?

Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.

Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂



У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное

>>> @roadofbugs_channel <<<
👍12🔥5💩5
Интересных материалов нет, а интересные мемы - есть =)

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥1
Forwarded from Клуб CDO
Comparing Analytics Engines

Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.

Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)

Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.

В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.

https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
👍9🔥72
Как всегда по пятница!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍61
Исследование специалистов по работе с данными — 2025

DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.

Зачем участвовать?

– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.

🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24

📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.

👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025

@ohmydataengineer
💩6👍32🔥2🥱1
https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse

Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4
Неделя или месяц покупок

- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)

- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesforce-acquires-informatica-for-8-billion/ (оно еще живо и дергается на 8 миллиардов 🤪)

- Alation -> Numbers Station https://techcrunch.com/2025/05/20/alation-acquires-numbers-station-to-bolster-its-ai-agent-offerings/ (шо-то модное для агентов)

- ServiceNow -> Data.World https://techcrunch.com/2025/05/07/servicenow-acquires-data-world-two-months-after-acquiring-moveworks/ (кто-нибудь слышал про этот каталог и governance platform?)

- Databricks -> Neon https://techcrunch.com/2025/05/14/databricks-to-buy-open-source-database-startup-neon-for-1b/ (видимо, чтобы сделать Databricks Postgres... oh wait!)


Обратите внимание на первое в списке и последнее. Совпадение? Не думаю..

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
🔥25👍92
Simon Osipov
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!

Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
🔥4
Мои бывшие коллеги продолжают поставлять годный контент в пятничную рубрику!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
22
Clickhouse 25.5

https://clickhouse.com/blog/clickhouse-release-25-05

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍1
Давненько я не рассказывал про другие каналы и ничего не репостил (да и не писал в целом почти 2! недели).
Как-то надо возвращаться в строй =)

Вот, например, Алиса попросила рассказать про свой канал про дата-виз. Мб кому-то будет полезно и интересно 😏
2