🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Пока идет лето и у меня не то, чтобы очень много мотивации и времени анализировать много материала, вот вам прекрасный, небольшой поток мыслей про анализ и любителей все анализировать. Вы же знаете таких прокрастинаторов? 😏

https://www.thdpth.com/p/why-smart-people-stay-stuck?utm_source=post-email-noscript&publication_id=865472&post_id=169428145

Sophisticated analysis ≠ real change.
Insight feels productive but rarely shifts day-to-day behavior.

Analysis can become a high-tech form of procrastination.
The more beautiful the dashboard, the easier it is to hide from hard decisions.

Action lives elsewhere.
Changing environments, adding friction to bad choices, and enforcing simple rules beat perfect understanding every time.

Set “analysis budgets.”
Limit research time, then force an experiment—momentum > perfection.

Wisdom isn’t knowing, it’s doing.
Measure success in shipped iterations, not completed post-mortems.


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3
Какое-то время назад просил вас пройти опросец про исследование рынка дата-специалистов. Вот результаты https://devcrowd.ru/ds25

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2
Chat Control в EU

Не технический пост (скоро будет!), но из мира pivacy. ЕС планирует вводить отмену сквозного шифрования и начать автоматическое сканирование перс данных. Интересно, на чем планируют обучать модели для контроля 👨‍🦳

Сайт с отслеживанием ситуации https://fightchatcontrol.eu/

Более интересный детальный анализ - https://www.patrick-breyer.de/en/posts/chat-control/
Please open Telegram to view this post
VIEW IN TELEGRAM
😢3👍1🔥1
https://spiess.dev/blog/how-i-use-claude-code

Повайбкодим немного?
Внеочередная, но хорошая статья про санитарные нормы использования LLM (конкретно, Клода)

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4💩2
От этого мема меня порвало в клочья 😂

@ohmydataengineer
2🔥43👍6
Насколько Iceberg залез во все просто углы, даже Apache Hive в своем Linkedin на 500 человек рассказал, что Apache Hive 4 из коробки поддерживает Iceberg!😂

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
12🥱4
В последнее время я чет не очень много пишу, почему - да не знаю.
Пока вы ждете новых заметок от меня, почитайте другие каналы про данные, например, вот этот. Всегда рад помочь коллегам по цеху маленьким репостом 😏
💩2
Они все лучше меня… 🤦‍♂️

Круглосуточно обитая в телеграмме, читаю кучу профессиональных блогов.

Все какие-то классные. Энергичные. У каждого свой проект, а то и десять. Этот профессионал из зеленого банка, а этот из красного магазина, пара желтых компаний, разбор на вакансию в синий магазин, в цветной поисковик. Этот чемпион, этот книгу написал. И все вокруг лучше меня. Эта мысль не давала мне покоя и два года назад, когда я только смутно понимал что хочу поменять профессию, и иногда накрывает и сейчас.

И таки недавно получил кучу комментариев, которые писали что и я в какой-то степени смог смотивировать людей, к каким-то переменам. И я подумал, да как же это круто. 🤟

В очередной раз понимаю что всегда кто-то будет круче, экспертней и опытней. Но только работа над собой принесёт результат. И не стоит впадать в уныние и апатию, когда что-то не получается и бесконечный поток чужих успехов кажется бурной рекой в которую тебе не войти.
Всё обязательно получится! 🍸

#разговоры_о_важном

ПС: я продолжаю какое-то непоследовательное вхождение в профессию и вписался на курс визуализации от дата-журналиста. Посмотрим что из этого выйдет, и обязательно расскажу и вам.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6💩31🔥1
https://github.com/fortiql/data-forge

Саша один из самых классных инженеров, с которым я работал. Если бы я был снова менеджером - это первый человек, которого я бы нанимал к себе в команду.
Он тут прикольную штуку запилил, большую-большую песочницу разных связанных технологий. С его слов:

𝐃𝐚𝐭𝐚 𝐄𝐧𝐠𝐢𝐧𝐞𝐞𝐫𝐢𝐧𝐠 is not just about learning new tools.
It is about understanding 𝐩𝐚𝐭𝐭𝐞𝐫𝐧𝐬 — pipelines, layers, orchestration, federation — and practicing them until they flow smoothly. Tools change, but principles endure.

I wanted a place to build pipelines, see data move, and try new tech without waiting on corporate infrastructure. A space to polish best practices and experiment with close-to-real flows.

So I'm building 𝐃𝐚𝐭𝐚 𝐅𝐨𝐫𝐠𝐞.
⚙️ A local, open-source modern data stack you can run on a laptop:
Spark · Trino · ClickHouse · Iceberg · Kafka (Schema Registry) · Airflow (3!) · MinIO · Hive Metastore · Superset · JupyterLab

Wired with Docker Compose. Resettable. No cloud bills.

The focus is 𝐟𝐥𝐨𝐰, not just services:
A retail simulator generates realistic events (orders, payments, shipments, customers)
Kafka → Spark Structured Streaming → Iceberg bronze on MinIO
Spark refines bronze → silver → ClickHouse gold
Trino queries across Iceberg, ClickHouse, Postgres in one SQL surface
Superset visualizes. Airflow orchestrates
▶️ To start: docker compose --profile core up -d

Every week I will share what worked, what broke, and what I learned.
I am open to ideas, contributions, and strong opinions on how a lakehouse should feel.


В общем, залетайте поиграться!

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥409👍9🥱3
https://smartdataconf.ru

Все как всегда, Смартдата остается лучшим источником послушать технические доклады про DE на русском языке и понетворкаться. Я в очередной раз без доклада, потому что ленивая жопа и нет ни сил, ни времени, хотя материала накопилось. Но вам оч советую, особенно учитывая, что программа не замусорена хайпом про AI.

Сам, ввиду георграфических сложностей, буду смотреть онлайн.

(как видите, никаких реферальных ссылок, никто за рекламу мне не платит, пора бы уже запомнить, что я люблю то, что делают ребята, безусловно и меня никто и не просит ничего. Но если вдруг вам нужна скидка - приходите в личку, что-нибудь придумаем, напишем).

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍164💩1
https://www.anthropic.com/engineering/writing-tools-for-agents

Если на волне хайпа вам работодатель ставит задачи "А давайте сделаем наш собственный MCP, чтобы аналитики могли использовать его в работе с данными!", у Anthropic вышла неплохая поясняющая статья про то как писать хорошие тулзы для агентов.... при помощи агентов! (да-да, конечно же, промоутят использование 😃, но не отменяет набора принципов, которые описаны в статье)

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10💩1
Forwarded from Oleg K
Уже совсем скоро Smartdata'25, а это значит что там будут свежие результаты опроса State-of-Data, ну а это значит что я призываю всех и каждого не просто принять участие самим, но и распространять информацию об этом.

➡️ Сам опрос тут
пройди сам, приведи троих коллег из соседних компаний :)

зы результаты прошлого года в презентации тут, видос тут
зыы лендос с результатами '24 + сырье в виде arrow(хехе) уже вот-вот на подлете
зыыы доклад с результатами '25 откроем для всех сразу же после конфы
3🔥1💩1
Данные от самого OpenAI, для чего используют ChatGPT.

Мы в пузырике, в общей доле запросов к модели, программирование - всего 4%

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13😢1
https://medium.com/@thedatainsight/bronze-is-the-battlefield-why-real-data-engineers-start-at-the-source-6eaa16730f0a

Нормально делай - нормально будет! Саша снова насыпал базисной базы, а мне даже добавить нечего.

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8💩1
Big data integration company Fivetran Inc. is reportedly holding advanced talks with dbt Labs Inc. over a multibillion-dollar acquisition.

https://siliconangle.com/2025/09/28/report-fivetran-talks-dbt-labs-multibillion-dollar-big-data-merger/

Просто новость. Выводов никаких не будет =)

@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
💩7👍31🔥1🥱1
Очередная движуха для тех, кто живёт аналитикой. Коллеги и друзья из NEWHR снова собирают рынок — кого, где, за сколько и зачем нанимают. Всё по классике: зарплаты, новые задачи, как и где работают, кто топит за культуру.

В этот раз цепляют и бизнес/системных аналитиков, и даже начальников.

20 минут на опрос — и потом инсайты, стрим и вся вкусная инфа (полный разбор ждём в 2026, а промежуточное — сразу по ходу).

Чем больше залетит народу — тем точнее картина, поэтому и делюсь ссылкой

P.S. Да, ждать результат надо, но стоит того — предыдущие выпуски были полезными
Ссылка на последнее 2024

Как принять участие в исследовании?
 Заполните 20-мин опросник
💩4👍3🔥32
Forwarded from DevBrain
Python 3.14 уже здесь!

Пару часов назад вышел финальный релиз новой версии Python 3.14. Это, пожалуй, один из самых мощных релизов на моей памяти. Новая версия несёт в себе ряд крутых фич, а именно:
- полная поддержка Free-threaded Python
- T-strings, спорная фича, но на мой взгляд удобно иметь в стандартной библиотеке (синтаксис знакомых нам f-strings)
- zstd внутри стандартной либы, один из самых эффективных алгоритмов сжатия данных
- поддержка multiple interpreters из коробки
- uuid 6-8, на 40% быстрее

И многое другое, полный список изменений ловите по ссылке: https://pythoninsider.blogspot.com/2025/10/python-3140-final-is-here.html
🔥25👍5
Forwarded from Время Валеры
На днях в open source выпустили распределённую файловую систему, которая рассчитана на эксабайты (тысячи петабайт).

Сделали это чуваки из XTX, мощные трейдеры, которые известны двумя вещами: тем, что у них (по крайней мере недавно) был топ-3 кластер по количеству ГПУ, и тем, что их основатель, Александр Герко, так любит Лондон, что каждый год платит 500+ млн фунтов налогов на доходы как физическое лицо.

Из интересного (они выделили 9 пунктов, но только 5 мне кажутся отличительными)

Has no single point of failure in its metadata services.
Is hardware agnostic and uses TCP/IP to communicate.
Utilizes different types of storage (such as flash vs. hard disks) cost effectively.
Exposes read/write access through its own API over TCP and UDP, and a Linux kernel filesystem module.
Requires no external service and has a minimal set of build dependencies

Начали работы над системой в 2022 году, в середине 2024 мигрировали весь ML

TernFS' metadata is split into 256 logical shards. Shards never communicate with each other. This is a general principle in TernFS: Splitting the metadata into 256 shards from the get-go simplifies the design, given that horizontal scaling of metadata requires no rebalancing, just the addition of more metadata servers.

Ну и заодно свой формат сериализации разработали, чтобы разработчики передвигали не json, thrift, а что-то там свое.

Еще из интересного - обсуждение когда нужно зеркалить файлы, а когда делать Reed-Solomon coding.

Рекомендую почитать
🔥10💩31👍1
🥱14😢8💩3👍2🔥1