🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Вы знаете какой сегодня день!

@ohmydataengineer
19😢14👍8🔥6💩3
Неизменная рубрика подколов про дашборды

@ohmydataengineer
👍26🔥14💩6
Начнем неделю со слухов!
(пост для сбора 💩)

Мб это просто ошибка фронтендеров, но насколько я успел почитать расследования твиттер-журналистов, CEO Snowflake посрался с CEO dbt labs (их чуть ли не главным revenue driver) и теперь dbt labs больше не технологический партнер Snowflake. Какие последствия - ну вы поняли 😂

Ну а акции Snowflake продолжают лететь на дно.

@ohmydataengineer
👍17💩9😢6🔥3
Кто понял, тот понял
👍6🥱3🔥1💩1
Ну вы поняли, да?

@ohmydataengineer
🔥29🥱11👍3💩2
А давайте мы дата инженеров в каждую команду сделаем!

@ohmydataengineer
👍39🔥7💩41
Почему это такая правда?

@ohmydataengineer
😢38👍9💩3
https://xuanwo.io/2024/07-rewrite-bigdata-in-rust

Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft

@ohmydataengineer
👍16💩9👎2
true story...

@ohmydataengineer
😢37🔥14💩3👍2
https://vutr.substack.com/p/how-clickhouse-built-their-internal

Одна из технологий, с которой я очень люблю работать - Clickhouse. О том, как сам Clickhouse строит у себя DWH - по ссылке в статье.
Все очень просто: CH, S3, Airflow, Superset и никаких дата волтов.

@ohmydataengineer - канал "🕯Труба Данных" про работу с данными
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2510💩6👍2👎1
https://clickhouse.com/blog/clickhouse-release-24-08

И в продолжении темы Clickhouse, последний релиз принес прям очень хорошую фичу - JSON as native type.
По ссылке - релиз-ноуты с примерами

@ohmydataengineer - канал "🕯Труба Данных" про работу с данными
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135👍2💩1
"ТУТ ДАННЫЕ НЕПРАВИЛЬНЫЕ!"

@ohmydataengineer - канал "🕯Труба Данных" про работу с данными
Please open Telegram to view this post
VIEW IN TELEGRAM
😢9💩31
https://new.mta.info/article/mta-open-data-challenge

Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge.

Participants will develop a project that creatively utilizes at least one MTA open dataset.
Whether you're passionate about transportation, technology, or urban planning, this is your chance to dig deeper into MTA’s open data and make a meaningful impact.


Без каких-либо супер огромных денежных призов, ручка/кружка и пост в блоге☺️ Но датасеты клевые, покрутить можно всякое.


@ohmydataengineer - канал "🕯Труба Данных", который расскажет про публичные датасеты интересно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15💩31🔥1
Simon Osipov
https://new.mta.info/article/mta-open-data-challenge Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge. Participants will develop…
Мне справедливо заметили, что чтобы официально поучавствовать и подать свой проект - нужно быть резидентом USA.

Придется выкладывать "на сетку" бесплатно 😄
💩15
Пришло время обновлять Airbyte!

https://www.youtube.com/watch?v=cy6S14zv4qo

Еще один крупный инструмент на рынке перемещения данных туда-сюда Airbyte получил свою первую мажорную версию 1.0! По ссылке выше - видео-трансляция дня релиза, а все новые фичи описаны тут https://airbyte.com/v1

Штук много всяких интересных привезли, но самое интересное для меня - https://airbyte.com/blog/supporting-very-large-cdc-syncs-with-wass Large CDC with WASS и чекпоинты - https://airbyte.com/blog/checkpointing


@ohmydataengineer - канал "🕯Труба Данных" который продолжает обновлять инструменты!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4💩32
https://craftingdataproducts.substack.com/p/the-data-death-cycle

О том, как помирают дата проекты.

В основе статьи лежит довольно простой, но обухом бьющий по голове, список ошибок:
- The Tech Trap: когда мы задаем вопрос "Какую проблему может решить эта технология?" вместо поиска проблемы и затем двигаться к технологии
- The Doing Trap: когда мы сразу как лего-ниндзяга прыгаем кодить решение, когда на деле нужно было посидеть и сделать дизайн / планирование. Так как кодинг - знакомая нам территория.
- The Project Trap: когда мы запланировали "проект" и совершенно не следим за тем, что окружение и задачи могли смениться и нам тоже нужно меняться. Но нет, мы будем дальше долбить спринты на то, что для нас уже не очень актуально
- The Silo Trap: мы сейчас все у себя нафигачим и всем дадим. А то, что всем это уже возможно не нужно, или они ожидают это иначе - не важно. Коммуникация важней чем кранчи.
- The Performance-First Trap: важные, но не актуальные или сложно-достижимые метрики становятся во главу угла и идет мастурбирование на них (100% DATA QUALITY!!?!?!)

В итоге получается как на картинке.


@ohmydataengineer - канал "🕯Труба Данных" про то, как работать с данными нормально.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18💩3😢2
https://www.timescale.com/blog/scaling-postgresql-to-petabyte-scale

Ожидал побольше мяготки и деталей от самих TimeScale, но внутри без графиков, к сожалению. Что очень странно, ведь ребята в прямом смысле делали dogfooding.

Однако в целом очень жирное заявление: 1 (!!) инстанс, 800 миллиардов метрик в день. Ничего себе так разогнали Postgres ⬆️


@ohmydataengineer - канал "🕯Труба Данных" про то, как не сходить с ума от очень большой даты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8💩4
https://juhache.substack.com/p/rip-iceberg-catalogs

Ложка дегтя о модном Iceberg

Если вы собираетесь пересаживаться на Iceberg формат табличке (модная сейчас тема), полезно знать и возможные проблемки, с которыми вы столкнетесь и пути их решения. Небольшая статья с картинками. Пригодится в споре с закисшими архитекторами.


@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о модных технологиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
💩7👍4