🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Simon Osipov
https://new.mta.info/article/mta-open-data-challenge Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge. Participants will develop…
Мне справедливо заметили, что чтобы официально поучавствовать и подать свой проект - нужно быть резидентом USA.

Придется выкладывать "на сетку" бесплатно 😄
💩15
Пришло время обновлять Airbyte!

https://www.youtube.com/watch?v=cy6S14zv4qo

Еще один крупный инструмент на рынке перемещения данных туда-сюда Airbyte получил свою первую мажорную версию 1.0! По ссылке выше - видео-трансляция дня релиза, а все новые фичи описаны тут https://airbyte.com/v1

Штук много всяких интересных привезли, но самое интересное для меня - https://airbyte.com/blog/supporting-very-large-cdc-syncs-with-wass Large CDC with WASS и чекпоинты - https://airbyte.com/blog/checkpointing


@ohmydataengineer - канал "🕯Труба Данных" который продолжает обновлять инструменты!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4💩32
https://craftingdataproducts.substack.com/p/the-data-death-cycle

О том, как помирают дата проекты.

В основе статьи лежит довольно простой, но обухом бьющий по голове, список ошибок:
- The Tech Trap: когда мы задаем вопрос "Какую проблему может решить эта технология?" вместо поиска проблемы и затем двигаться к технологии
- The Doing Trap: когда мы сразу как лего-ниндзяга прыгаем кодить решение, когда на деле нужно было посидеть и сделать дизайн / планирование. Так как кодинг - знакомая нам территория.
- The Project Trap: когда мы запланировали "проект" и совершенно не следим за тем, что окружение и задачи могли смениться и нам тоже нужно меняться. Но нет, мы будем дальше долбить спринты на то, что для нас уже не очень актуально
- The Silo Trap: мы сейчас все у себя нафигачим и всем дадим. А то, что всем это уже возможно не нужно, или они ожидают это иначе - не важно. Коммуникация важней чем кранчи.
- The Performance-First Trap: важные, но не актуальные или сложно-достижимые метрики становятся во главу угла и идет мастурбирование на них (100% DATA QUALITY!!?!?!)

В итоге получается как на картинке.


@ohmydataengineer - канал "🕯Труба Данных" про то, как работать с данными нормально.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18💩3😢2
https://www.timescale.com/blog/scaling-postgresql-to-petabyte-scale

Ожидал побольше мяготки и деталей от самих TimeScale, но внутри без графиков, к сожалению. Что очень странно, ведь ребята в прямом смысле делали dogfooding.

Однако в целом очень жирное заявление: 1 (!!) инстанс, 800 миллиардов метрик в день. Ничего себе так разогнали Postgres ⬆️


@ohmydataengineer - канал "🕯Труба Данных" про то, как не сходить с ума от очень большой даты.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8💩4
https://juhache.substack.com/p/rip-iceberg-catalogs

Ложка дегтя о модном Iceberg

Если вы собираетесь пересаживаться на Iceberg формат табличке (модная сейчас тема), полезно знать и возможные проблемки, с которыми вы столкнетесь и пути их решения. Небольшая статья с картинками. Пригодится в споре с закисшими архитекторами.


@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о модных технологиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
💩7👍4
36💩4👍2
https://www.uber.com/en-DE/blog/preon/


Как Uber написал свой анализатор запросов (оптимизатор, улучшатор) для Presto

В общем, классика - стандартные инструменты не справлялись с нагрузкой / задачами / итд, поэтому мы написали свою - Preon. Потому что нужно и потому что можем.
Но под капотом там интересные штуки, например, если они понимают, что запрос один и тот же, то зачем его исполнять, если у тебя есть TTL в 24 часа и этот запрос закеширован? 😃


@ohmydataengineer - канал "🕯Труба Данных" рассказывает про проблемы 1% компаний.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16💩3
https://prestodb.io/blog/2024/09/26/query-optimization-with-historical-based-optimization-framework-in-presto/

Ну и далеко чтобы далеко не ходить, вот еще больше деталей про HBO (Historical-Based Optimization) в Мете, на том же Presto.
Чтиво по ссылке выше, а вот видео со скриншотов (и весь плейлист с одного из митапов Presto) - вот тут https://www.youtube.com/watch?v=C1LVg7VOWwg&list=PLJVeO1NMmyqUO07nUAbu7RyG1AM36iCGS&index=10


@ohmydataengineer - канал "🕯Труба Данных" решающий теорему Эскобара для Trino и Presto
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3💩1
SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL

Мы все умрем, а SQL и Excel остануться править миром. Даже из нейроинтерфейсов все равно будем вставлять данные в ячейки.
При этом Google внутри себя написал новую спецификацию c видоизменным синтакисом, типа так удобней. И даже почти 2 тысячи человек этим внутри теперь пользуется.

Всякие подробности в PDF (но ее можно скачать отсюда - https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql)

Как мне кажется, так и останется нишевой штукой внутри Гугла🤓


@ohmydataengineer - канал "🕯Труба Данных" смотрящий за помиранием Ходуба и SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11💩8🥱3🔥2
💩4👍1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Опросики мои любимые опросики!

Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:

Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.

Ну и результаты я сюда тоже выложу.

▶️ Ссылка на опросник тут ◀️


@ohmydataengineer - канал "🕯Труба Данных" который помогает узнать больше информации про рынок работы с данными
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩71🔥1
https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0


Airflow 3 на подходе

По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.

@ohmydataengineer - канал "🕯Труба Данных" который сильно заранее рассказывает про обновления
Please open Telegram to view this post
VIEW IN TELEGRAM
👍182🔥2💩2
https://www.rand.org/pubs/research_reports/RRA2680-1.html

The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed

Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).

А вот главные причины коротко:

Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.

Using Artificial Intelligence to Solve Simple Problems

Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд

Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!

Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего

Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI


@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о том, что AI вас спасет
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💩3🥱3
https://amdatalakehouse.substack.com/p/ultimate-directory-of-apache-iceberg

Про Iceberg из каждого утюга!

Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" который вас заколебал новостями про Iceberg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144💩2
3500+

Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.

Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️

Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥4210💩4
https://www.uber.com/en-DE/blog/query-gpt/

Как Uber SQL в чат засунул

Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"


@ohmydataengineer - канал "🕯Труба Данных" против неразумного применения LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩62😢1
https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files

Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.


@ohmydataengineer - канал "🕯Труба Данных" заколебался слушать про айсберг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10💩4🔥2
https://docs.python.org/3.13/whatsnew/3.13.html

The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).

А именно:
CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled



@ohmydataengineer - канал "🕯Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.
Please open Telegram to view this post
VIEW IN TELEGRAM
💩9👍3
https://www.youtube.com/@ApacheAirflow/videos

Apache Airflow Summit 2024 видосики подъехали!

Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs

Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.

@ohmydataengineer - канал "🕯Труба Данных" который продолжает следить за Airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15💩2🔥1