NEW BOT Телеграм, страница

https://new.mta.info/article/mta-open-data-challenge Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge. Participants will develop…

Мне справедливо заметили, что чтобы официально поучавствовать и подать свой проект - нужно быть резидентом USA.

Придется выкладывать "на сетку" бесплатно 😄

💩15

2.26K viewsSimon Osipov, 10:03

🔋 Труба данных

Пришло время обновлять Airbyte!

https://www.youtube.com/watch?v=cy6S14zv4qo

Еще один крупный инструмент на рынке перемещения данных туда-сюда Airbyte получил свою первую мажорную версию 1.0! По ссылке выше - видео-трансляция дня релиза, а все новые фичи описаны тут https://airbyte.com/v1

Штук много всяких интересных привезли, но самое интересное для меня - https://airbyte.com/blog/supporting-very-large-cdc-syncs-with-wass Large CDC with WASS и чекпоинты - https://airbyte.com/blog/checkpointing

@ohmydataengineer - канал "🕯Труба Данных" который продолжает обновлять инструменты!

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Airbyte 1.0 Launch

Airbyte is the leading open-source data movement infrastructure for building extract and load (EL) data pipelines. It is designed for versatility, scalability, and ease-of-use.

This video features the entire launch event of Airbyte 1.0 with the following…

👍12🔥4💩3❤2

2.31K viewsSimon Osipov, 08:58

🔋 Труба данных

https://craftingdataproducts.substack.com/p/the-data-death-cycle

О том, как помирают дата проекты.

В основе статьи лежит довольно простой, но обухом бьющий по голове, список ошибок:
- The Tech Trap: когда мы задаем вопрос "Какую проблему может решить эта технология?" вместо поиска проблемы и затем двигаться к технологии
- The Doing Trap: когда мы сразу как лего-ниндзяга прыгаем кодить решение, когда на деле нужно было посидеть и сделать дизайн / планирование. Так как кодинг - знакомая нам территория.
- The Project Trap: когда мы запланировали "проект" и совершенно не следим за тем, что окружение и задачи могли смениться и нам тоже нужно меняться. Но нет, мы будем дальше долбить спринты на то, что для нас уже не очень актуально
- The Silo Trap: мы сейчас все у себя нафигачим и всем дадим. А то, что всем это уже возможно не нужно, или они ожидают это иначе - не важно. Коммуникация важней чем кранчи.
- The Performance-First Trap: важные, но не актуальные или сложно-достижимые метрики становятся во главу угла и идет мастурбирование на них (100% DATA QUALITY!!?!?!)

В итоге получается как на картинке.

@ohmydataengineer - канал "🕯Труба Данных" про то, как работать с данными нормально.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18💩3😢2

2.39K viewsSimon Osipov, 08:58

🔋 Труба данных

https://www.timescale.com/blog/scaling-postgresql-to-petabyte-scale

Ожидал побольше мяготки и деталей от самих TimeScale, но внутри без графиков, к сожалению. Что очень странно, ведь ребята в прямом смысле делали dogfooding.

Однако в целом очень жирное заявление: 1 (!!) инстанс, 800 миллиардов метрик в день. Ничего себе так разогнали Postgres ⬆️

@ohmydataengineer - канал "🕯Труба Данных" про то, как не сходить с ума от очень большой даты.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8💩4

2.34K viewsSimon Osipov, 08:06

🔋 Труба данных

https://juhache.substack.com/p/rip-iceberg-catalogs

Ложка дегтя о модном Iceberg

Если вы собираетесь пересаживаться на Iceberg формат табличке (модная сейчас тема), полезно знать и возможные проблемки, с которыми вы столкнетесь и пути их решения. Небольшая статья с картинками. Пригодится в споре с закисшими архитекторами.

@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о модных технологиях.

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

RIP Iceberg Catalogs ?

Ju Data Engineering Weekly - Ep 74

💩7👍4

2.59K viewsSimon Osipov, 08:27

🔋 Труба данных

❤36💩4👍2

2.44K viewsSimon Osipov, 06:41

🔋 Труба данных

https://www.uber.com/en-DE/blog/preon/

Как Uber написал свой анализатор запросов (оптимизатор, улучшатор) для Presto

В общем, классика - стандартные инструменты не справлялись с нагрузкой / задачами / итд, поэтому мы написали свою - Preon. Потому что нужно и потому что можем.
Но под капотом там интересные штуки, например, если они понимают, что запрос один и тот же, то зачем его исполнять, если у тебя есть TTL в 24 часа и этот запрос закеширован? 😃

@ohmydataengineer - канал "🕯Труба Данных" рассказывает про проблемы 1% компаний.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16💩3

2.26K viewsSimon Osipov, 07:51

🔋 Труба данных

https://prestodb.io/blog/2024/09/26/query-optimization-with-historical-based-optimization-framework-in-presto/

Ну и далеко чтобы далеко не ходить, вот еще больше деталей про HBO (Historical-Based Optimization) в Мете, на том же Presto.
Чтиво по ссылке выше, а вот видео со скриншотов (и весь плейлист с одного из митапов Presto) - вот тут https://www.youtube.com/watch?v=C1LVg7VOWwg&list=PLJVeO1NMmyqUO07nUAbu7RyG1AM36iCGS&index=10

@ohmydataengineer - канал "🕯Труба Данных" решающий теорему Эскобара для Trino и Presto

Please open Telegram to view this post

VIEW IN TELEGRAM

PrestoDB

Query Optimization with Historical-Based Optimization Framework in Presto

In this blog I'll discuss the historical-based optimization (HBO), a framework open-sourced by Meta (see their presentation from PrestoCon) and used in

👍3💩1

2.42K viewsSimon Osipov, 07:34

🔋 Труба данных

Pipe Syntax In SQL.pdf

548.6 KB

2.14K viewsSimon Osipov, 06:44

🔋 Труба данных

SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL

Мы все умрем, а SQL и Excel остануться править миром. Даже из нейроинтерфейсов все равно будем вставлять данные в ячейки.
При этом Google внутри себя написал новую спецификацию c видоизменным синтакисом, типа так удобней. И даже почти 2 тысячи человек этим внутри теперь пользуется.

Всякие подробности в PDF (но ее можно скачать отсюда - https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql)

Как мне кажется, так и останется нишевой штукой внутри Гугла🤓

@ohmydataengineer - канал "🕯Труба Данных" смотрящий за помиранием Ходуба и SQL

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11💩8🥱3🔥2

2.5K viewsSimon Osipov, 06:44

🔋 Труба данных

💩4👍1🥱1

2.18K viewsSimon Osipov, 06:44

🔋 Труба данных

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Опросики мои любимые опросики!

Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:

Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.

Ну и результаты я сюда тоже выложу.

▶️ Ссылка на опросник тут ◀️

@ohmydataengineer - канал "🕯Труба Данных" который помогает узнать больше информации про рынок работы с данными

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9💩7❤1🔥1

2.4K viewsSimon Osipov, 08:12

🔋 Труба данных

https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0

Airflow 3 на подходе

По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.

@ohmydataengineer - канал "🕯Труба Данных" который сильно заранее рассказывает про обновления

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤2🔥2💩2

2.74K viewsSimon Osipov, 08:59

🔋 Труба данных

https://www.rand.org/pubs/research_reports/RRA2680-1.html

The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed

Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).

А вот главные причины коротко:

Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.

Using Artificial Intelligence to Solve Simple Problems
Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд

Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!

Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего

Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI

@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о том, что AI вас спасет

Please open Telegram to view this post

VIEW IN TELEGRAM

www.rand.org

Why AI Projects Fail and How They Can Succeed

By some estimates, more than 80 percent of AI projects fail. That's twice the rate of failure of information technology projects that do not involve AI. Interviews with data scientists and engineers in industry and academia highlight five leading root causes…

👍13💩3🥱3

2.66K viewsSimon Osipov, 08:50

🔋 Труба данных

https://amdatalakehouse.substack.com/p/ultimate-directory-of-apache-iceberg

Про Iceberg из каждого утюга!

Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" который вас заколебал новостями про Iceberg

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

Ultimate Directory of Apache Iceberg Resources

Resources on Streaming, Migration, Ingestion and more!

👍14❤4💩2

2.7K viewsSimon Osipov, 09:12

🔋 Труба данных

3500+

Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.

Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️

Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥42❤10💩4

2.22K viewsSimon Osipov, 07:49

🔋 Труба данных

https://www.uber.com/en-DE/blog/query-gpt/

Как Uber SQL в чат засунул

Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"

@ohmydataengineer - канал "🕯Труба Данных" против неразумного применения LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9💩6❤2😢1

3.29K viewsSimon Osipov, 08:42

🔋 Труба данных

https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files

Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.

@ohmydataengineer - канал "🕯Труба Данных" заколебался слушать про айсберг

Please open Telegram to view this post

VIEW IN TELEGRAM

Jack Vanlightly

Table format comparisons - How do the table formats represent the canonical set of files? — Jack Vanlightly

This is the first in a series of short comparisons of table format internals. While I have written in some detail about each, I think it’s interesting to look at what is the same or similar and what sets them apart from each other. Question: How do the…

👍10💩4🔥2

2.46K viewsSimon Osipov, 07:58

🔋 Труба данных

https://docs.python.org/3.13/whatsnew/3.13.html

The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).

А именно:

CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled

@ohmydataengineer - канал "🕯Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.

Please open Telegram to view this post

VIEW IN TELEGRAM

Python documentation

What’s New In Python 3.13

Editors, Adam Turner and Thomas Wouters,. This article explains the new features in Python 3.13, compared to 3.12. Python 3.13 was released on October 7, 2024. For full details, see the changelog. ...

💩9👍3

2.7K viewsSimon Osipov, 07:45

🔋 Труба данных

https://www.youtube.com/@ApacheAirflow/videos

Apache Airflow Summit 2024 видосики подъехали!

Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs

Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.

@ohmydataengineer - канал "🕯Труба Данных" который продолжает следить за Airflow

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Apache Airflow

This channel is a central repository for all talks and videos related to Apache Airflow.

Check out airflow.apache.org for more information.

Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…

👍15💩2🔥1

3.54K viewsSimon Osipov, 07:31

About

Blog

Apps

Platform