🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL

Мы все умрем, а SQL и Excel остануться править миром. Даже из нейроинтерфейсов все равно будем вставлять данные в ячейки.
При этом Google внутри себя написал новую спецификацию c видоизменным синтакисом, типа так удобней. И даже почти 2 тысячи человек этим внутри теперь пользуется.

Всякие подробности в PDF (но ее можно скачать отсюда - https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql)

Как мне кажется, так и останется нишевой штукой внутри Гугла🤓


@ohmydataengineer - канал "🕯Труба Данных" смотрящий за помиранием Ходуба и SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11💩8🥱3🔥2
💩4👍1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Опросики мои любимые опросики!

Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:

Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют

Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.

Ну и результаты я сюда тоже выложу.

▶️ Ссылка на опросник тут ◀️


@ohmydataengineer - канал "🕯Труба Данных" который помогает узнать больше информации про рынок работы с данными
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩71🔥1
https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0


Airflow 3 на подходе

По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.

@ohmydataengineer - канал "🕯Труба Данных" который сильно заранее рассказывает про обновления
Please open Telegram to view this post
VIEW IN TELEGRAM
👍182🔥2💩2
https://www.rand.org/pubs/research_reports/RRA2680-1.html

The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed

Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).

А вот главные причины коротко:

Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.

Using Artificial Intelligence to Solve Simple Problems

Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд

Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!

Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего

Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI


@ohmydataengineer - канал "🕯Труба Данных" разрушает фантазии о том, что AI вас спасет
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💩3🥱3
https://amdatalakehouse.substack.com/p/ultimate-directory-of-apache-iceberg

Про Iceberg из каждого утюга!

Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" который вас заколебал новостями про Iceberg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144💩2
3500+

Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.

Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️

Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3


@ohmydataengineer - канал "🕯Труба Данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥4210💩4
https://www.uber.com/en-DE/blog/query-gpt/

Как Uber SQL в чат засунул

Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"


@ohmydataengineer - канал "🕯Труба Данных" против неразумного применения LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩62😢1
https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files

Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.


@ohmydataengineer - канал "🕯Труба Данных" заколебался слушать про айсберг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10💩4🔥2
https://docs.python.org/3.13/whatsnew/3.13.html

The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).

А именно:
CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled



@ohmydataengineer - канал "🕯Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.
Please open Telegram to view this post
VIEW IN TELEGRAM
💩9👍3
https://www.youtube.com/@ApacheAirflow/videos

Apache Airflow Summit 2024 видосики подъехали!

Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs

Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.

@ohmydataengineer - канал "🕯Труба Данных" который продолжает следить за Airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15💩2🔥1
Кстати...
113😢11👍4🔥3💩2
Я не мог не перепостить эту новость!

Нейминг просто 🔥
💩4
Forwarded from Клуб CDO (Denis Afanasev)
Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/
50🔥268💩4
Я люблю смотреть футбол и горячо поддерживаю Челси в АПЛ. Там Oracle Cloud и Opta во время игры показывают всякие live-статистики о том, кто сколько пробежал, сколько касаний сделал в штрафной и так далее. Наткнулся на очень прикольный доклад про то, как это все работает (путь и в испанской La Liga, но суть понятна)

https://www.youtube.com/watch?v=yncU9F_FK8Y

@ohmydataengineer - канал "🕯Труба Данных" продвигает датку в спорте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6💩31
https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse

В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.

@ohmydataengineer - канал "🕯Труба Данных" все еще радуется как ребенок JSON
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8💩4
https://vutr.substack.com/p/datahub-the-metadata-platform-developed

Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.

@ohmydataengineer - канал "🕯Труба Данных" который делится интересным блогом про датку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3💩31
https://xtable.incubator.apache.org

Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.

У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.


@ohmydataengineer - канал "🕯Труба Данных" который держит обещание и не пишет про Iceberg (почти).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4💩4🥱21
В качестве пятничного юмора вашему вниманию представляется экспонат "Полочка" или что такое мутации в Clickhouse на больших объемах 😁


@ohmydataengineer
💩17😢7🔥3