This media is not supported in your browser
VIEW IN TELEGRAM
Опросики мои любимые опросики!
Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют
Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.
Ну и результаты я сюда тоже выложу.
▶️ Ссылка на опросник тут ◀️
@ohmydataengineer - канал "🕯 Труба Данных" который помогает узнать больше информации про рынок работы с данными
Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют
Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.
Ну и результаты я сюда тоже выложу.
▶️ Ссылка на опросник тут ◀️
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩7❤1🔥1
https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0
Airflow 3 на подходе
По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.
@ohmydataengineer - канал "🕯 Труба Данных" который сильно заранее рассказывает про обновления
Airflow 3 на подходе
По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤2🔥2💩2
https://www.rand.org/pubs/research_reports/RRA2680-1.html
The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed
Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).
А вот главные причины коротко:
Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.
Using Artificial Intelligence to Solve Simple Problems
Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд
Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!
Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего
Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI
@ohmydataengineer - канал "🕯 Труба Данных" разрушает фантазии о том, что AI вас спасет
The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed
Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).
А вот главные причины коротко:
Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.
Using Artificial Intelligence to Solve Simple Problems
Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд
Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!
Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего
Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
www.rand.org
Why AI Projects Fail and How They Can Succeed
By some estimates, more than 80 percent of AI projects fail. That's twice the rate of failure of information technology projects that do not involve AI. Interviews with data scientists and engineers in industry and academia highlight five leading root causes…
👍13💩3🥱3
https://amdatalakehouse.substack.com/p/ultimate-directory-of-apache-iceberg
Про Iceberg из каждого утюга!
Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!
@ohmydataengineer - канал "🕯 Труба Данных" который вас заколебал новостями про Iceberg
Про Iceberg из каждого утюга!
Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
Ultimate Directory of Apache Iceberg Resources
Resources on Streaming, Migration, Ingestion and more!
👍14❤4💩2
3500+
Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.
Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️
Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3
@ohmydataengineer - канал "🕯 Труба Данных"
Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.
Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️
Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥42❤10💩4
https://www.uber.com/en-DE/blog/query-gpt/
Как Uber SQL в чат засунул
Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"
@ohmydataengineer - канал "🕯 Труба Данных" против неразумного применения LLM
Как Uber SQL в чат засунул
Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩6❤2😢1
https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files
Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.
@ohmydataengineer - канал "🕯 Труба Данных" заколебался слушать про айсберг
Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Jack Vanlightly
Table format comparisons - How do the table formats represent the canonical set of files? — Jack Vanlightly
This is the first in a series of short comparisons of table format internals. While I have written in some detail about each, I think it’s interesting to look at what is the same or similar and what sets them apart from each other. Question: How do the…
👍10💩4🔥2
https://docs.python.org/3.13/whatsnew/3.13.html
The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).
А именно:
@ohmydataengineer - канал "🕯 Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.
The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).
А именно:
CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Python documentation
What’s New In Python 3.13
Editors, Adam Turner and Thomas Wouters,. This article explains the new features in Python 3.13, compared to 3.12. Python 3.13 was released on October 7, 2024. For full details, see the changelog. ...
💩9👍3
https://www.youtube.com/@ApacheAirflow/videos
Apache Airflow Summit 2024 видосики подъехали!
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "🕯 Труба Данных" который продолжает следить за Airflow
Apache Airflow Summit 2024 видосики подъехали!
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Apache Airflow
This channel is a central repository for all talks and videos related to Apache Airflow.
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
👍15💩2🔥1
Forwarded from Клуб CDO (Denis Afanasev)
Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)
Закрома – передовое российское ПО для хранения и управления корпоративными данными
Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.
https://zakroma.ru/
Закрома – передовое российское ПО для хранения и управления корпоративными данными
Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.
https://zakroma.ru/
Закрома
ЗАКРОМА – российская платформа управления корпоративными данными
ЗАКРОМА — платформа для хранения и управления корпоративными данными. Единая экосистема для хранения, архивирования и совместной работы с файлами, полностью соответствующая требованиям 152-ФЗ и 187-ФЗ.
50🔥26❤8💩4
Я люблю смотреть футбол и горячо поддерживаю Челси в АПЛ. Там Oracle Cloud и Opta во время игры показывают всякие live-статистики о том, кто сколько пробежал, сколько касаний сделал в штрафной и так далее. Наткнулся на очень прикольный доклад про то, как это все работает (путь и в испанской La Liga, но суть понятна)
https://www.youtube.com/watch?v=yncU9F_FK8Y
@ohmydataengineer - канал "🕯 Труба Данных" продвигает датку в спорте
https://www.youtube.com/watch?v=yncU9F_FK8Y
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Technical and Tactical Football Analysis Through Data
How LaLiga uses and combines eventing and tracking data to implement novel analytics and metrics, thus helping analysts to better understand the technical and tactical aspects of their clubs.
This presentation will explain the treatment of these data and…
This presentation will explain the treatment of these data and…
👍15🔥6💩3❤1
https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.
@ohmydataengineer - канал "🕯 Труба Данных" все еще радуется как ребенок JSON
В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
How we built a new powerful JSON data type for ClickHouse
We’re excited to introduce our new and significantly enhanced JSON data type, purpose-built to deliver high-performance handling of JSON data. Our core engineer, Pavel Kruglov, dives into how we built this feature on top of ClickHouse's columnar storage.
👍8💩4
https://vutr.substack.com/p/datahub-the-metadata-platform-developed
Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.
@ohmydataengineer - канал "🕯 Труба Данных" который делится интересным блогом про датку
Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
DataHub: The Metadata Platform Developed at LinkedIn
How did LinkedIn manage the data catalog at scale?
🔥5👍3💩3❤1
https://xtable.incubator.apache.org
Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.
У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.
@ohmydataengineer - канал "🕯 Труба Данных" который держит обещание и не пишет про Iceberg (почти).
Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.
У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
xtable.incubator.apache.org
Apache XTable™ (Incubating)
Apache XTable™ (Incubating) is a cross-table interop of lakehouse table formats Apache Hudi, Apache Iceberg, and Delta Lake. Apache XTable™ is NOT a new or separate format, Apache XTable™ provides abstractions and tools for the translation of lakehouse table…
🔥9👍4💩4🥱2❤1
В качестве пятничного юмора вашему вниманию представляется экспонат "Полочка" или что такое мутации в Clickhouse на больших объемах 😁
@ohmydataengineer
@ohmydataengineer
💩17😢7🔥3
https://dataengineeringcentral.substack.com/p/10-billion-row-challenge-duckdb-vs
Забавная статья о том, как сравнивали на одной машинке DuckDB, Polars и Daft и что из этого вышло. Первый так вообще какое-то время назад был из каждого утюга, но в итоге я пока не видел ни одного хорошо нагруженного production-ready решения. А в статье выше решение из коробки жиденько обделалось с датасетом на 16 гигов из Parquet. Причем в прошлом году, кажется, я читал пост этого же автора, с DuckDB были все те же проблемы с ООМ.
Конечно, тест можно было бы провести и поглубже, ну как минимум не один раз (для сравнения). Ну да ладно.
(По работе, возможно, предстоит потрогать Rust, поэтому и смотрю на статьи, связанные с обработкой данных и Растом)
Upd: в личные сообщения принесли дополнение к статье (by @dnbnero)
Статья немного странная.
Плюс когда стал перепроверять у себя - либо я что-то делаю не так, либо в статье заблуждение/ошибка/обман. Даже если брать сжатый parquet, строка в среднем весит 52 байта, что при 10 млрд записей никак не 16гб. А в оригинале утилита выдаёт несжатые файлы...
И в комментариях без меня написали, что зря ctas использовали в duckdb - он умеет запросы напрямую в с3 и паркеты запускать
@ohmydataengineer - канал "🕯 Труба Данных" напоминает, что модное и молодежное - не всегда... (ну вы поняли)
Забавная статья о том, как сравнивали на одной машинке DuckDB, Polars и Daft и что из этого вышло. Первый так вообще какое-то время назад был из каждого утюга, но в итоге я пока не видел ни одного хорошо нагруженного production-ready решения. А в статье выше решение из коробки жиденько обделалось с датасетом на 16 гигов из Parquet. Причем в прошлом году, кажется, я читал пост этого же автора, с DuckDB были все те же проблемы с ООМ.
Конечно, тест можно было бы провести и поглубже, ну как минимум не один раз (для сравнения). Ну да ладно.
(По работе, возможно, предстоит потрогать Rust, поэтому и смотрю на статьи, связанные с обработкой данных и Растом)
Upd: в личные сообщения принесли дополнение к статье (by @dnbnero)
Статья немного странная.
Плюс когда стал перепроверять у себя - либо я что-то делаю не так, либо в статье заблуждение/ошибка/обман. Даже если брать сжатый parquet, строка в среднем весит 52 байта, что при 10 млрд записей никак не 16гб. А в оригинале утилита выдаёт несжатые файлы...
И в комментариях без меня написали, что зря ctas использовали в duckdb - он умеет запросы напрямую в с3 и паркеты запускать
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
10 billion row challenge. DuckDB vs Polars vs Daft.
... just for fun.
👍9💩4❤3
https://vutr.substack.com/p/i-spent-6-hours-learning-apache-arrow
Долго для вас хранил мяготку, никому не отдавал, но пришло время - мне оч нравится этот блог и как статьи пишет автор в нем. Погружается достаточно глубоко в детали и очень все доступно поясняет. Как пример - как работает Apache Arrow.
Потыкайте в его блог, там еще очень много всяких интересных чтив.
@ohmydataengineer - канал "🕯 Труба Данных" не прячет от вас крутые блоги и статьи и не переписывает их своими словами
Долго для вас хранил мяготку, никому не отдавал, но пришло время - мне оч нравится этот блог и как статьи пишет автор в нем. Погружается достаточно глубоко в детали и очень все доступно поясняет. Как пример - как работает Apache Arrow.
Потыкайте в его блог, там еще очень много всяких интересных чтив.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
I spent 6 hours learning Apache Arrow: Overview
Why do we need a standard memory format for analytics workload?
❤26👍9💩3