Media is too big
VIEW IN TELEGRAM
📈Weekly Data Stand-Up — 📆12.08.2024
Текущие задачи/планы:
• продолжение настройки lineage; в этот раз связь dashboard-объектов с объектами БД
• поддержка иерархической структуры для Glossary terms после обновления OpenMetadata до версии 1.4.6
• оптимизация костов на Snowflake
• планы на обновление Airflow до 2.9.3
• milestone для Airflow 3.0.0 на GitHub, который установлен на 25 марта 2025 года (и кстати вот диаграмма по multitenancy, про которую говорил)
Спасибо всем, кто забежал на #weeklydatastandup ранним утром понедельника💙
Текущие задачи/планы:
• продолжение настройки lineage; в этот раз связь dashboard-объектов с объектами БД
• поддержка иерархической структуры для Glossary terms после обновления OpenMetadata до версии 1.4.6
• оптимизация костов на Snowflake
• планы на обновление Airflow до 2.9.3
• milestone для Airflow 3.0.0 на GitHub, который установлен на 25 марта 2025 года (и кстати вот диаграмма по multitenancy, про которую говорил)
Спасибо всем, кто забежал на #weeklydatastandup ранним утром понедельника💙
1
На выходных иногда хочется отдохнуть от рабочей суеты и, лежа на диване, посмотреть какой-нибудь новый интересный фильм. Однако, у меня самого нередко возникает вопрос — а как выбрать следующий фильм для просмотра?
Автор следующей визуализации решил добавить на одну chord-диаграмму комбинации жанров всех фильмов из списка IMDB Top 1000 — довольно необычный способ анализа, но наверное можно и таким образом устроить себе #радостьвыходногодня
Источник: https://plotapi.com/explore/view/9fc00660-e706-40fc-981f-96d323f752d3#
Автор следующей визуализации решил добавить на одну chord-диаграмму комбинации жанров всех фильмов из списка IMDB Top 1000 — довольно необычный способ анализа, но наверное можно и таким образом устроить себе #радостьвыходногодня
Источник: https://plotapi.com/explore/view/9fc00660-e706-40fc-981f-96d323f752d3#
Довольно забавно, что наш мозг очень многое «додумывает». К примеру, на этой картинке мы видим разноцветную одежду, в то время как сама картинка — черно-белая. Проверьте сами и приблизьте изображение!
Дело в том, что поверх черно-белой картинки была нанесена цветная сетка, которой мозгу оказалось достаточно, чтобы «дорисовать» цвета всем остальным пикселям🤯
Кстати, не успеваю сегодня на #weeklydatastandup, поэтому в этот раз придется пропустить. Увидимся через неделю!
Дело в том, что поверх черно-белой картинки была нанесена цветная сетка, которой мозгу оказалось достаточно, чтобы «дорисовать» цвета всем остальным пикселям🤯
Кстати, не успеваю сегодня на #weeklydatastandup, поэтому в этот раз придется пропустить. Увидимся через неделю!
This media is not supported in your browser
VIEW IN TELEGRAM
Количество доступных утилит для конвертации между популярными форматами файлов в терминале огромно. На днях я наткнулся ещё на одну утилиту такого рода — dasel. Ее отличительная особенность — возможность не только конвертировать файлы, но и менять их содержимое.
Например, с помощью команды
Источник: https://github.com/TomWright/dasel
Например, с помощью команды
put можно добавить новый элемент в файл или через delete удалить соответствующий ключ из структуры. В некоторых случаях может быть довольно удобно делать подобные операции прямо в командной строке. Поддерживаются форматы JSON, YAML, CSV, TOML, XML и простой текст (функциональность в последнем ограничена).Источник: https://github.com/TomWright/dasel
По итогам прошедшего недавно Technical Steering Committee, Christian Mesh, мейнтейнер проекта OpenTofu, удалил из инструмента поддержку таких провайдеров как Yandex.Cloud, RuStack и SberCloud.
Говорить, что IT-сфера или конкретно open source ее часть в сегодняшнем мире вне политики и не должны подчиняться международным санкционным механизмам — абсурд. Санкции имеют под собой конкретные цели: ослабление экономики государства и бизнеса, деньги которого эту экономику питают. Для достижения эффекта это должно работать на всех уровнях и во всех сферах — и в предоставлении доступа к различным B2B-сервисам, и в сокращении поддержки как на платной (SaaS) так и на бесплатной (open source) основе.
При этом подпадает ли сделанное изменение под действие санкций и даже соответствует ли политикам самого проекта мейнтейнеры пока сами не разобрались. Сообщество ждет решения, а мы наблюдаем
Источник: https://github.com/opentofu/registry/pull/817
Update: оказывается, кто-то поднял revert PR на восстановление провайдеров. Под ним развернулась обширная дискуссия, читайте сами https://github.com/opentofu/registry/pull/824
Говорить, что IT-сфера или конкретно open source ее часть в сегодняшнем мире вне политики и не должны подчиняться международным санкционным механизмам — абсурд. Санкции имеют под собой конкретные цели: ослабление экономики государства и бизнеса, деньги которого эту экономику питают. Для достижения эффекта это должно работать на всех уровнях и во всех сферах — и в предоставлении доступа к различным B2B-сервисам, и в сокращении поддержки как на платной (SaaS) так и на бесплатной (open source) основе.
При этом подпадает ли сделанное изменение под действие санкций и даже соответствует ли политикам самого проекта мейнтейнеры пока сами не разобрались. Сообщество ждет решения, а мы наблюдаем
Источник: https://github.com/opentofu/registry/pull/817
Update: оказывается, кто-то поднял revert PR на восстановление провайдеров. Под ним развернулась обширная дискуссия, читайте сами https://github.com/opentofu/registry/pull/824
Airflow Debugging Improvement Survey
Open Source проекты хороши тем, что хоть и управляются в-основном мейнтейнерами, но открыты и прислушиваются к своим пользователям. Сейчас как раз один из таких случаев. Apache Airflow проводит опрос, целью которого является сбор информации о трудностях и сложностях пользователей на разных уровнях при отладке/debugging кода для Airflow. Результаты опроса напрямую повияют на то, что будет включено в Airflow 3.x, поэтому не пропустите возможность поучаствовать, если вам небезразлична судьба проекта в этой части и есть свои боли, которыми хотелось бы поделиться.
Результаты опроса, кстати, после анонимизации будут показаны публично :)
Источник: https://s.apache.org/airflow-debugging-survey2024
Open Source проекты хороши тем, что хоть и управляются в-основном мейнтейнерами, но открыты и прислушиваются к своим пользователям. Сейчас как раз один из таких случаев. Apache Airflow проводит опрос, целью которого является сбор информации о трудностях и сложностях пользователей на разных уровнях при отладке/debugging кода для Airflow. Результаты опроса напрямую повияют на то, что будет включено в Airflow 3.x, поэтому не пропустите возможность поучаствовать, если вам небезразлична судьба проекта в этой части и есть свои боли, которыми хотелось бы поделиться.
Результаты опроса, кстати, после анонимизации будут показаны публично :)
Источник: https://s.apache.org/airflow-debugging-survey2024
1
OpenMetadata 1.5.0🚀
Релиз новой версии таких быстроразвивающихся продуктов как OpenMetadata — всегда интересное событие, потому что обязательно несет в себе новые фичи, которые ждет сообщество.
В release notes у нас в этот раз:
• Data Diff Data Quality Tests,
• Domains RBAC & Subdomains,
• Data Asset Explore & виджет Landing Page,
• API как метадата ассет,
• новые коннекторы (Flink, GCS, Teradata, SAP)
• и много другого!
Из всего списка Data Diff Data Quality тесты у меня лично вызывают особый трепет, потому что почти на каждом проекте приходилось изобретать велосипед для сверки данных в разных объектах БД как инструмент контроля правильности трансформаций. Сейчас конечно есть тесты dbt, но OpenMetadata хорош тем, что его можно отдать на откуп аналитикам, а не писать YAML’ы самому.
Источник: https://docs.open-metadata.org/latest/deployment
Релиз новой версии таких быстроразвивающихся продуктов как OpenMetadata — всегда интересное событие, потому что обязательно несет в себе новые фичи, которые ждет сообщество.
В release notes у нас в этот раз:
• Data Diff Data Quality Tests,
• Domains RBAC & Subdomains,
• Data Asset Explore & виджет Landing Page,
• API как метадата ассет,
• новые коннекторы (Flink, GCS, Teradata, SAP)
• и много другого!
Из всего списка Data Diff Data Quality тесты у меня лично вызывают особый трепет, потому что почти на каждом проекте приходилось изобретать велосипед для сверки данных в разных объектах БД как инструмент контроля правильности трансформаций. Сейчас конечно есть тесты dbt, но OpenMetadata хорош тем, что его можно отдать на откуп аналитикам, а не писать YAML’ы самому.
Источник: https://docs.open-metadata.org/latest/deployment
Amazon Web Services добавляет удобный способ отписаться от обучения их AI-сервисов на ваших данных из всех сервисов разом для всей организации. Список сервисов, данные из которых #AWS мог использовать по-умолчанию впечатляющий и включает таких монстров как:
• CloudWatch
• Glue
• QuickSight
• и пару десятков других
Источник: https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_ai-opt-out_all.html
• CloudWatch
• Glue
• QuickSight
• и пару десятков других
Источник: https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_ai-opt-out_all.html
Amazon
Opt out from all supported AWS AI services - AWS Organizations
Learn how to opt out from all AI services.
Давно не писал сюда ничего, но вот появилась тема!
Выглядит так, что многие проекты, включая наш-с-вами-любимый-Airflow, планируют переход на феноменально быстрый менеджер пакетов под скромным названием
Если вкратце, то
• в большинстве случаев drop-in замена
• при этом сильно быстрее
• включает в себя и установщик разных версий Python
• заведет вам виртуальную среду и запустит приложение в изолированной среде одной командой
• может управлять проектами очень знакомым способом (с поддержкой
• поддерживает все популярные OS
На мой взгляд, выглядит как настоящая революция. Точно планирую переходить на него в своих проектах в скором времени.
Источник: https://astral.sh/blog/uv-unified-python-packaging
Выглядит так, что многие проекты, включая наш-с-вами-любимый-Airflow, планируют переход на феноменально быстрый менеджер пакетов под скромным названием
uvЕсли вкратце, то
uv — это:• в большинстве случаев drop-in замена
pip, pipx и прочих• при этом сильно быстрее
pip (до 100 раз), написан на Rust• включает в себя и установщик разных версий Python
• заведет вам виртуальную среду и запустит приложение в изолированной среде одной командой
• может управлять проектами очень знакомым способом (с поддержкой
pyproject.toml)• поддерживает все популярные OS
На мой взгляд, выглядит как настоящая революция. Точно планирую переходить на него в своих проектах в скором времени.
Источник: https://astral.sh/blog/uv-unified-python-packaging
2
💡А вы знали, что…
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
Тестирую новый девайс от Click Tech и никак не могу отделаться от мысли — как же я скучал по этому приятному тактильному ощущению! Все-таки и в Blackberry и в прочих телефонах ушедшей эпохи был свой шарм…
Из плюсов: очень приятные кнопочки, наличие всевозможных shortcuts, и более приятная работа с терминалом на телефоне
Из минусов: и без того немалый телефон становится просто гигантским, непростая работа с раскладками отличными от английской, невозможность (или мое незнание) ремаппинга каждой кнопки
Моя оценка: 8/10
Из плюсов: очень приятные кнопочки, наличие всевозможных shortcuts, и более приятная работа с терминалом на телефоне
Из минусов: и без того немалый телефон становится просто гигантским, непростая работа с раскладками отличными от английской, невозможность (или мое незнание) ремаппинга каждой кнопки
Моя оценка: 8/10