Alex. Seconds. – Telegram
Alex. Seconds.
179 subscribers
193 photos
10 videos
1 file
144 links
Любитель кофе и open source. Мысли обо всем. Мнение автора не должно и не будет совпадать с вашим.

Другие проекты: @datacatalogs, @db_tools, @datacoffee, iOS DAG Monitor

Mastodon(EN): https://techhub.social/@data_diving
Download Telegram
Live stream scheduled for
Live stream started
Weekly Data Stand-Up вернулся и уже идет🚀
Live stream finished (12 minutes)
Media is too big
VIEW IN TELEGRAM
📈Weekly Data Stand-Up📆12.08.2024

Текущие задачи/планы:
• продолжение настройки lineage; в этот раз связь dashboard-объектов с объектами БД
• поддержка иерархической структуры для Glossary terms после обновления OpenMetadata до версии 1.4.6
• оптимизация костов на Snowflake
• планы на обновление Airflow до 2.9.3
• milestone для Airflow 3.0.0 на GitHub, который установлен на 25 марта 2025 года (и кстати вот диаграмма по multitenancy, про которую говорил)

Спасибо всем, кто забежал на #weeklydatastandup ранним утром понедельника💙
1
Life of Mobile QA engineer be like…
На выходных иногда хочется отдохнуть от рабочей суеты и, лежа на диване, посмотреть какой-нибудь новый интересный фильм. Однако, у меня самого нередко возникает вопрос — а как выбрать следующий фильм для просмотра?

Автор следующей визуализации решил добавить на одну chord-диаграмму комбинации жанров всех фильмов из списка IMDB Top 1000 — довольно необычный способ анализа, но наверное можно и таким образом устроить себе #радостьвыходногодня

Источник: https://plotapi.com/explore/view/9fc00660-e706-40fc-981f-96d323f752d3#
Довольно забавно, что наш мозг очень многое «додумывает». К примеру, на этой картинке мы видим разноцветную одежду, в то время как сама картинка — черно-белая. Проверьте сами и приблизьте изображение!

Дело в том, что поверх черно-белой картинки была нанесена цветная сетка, которой мозгу оказалось достаточно, чтобы «дорисовать» цвета всем остальным пикселям🤯

Кстати, не успеваю сегодня на #weeklydatastandup, поэтому в этот раз придется пропустить. Увидимся через неделю!
This media is not supported in your browser
VIEW IN TELEGRAM
Количество доступных утилит для конвертации между популярными форматами файлов в терминале огромно. На днях я наткнулся ещё на одну утилиту такого рода — dasel. Ее отличительная особенность — возможность не только конвертировать файлы, но и менять их содержимое.

Например, с помощью команды put можно добавить новый элемент в файл или через delete удалить соответствующий ключ из структуры. В некоторых случаях может быть довольно удобно делать подобные операции прямо в командной строке. Поддерживаются форматы JSON, YAML, CSV, TOML, XML и простой текст (функциональность в последнем ограничена).

Источник: https://github.com/TomWright/dasel
Добыча в мою скромную коллекцию, состоящая из фантастического Battle League Football и парочки RPG😍
Обратил внимание сейчас, что русский язык в Wikipedia находится в разделе Middle East языков. Он всегда там был?🤔
По итогам прошедшего недавно Technical Steering Committee, Christian Mesh, мейнтейнер проекта OpenTofu, удалил из инструмента поддержку таких провайдеров как Yandex.Cloud, RuStack и SberCloud.

Говорить, что IT-сфера или конкретно open source ее часть в сегодняшнем мире вне политики и не должны подчиняться международным санкционным механизмам — абсурд. Санкции имеют под собой конкретные цели: ослабление экономики государства и бизнеса, деньги которого эту экономику питают. Для достижения эффекта это должно работать на всех уровнях и во всех сферах — и в предоставлении доступа к различным B2B-сервисам, и в сокращении поддержки как на платной (SaaS) так и на бесплатной (open source) основе.

При этом подпадает ли сделанное изменение под действие санкций и даже соответствует ли политикам самого проекта мейнтейнеры пока сами не разобрались. Сообщество ждет решения, а мы наблюдаем

Источник: https://github.com/opentofu/registry/pull/817

Update: оказывается, кто-то поднял revert PR на восстановление провайдеров. Под ним развернулась обширная дискуссия, читайте сами https://github.com/opentofu/registry/pull/824
AI can do my job
Airflow Debugging Improvement Survey

Open Source проекты хороши тем, что хоть и управляются в-основном мейнтейнерами, но открыты и прислушиваются к своим пользователям. Сейчас как раз один из таких случаев. Apache Airflow проводит опрос, целью которого является сбор информации о трудностях и сложностях пользователей на разных уровнях при отладке/debugging кода для Airflow. Результаты опроса напрямую повияют на то, что будет включено в Airflow 3.x, поэтому не пропустите возможность поучаствовать, если вам небезразлична судьба проекта в этой части и есть свои боли, которыми хотелось бы поделиться.

Результаты опроса, кстати, после анонимизации будут показаны публично :)

Источник: https://s.apache.org/airflow-debugging-survey2024
1
OpenMetadata 1.5.0🚀

Релиз новой версии таких быстроразвивающихся продуктов как OpenMetadata — всегда интересное событие, потому что обязательно несет в себе новые фичи, которые ждет сообщество.

В release notes у нас в этот раз:
• Data Diff Data Quality Tests,
• Domains RBAC & Subdomains,
• Data Asset Explore & виджет Landing Page,
• API как метадата ассет,
• новые коннекторы (Flink, GCS, Teradata, SAP)
• и много другого!

Из всего списка Data Diff Data Quality тесты у меня лично вызывают особый трепет, потому что почти на каждом проекте приходилось изобретать велосипед для сверки данных в разных объектах БД как инструмент контроля правильности трансформаций. Сейчас конечно есть тесты dbt, но OpenMetadata хорош тем, что его можно отдать на откуп аналитикам, а не писать YAML’ы самому.

Источник: https://docs.open-metadata.org/latest/deployment
Amazon Web Services добавляет удобный способ отписаться от обучения их AI-сервисов на ваших данных из всех сервисов разом для всей организации. Список сервисов, данные из которых #AWS мог использовать по-умолчанию впечатляющий и включает таких монстров как:
• CloudWatch
• Glue
• QuickSight
• и пару десятков других

Источник: https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_ai-opt-out_all.html
Предложение по расширению стандарта tl;dr для новых случаев:
pw;dr — paywall; didn’t read
ai;dr — A.I.; didn’t read
lv;dw — long video; didn’t watch
vm;dl — voice message; didn’t listen
Давно не писал сюда ничего, но вот появилась тема!

Выглядит так, что многие проекты, включая наш-с-вами-любимый-Airflow, планируют переход на феноменально быстрый менеджер пакетов под скромным названием uv

Если вкратце, то uv — это:
• в большинстве случаев drop-in замена pip, pipx и прочих
• при этом сильно быстрее pip (до 100 раз), написан на Rust
• включает в себя и установщик разных версий Python
• заведет вам виртуальную среду и запустит приложение в изолированной среде одной командой
• может управлять проектами очень знакомым способом (с поддержкой pyproject.toml)
• поддерживает все популярные OS

На мой взгляд, выглядит как настоящая революция. Точно планирую переходить на него в своих проектах в скором времени.

Источник: https://astral.sh/blog/uv-unified-python-packaging
2
💡А вы знали, что…

AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)

SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);

Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
Еще не выходные, но просто хочется глотка юмора, чтобы до них дотянуть
Тестирую новый девайс от Click Tech и никак не могу отделаться от мысли — как же я скучал по этому приятному тактильному ощущению! Все-таки и в Blackberry и в прочих телефонах ушедшей эпохи был свой шарм…

Из плюсов: очень приятные кнопочки, наличие всевозможных shortcuts, и более приятная работа с терминалом на телефоне

Из минусов: и без того немалый телефон становится просто гигантским, непростая работа с раскладками отличными от английской, невозможность (или мое незнание) ремаппинга каждой кнопки

Моя оценка: 8/10