Способы обеспечения согласованности показателей в хранилище
Если ты работаешь с аналитикой, ты, вероятно, сталкивался с ситуацией, когда один и та же метрика рассчитывается по-разному в разных отделах. Это приводит к путанице, снижает доверие к данным и замедляет процесс принятия решений. Расскажу основные причины этой проблемы и два эффективных варианта решения.
Причина кроется в спонтанном росте аналитики:
Чтобы избежать такой ситуации, стоит внедрить единые стандарты управления метриками.
Это промежуточный слой между данными и инструментами аналитики, где метрики определяются централизованно. Они хранятся в статических файлах (например, YAML) и используются для автоматической генерации SQL-запросов.
Здесь заранее создаются таблицы с предварительно вычисленными метриками и фиксированными измерениями.
Оптимальный подход - гибридное использование:
#de #engineering #chaos
Please open Telegram to view this post
VIEW IN TELEGRAM
cube.dev
Cube: Agentic Analytics Platform
Cube, the universal semantic layer, makes it easy to connect BI silos, embed analytics, and power your data data apps and AI with context.
Forwarded from DataEng
Курс AI Agents от Microsoft
Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.
Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.
ai-agents-for-beginners
AI Agents for Beginners - A Course
12 Lessons to Get Started Building AI Agents
❤🔥7
Forwarded from Павленко про Dev & AI
OpenAI показали свои новые модели GPT-4.1, GPT-4.1 mini и GPT-4.1 nano
В чате их не будет: они только для разработчиков в API. У всех трех моделей контекст 1 миллион токенов, для OpenAI это впервые. Знания до 1 июля 2024.
Эти модели тренировали специально, чтобы они были эффективны в задачах связанных с разработкой. В честь запуска Cursor и Windsurf дают попользоваться этими моделями совершенно бесплатно 🆓
В чате их не будет: они только для разработчиков в API. У всех трех моделей контекст 1 миллион токенов, для OpenAI это впервые. Знания до 1 июля 2024.
Эти модели тренировали специально, чтобы они были эффективны в задачах связанных с разработкой. В честь запуска Cursor и Windsurf дают попользоваться этими моделями совершенно бесплатно 🆓
❤🔥8
Forwarded from Dealer.AI
AirFlow, MLFlow, DVC, ClearML?? Пффф. IstructPipe от Google!!!
Вот тебе шкет, к вайб кодингу еще и вайб пайпинг.Фу, звучит даже противно.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию.🤣 🤣 🤣
Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.
https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/
Вот тебе шкет, к вайб кодингу еще и вайб пайпинг.
Крч берёшь, пишешь инструкцию к LLM для ML пайпа и получаешь псевдокод, псевдо инструкцию, и псевдо интерпретацию.
Шучу, получаешь крч ток псевдо код, пайп и блоксхемку.
Делоешь, вайб автомотизируешь и койфуешь.
https://research.google/blog/instructpipe-generating-visual-blocks-pipelines-with-human-instructions-and-llms/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7
Что нового?
🧩 Микросервисная архитектура
⚡ Событийное планирование
🧬 Версионирование DAG'ов
🖥️ Новый интерфейс на React
🔐 Улучшенная безопасность
🌍 Удалённое выполнение задач
🐍 Поддержка только Python 3.9+
🔗 Подробнее: Релиз Airflow 3.0.0
#ApacheAirflow #DataEngineering #Airflow3 #WorkflowOrchestration
https://github.com/apache/airflow/releases/tag/3.0.0
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Release Airflow 3.0.0 · apache/airflow
📣 We are proud to announce the General Availability of Apache Airflow® 3.0, the most significant release in the project’s history.
Airflow 3.0 builds on the foundation of Airflow 2 and introduces a...
Airflow 3.0 builds on the foundation of Airflow 2 and introduces a...
❤🔥6
Forwarded from Находки в опенсорсе
PEP 750: t-строки в 3.14
В питон добавили еще один способ форматировать строки. Теперь – со специальным АПИ для внешних интеграций.
- PEP: https://peps.python.org/pep-0750
- Реализация: https://github.com/python/cpython/pull/132662
Основная причина: использовать
string.templatelib.Template
Новый префикс
Обратите внимание, что при создании
Давайте посмотрим на примере. Допустим, мы хотим формировать URL из наших данных:
И сам код логики форматирования, где мы будем вставлять значения разным способом. Если у нас шаблон
И вот результат:
Только теперь наш
У нас есть полный контроль за процессом форматирования. Вот в чем суть данного ПЕПа.
Фичи одной строкой
- Работает
- Есть привычные определители формата:
-
- Поддерживается режим raw строк:
Как устроено внутри?
Интересные места имплементации:
- Изменения лексера
- Изменения грамматики языка
- Новое CAPI
- Новые классы
- Новый байткод
Обсуждение: как вам еще один способ форматирования строк?
| Поддержать | YouTube | GitHub | Чат |
В питон добавили еще один способ форматировать строки. Теперь – со специальным АПИ для внешних интеграций.
- PEP: https://peps.python.org/pep-0750
- Реализация: https://github.com/python/cpython/pull/132662
Основная причина: использовать
f строки удобно, но нет никакого АПИ для перехвата момента "вставки" или интерполяции значений. Например, при форматировании html или sql – требуется специальным образом делать escape для значений. И раньше код вида f"<div>{template}</div>" представлял собой дыру в безопасности и потенциальное место для XSS.string.templatelib.Template
Новый префикс
t не будет создавать объект str, он будет создавать объект класса string.templatelib.Template:
>>> user = 'sobolevn'
>>> template = t"Hi, {user}"
>>> template
Template(strings=('Hi, ', ''), interpolations=(Interpolation('sobolevn', 'user', None, ''),))
>>> from string.templatelib import Template
>>> isinstance(template, Template)
True
Обратите внимание, что при создании
template – у нас не произошло форматирование сразу. Мы создали объект, у которого есть свойства strings и interpolations, из которых можно собрать финальную отформатированную строку.Давайте посмотрим на примере. Допустим, мы хотим формировать URL из наших данных:
>>> domain = 'example.com'
>>> query = 'python string formatting is too complex'
>>> template = t'https://{domain}?q={query}'
И сам код логики форматирования, где мы будем вставлять значения разным способом. Если у нас шаблон
query, то мы будем использовать quote_plus для его форматирования. Остальные значения – будем вставлять как есть:
>>> from string.templatelib import Template, Interpolation
>>> from urllib.parse import quote_plus
>>> def format_url(template: Template) -> str:
... parts = []
... for part in template:
... match part:
... case str() as s: # regular string
... parts.append(s)
... case Interpolation(value, expression='query'):
... parts.append(quote_plus(value))
... case Interpolation(value):
... parts.append(value)
... return ''.join(parts)
И вот результат:
>>> format_url(template)
'https://example.com?q=python+string+formatting+is+too+complex'
Только теперь наш
Template был отформатирован. Нами. Ручками.У нас есть полный контроль за процессом форматирования. Вот в чем суть данного ПЕПа.
Фичи одной строкой
- Работает
= как обычно в f строках: t'{user=}'- Есть привычные определители формата:
!r, !s, .2f, тд-
t строки можно конкатенировать: t'Hello' + t' , world!' и t'Hello, ' + 'world'- Поддерживается режим raw строк:
rt"Hi \n!"Как устроено внутри?
Интересные места имплементации:
- Изменения лексера
- Изменения грамматики языка
- Новое CAPI
_PyTemplate- Новые классы
Template и Interpolation написанные на C- Новый байткод
BUILD_INTERPOLATION и BUILD_TEMPLATE
>>> import dis
>>> user = 'sobolevn'
>>> dis.dis('t"Hi, {user}"')
0 RESUME 0
1 LOAD_CONST 2 (('Hi, ', ''))
LOAD_NAME 0 (user)
LOAD_CONST 1 ('user')
BUILD_INTERPOLATION 2
BUILD_TUPLE 1
BUILD_TEMPLATE
RETURN_VALUE
Обсуждение: как вам еще один способ форматирования строк?
| Поддержать | YouTube | GitHub | Чат |
Python Enhancement Proposals (PEPs)
PEP 750 – Template Strings | peps.python.org
This PEP introduces template strings for custom string processing.
#data #datasets
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥8👏1
Forwarded from Время Валеры
Недавно на одной встрече, очень большой начальник заметил: с учётом того, что мы теперь много нанимаем по всему миру и в разных часовых зонах, умение писать становится критически важным.
Спорить с этим сложно, и переоценить важность тоже. К сожалению, многие люди катастрофически не умеют формулировать свои мысли — отсюда все эти «давай быстро созвонимся», «пересечёмся раз на раз» или голосовые сообщения. Не всегда, но очень часто это происходит не потому, что встреча действительно нужна, а потому что человек просто не в состоянии организовать свой словесный салат во что-то внятное. В итоге он выливает свои мысленные помои на собеседника в надежде, что тот переработает это во что-то осмысленное — вместо того чтобы самому потратить время и внимание.
Черчилль как-то написал: «Прости, времени было мало, поэтому письмо длинное». И почти все это понимают на подсознательном уровне — отсюда все мемы и приколы про голосовые сообщения. Сложно переоценить важность хорошей культуры письма: она не только экономит кучу времени и сил, позволяет работать асинхронно, но со временем ещё и учит человека мыслить собранно и чётко.
Возможно, не стоит доходить до пределов ребят из провинции Лакония с их «если», но пример с них брать точно стоит. В здоровом письме — здоровый дух. А лучшая встреча - это короткая встреча
Спорить с этим сложно, и переоценить важность тоже. К сожалению, многие люди катастрофически не умеют формулировать свои мысли — отсюда все эти «давай быстро созвонимся», «пересечёмся раз на раз» или голосовые сообщения. Не всегда, но очень часто это происходит не потому, что встреча действительно нужна, а потому что человек просто не в состоянии организовать свой словесный салат во что-то внятное. В итоге он выливает свои мысленные помои на собеседника в надежде, что тот переработает это во что-то осмысленное — вместо того чтобы самому потратить время и внимание.
Черчилль как-то написал: «Прости, времени было мало, поэтому письмо длинное». И почти все это понимают на подсознательном уровне — отсюда все мемы и приколы про голосовые сообщения. Сложно переоценить важность хорошей культуры письма: она не только экономит кучу времени и сил, позволяет работать асинхронно, но со временем ещё и учит человека мыслить собранно и чётко.
Возможно, не стоит доходить до пределов ребят из провинции Лакония с их «если», но пример с них брать точно стоит. В здоровом письме — здоровый дух. А лучшая встреча - это короткая встреча
👏10
Forwarded from DataEng
MANNING_Practical_Guide_to_Apache_Airflow_3.pdf
14 MB
The Practical Guide to Airflow 3 🚀
Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊
Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practical Guide to Airflow 3 за авторством Tamara Janina Fingerlin, Developer Advocate, Astronomer. Книга издательства Manning, доступна бесплатно в электронном формате. Книга заточена под новшества новой версии, и будет полезна как начинающим так и опытным дата инженерам, планирующим переход на тройку.
У меня пока не дошли руки потестировать новую версию, планирую это сделать на выходных. А вы уже попробовали?
Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊
Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practical Guide to Airflow 3 за авторством Tamara Janina Fingerlin, Developer Advocate, Astronomer. Книга издательства Manning, доступна бесплатно в электронном формате. Книга заточена под новшества новой версии, и будет полезна как начинающим так и опытным дата инженерам, планирующим переход на тройку.
У меня пока не дошли руки потестировать новую версию, планирую это сделать на выходных. А вы уже попробовали?
❤🔥12
Forwarded from Время Валеры
Во время лекции о сборе данных на курсе по ML System Design зашёл разговор о data governance. Пришли к неожиданным выводам:
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
Jeff Zych's Internet Nook
Notes from “Good Strategy / Bad Strategy” by Jeff Zych
Strategy has always been difficult for me to pin down. What does a strategy look like? What makes a strategy good or bad? “Good Strategy / Bad Strategy,” by UCLA Anderson School of Management professor Richard P. Rumelt, takes a nebulous concept and makes…
❤🔥6