#datadrivenorganisation #заметкинаполях
Вопрос из недавнего поста далеко не праздный, на самом деле, потому что в разных компания сия аббревиатура может означать разные позиции, так что все варианты верные, хотя Chief Design Officer на практике мне ни разу не встречался. Однако, в данном ТГК D значит data (тем более, что в опросе этот вариант победил).
Вопрос, конечно же, был задан неслучайно, ибо в одиннадцатой главе автор подобрался к топ-менеджменту компании с управлением на основе данных.
Chief Data Officer - это, главным образом, евангелист и агент изменений. Он отвечает как за технические, так и нетехнические аспекты, определяет вИдение, стратегию, процессы и методы, посредством которых в компании осуществляются сбор, хранение и управление данными, а также контроль их качества. Первым CDO в январе 2002 года была назначена Кэтрин Клей Досс в компании Capital One.
А вот это необходимо распечатать и в рамочку под стекло в красный угол повесить рядом с образами Дэвида Гребера и Жамак Дегани:
Первые 90 дней в жизни CDO, как первые 40 лет детства в жизни любого мужчины, - самые сложные.
Вопрос из недавнего поста далеко не праздный, на самом деле, потому что в разных компания сия аббревиатура может означать разные позиции, так что все варианты верные, хотя Chief Design Officer на практике мне ни разу не встречался. Однако, в данном ТГК D значит data (тем более, что в опросе этот вариант победил).
Вопрос, конечно же, был задан неслучайно, ибо в одиннадцатой главе автор подобрался к топ-менеджменту компании с управлением на основе данных.
«В компании должен быть топ-менеджер, отвечающий за данные».
Chief Data Officer - это, главным образом, евангелист и агент изменений. Он отвечает как за технические, так и нетехнические аспекты, определяет вИдение, стратегию, процессы и методы, посредством которых в компании осуществляются сбор, хранение и управление данными, а также контроль их качества. Первым CDO в январе 2002 года была назначена Кэтрин Клей Досс в компании Capital One.
«Вряд ли вам удастся найти двух CDO с одинаковым набором обязанностей, так как все зависит от конкретной ситуации в компании: бюджета, персонала, формы отчетности»
А вот это необходимо распечатать и в рамочку под стекло в красный угол повесить рядом с образами Дэвида Гребера и Жамак Дегани:
«Работа с данными происходит в другом ритме, нежели работа с программным оборудованием, и ее нельзя рассматривать как проект. Управление данными должно осуществляться на программном уровне. В противном случае у данных должны быть начало и конец, а с ними так не получается»
Первые 90 дней в жизни CDO, как первые 40 лет детства в жизни любого мужчины, - самые сложные.
«Первый месяц стоит потратить на то, чтобы как можно больше общаться с сотрудниками — от топ-менеджмента до стажеров.»
«В течение второго месяца определитесь со своими краткосрочными, среднесрочными и долгосрочными планами. Помимо этого, в это время вам следует сформулировать миссию и видение для компании.»
«На третий месяц, после того как ваш план готов и получил одобрение, приступайте к реальным действиям. Самое время начать добиваться пусть небольших, но положительных результатов.»
#заметкинаполях #datadrivenorganisation
Chief Analytics Officer сосредоточен на стратегическом использовании данных, то есть, как следует из названия этой должности, на их анализе.
Chief Digital Officer часто путают с Chief Data Officer. Основная функция заключается в стимулировании таких изменений в компании, чтобы она успешно отвечала новым требованиям современной цифровой эпохи.
Chief Analytics Officer сосредоточен на стратегическом использовании данных, то есть, как следует из названия этой должности, на их анализе.
«САО должен обладать способностью разглядеть потенциал в имеющихся данных, понять, как они соотносятся, и объединить все разрозненные источники данных из разных подразделений оптимальным образом. Кроме того, он должен контролировать
деятельность аналитической структуры компании, обеспечивать обучение и повышение квалификации и при необходимости проводить реорганизацию.»
Chief Digital Officer часто путают с Chief Data Officer. Основная функция заключается в стимулировании таких изменений в компании, чтобы она успешно отвечала новым требованиям современной цифровой эпохи.
👍3
#datadrivenorganisation #заметкинаполях
Заключительная глава посвящена конфиденциальности данных. Вот три ключевых принципа, связанных с этим аспектом:
▪️Каждый сотрудник, которому требуется доступ к данным для выполнения своих профессиональных обязанностей, имеет этот доступ.
▪️Каждый сотрудник имеет доступ только к тем данным, которые требуются ему для выполнения профессиональных обязанностей.
▪️К персональной информации, такой как данные о пользователях и рекомендации, следует относиться с повышенным вниманием: доступ к ней должен быть максимально ограничен, информация должна быть обезличена и зашифрована.
На этом все, осталось подвести итоги.
Заключительная глава посвящена конфиденциальности данных. Вот три ключевых принципа, связанных с этим аспектом:
▪️Каждый сотрудник, которому требуется доступ к данным для выполнения своих профессиональных обязанностей, имеет этот доступ.
▪️Каждый сотрудник имеет доступ только к тем данным, которые требуются ему для выполнения профессиональных обязанностей.
▪️К персональной информации, такой как данные о пользователях и рекомендации, следует относиться с повышенным вниманием: доступ к ней должен быть максимально ограничен, информация должна быть обезличена и зашифрована.
На этом все, осталось подвести итоги.
👍4
#datadrivenorganisation #заметкинаполях
Как по мне, «Аналитическая культура» Карла Андерсона - книга весьма занятная, хоть и слегка подустаревшая, тем не менее прочтения заслуживает, поскольку является хорошим практическим руководством по внедрению управления на основе данных. Ориентирована на менеджмент, технические аспекты практически не рассматриваются.
Будет полезна тем, кто с данными ранее не сталкивался, но хочет найти ответ на сакральный вопрос имени Гарика «Бульдога» Харламова: «А нужна ли вообще аналитика?» Сюда же можно добавить джун-CDO, вроде меня, технических специалистов, желающих расширить свой кругозор или сменить профессию на управленческую.
Ну, и в финале остались самые любимые цитаты.
Как по мне, «Аналитическая культура» Карла Андерсона - книга весьма занятная, хоть и слегка подустаревшая, тем не менее прочтения заслуживает, поскольку является хорошим практическим руководством по внедрению управления на основе данных. Ориентирована на менеджмент, технические аспекты практически не рассматриваются.
Будет полезна тем, кто с данными ранее не сталкивался, но хочет найти ответ на сакральный вопрос имени Гарика «Бульдога» Харламова: «А нужна ли вообще аналитика?» Сюда же можно добавить джун-CDO, вроде меня, технических специалистов, желающих расширить свой кругозор или сменить профессию на управленческую.
Ну, и в финале остались самые любимые цитаты.
«Выбирайтесь из своих четырех стен, избавляйтесь от репутации «гиков», демонстрируйте всем свои деловые качества, показывайте, как плоды вашей работы сказываются на всей компании.»
«Многие компании ошибочно измеряют степень управления на основе данных количеством производимых ими отчетов и числом дашбордов, которыми они пользуются.»
«Необходимо отключать ежеквартально все автоматические отчеты в случайный день/неделю/месяц, чтобы оценить их использование/ценность»
👍4
#заметкинаполях #depatterns
Совсем свежак, апреля сего года выпуска. Пока только открыл и бегло пробежался по оглавлению. Выглядит как своеобразное продолжение «Fundamentals of Data Engineering», то есть для тех, кто освоился на junior-уровне и хочет перейти на middle.
«Проверим-проверим...»
Совсем свежак, апреля сего года выпуска. Пока только открыл и бегло пробежался по оглавлению. Выглядит как своеобразное продолжение «Fundamentals of Data Engineering», то есть для тех, кто освоился на junior-уровне и хочет перейти на middle.
«Проверим-проверим...»
🤝6🔥2👍1😁1
#depatterns #заметкинаполях
Осилил первую главу. Мне, как человеку, обожающему аналогии и #лишьбыпожрать, весьма импонирует идея автора объяснить преимущества использования шаблонов на примере рецепта по приготовлению популярного десерта - флана («Аруба», что на Таганке, жива ли еще, интересно? Чудесные там фланы подавались…) Интригующее начало, не так ли?
Итак, кулинарный рецепт, по мнению автора, является идеальным представлением того, чем должен быть шаблон проектирования по следующим причинам:
▪️Определенность. Рецепт содержит четко определенный список ингредиентов и описание этапов имплементации, но, вместе с этим, оставляет простор для фантазии, то есть тонкой настройки под нужды конкретного случая (использование коричневого сахара вместо белого, например).
▪️Применимость в различных ситуациях. Шаблоны предназначены для решения какой-то конкретной задачи. В нашем случае рецепт позволяет поделиться с друзьями способом приготовления вкуснейшего десерта или же организовать производство для получения прибыли.
▪️Повторное использование. Вы можете приготовить сей десерт один раз или же обращаться к нему в любое время при желании. Вам не нужно каждый раз «изобретать колесо», мучительно восстанавливая в памяти список ингредиентов.
▪️Есть последствия. Нужно всегда помнить о том, что ежедневное приготовление и поедание фланов влияет на фигуру и, в перспективе, на здоровье
▪️Экономия времени. Если вы хотите побаловать себя «вкусняшкой», не нужно тратить время на «разработку и отладку», можно воспользоваться готовым решением, протестированным миллионами людей по всему миру.
продолжение следует...
Осилил первую главу. Мне, как человеку, обожающему аналогии и #лишьбыпожрать, весьма импонирует идея автора объяснить преимущества использования шаблонов на примере рецепта по приготовлению популярного десерта - флана («Аруба», что на Таганке, жива ли еще, интересно? Чудесные там фланы подавались…) Интригующее начало, не так ли?
Итак, кулинарный рецепт, по мнению автора, является идеальным представлением того, чем должен быть шаблон проектирования по следующим причинам:
▪️Определенность. Рецепт содержит четко определенный список ингредиентов и описание этапов имплементации, но, вместе с этим, оставляет простор для фантазии, то есть тонкой настройки под нужды конкретного случая (использование коричневого сахара вместо белого, например).
▪️Применимость в различных ситуациях. Шаблоны предназначены для решения какой-то конкретной задачи. В нашем случае рецепт позволяет поделиться с друзьями способом приготовления вкуснейшего десерта или же организовать производство для получения прибыли.
▪️Повторное использование. Вы можете приготовить сей десерт один раз или же обращаться к нему в любое время при желании. Вам не нужно каждый раз «изобретать колесо», мучительно восстанавливая в памяти список ингредиентов.
▪️Есть последствия. Нужно всегда помнить о том, что ежедневное приготовление и поедание фланов влияет на фигуру и, в перспективе, на здоровье
▪️Экономия времени. Если вы хотите побаловать себя «вкусняшкой», не нужно тратить время на «разработку и отладку», можно воспользоваться готовым решением, протестированным миллионами людей по всему миру.
продолжение следует...
👍2🔥1
#пятница
Придумал тут наикрутейшее название для доклада/статьи/митапа на тему оптимизации SQL-запросов или же еще чего-то подобного.
Странно, что раньше не додумался, потому как «нисево не понимаю, я этим скриптом больше года пользуюсь, все быстро работало» - это самая популярная фраза, с которой коллеги начинают разговор, когда приходят к инженерам с просьбой починить внезапно сломавшийся скрипт.
«Ох, уж мне эти сказки! Ох, уж мне эти сказочники!» Ага…
P.S. Поскольку сам я к этой теме вряд ли вернусь в ближайшие годы, можно забирать и даже не благодарить
Придумал тут наикрутейшее название для доклада/статьи/митапа на тему оптимизации SQL-запросов или же еще чего-то подобного.
Странно, что раньше не додумался, потому как «нисево не понимаю, я этим скриптом больше года пользуюсь, все быстро работало» - это самая популярная фраза, с которой коллеги начинают разговор, когда приходят к инженерам с просьбой починить внезапно сломавшийся скрипт.
«Ох, уж мне эти сказки! Ох, уж мне эти сказочники!» Ага…
P.S. Поскольку сам я к этой теме вряд ли вернусь в ближайшие годы, можно забирать и даже не благодарить
👍5❤1
Forwarded from Trino и CedrusData
Всем привет!👋
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
Please open Telegram to view this post
VIEW IN TELEGRAM
CedrusData | Российская lakehouse-платформа
Trino в Авито. Возможности CedrusData Catalog | Lakehouse Meetup
Митап о практическом опыте развития Lakehouse как системы, а также о кейсах внедрения Trino и Iceberg в России
👍1
#depatterns #заметкинаполях
Вторая глава повествует об организации начального этапа движения данных по направлению к конечному потребителю - шаблонам извлечения данных. Если быть совсем точным, то термин ingestion более широкий, чем просто извлечение, - это EL в ELT (см «Конвейеры данных»), но более адекватного перевода на русский я пока не встречал, сам пока тоже придумать не могу.
Может быть, когда-нибудь соглашусь на «поглощение»… «Дикость, как, впрочем, любой компромисс…» (мое почтение всем, кто узнал культовый фильм).
Первый шаблон, самый простой, называется Full loader, что в переводе на русский звучит примерно как «грузите апельсины бочками» (сегодня квиз по цитатам из советских фильмов).
Применимость:
▪️ Нет атрибутов, по которым бы можно было отследить изменения данных
▪️Относительно небольшой объем (автор выбрал один миллион строк в качестве порогового значения)
▪️Данные изменяются очень редко
Автор заранее предостерегает от использования самой простой реализации данного шаблона «drop-and-insert», ибо это чревато ошибками в случае, если кому-то приспичило прочитать данные между фазами drop и insert, или же потерей истории изменения данных.
А коль скоро так, свой вариант он тоже предлагает.
Продолжение следует…
Вторая глава повествует об организации начального этапа движения данных по направлению к конечному потребителю - шаблонам извлечения данных. Если быть совсем точным, то термин ingestion более широкий, чем просто извлечение, - это EL в ELT (см «Конвейеры данных»), но более адекватного перевода на русский я пока не встречал, сам пока тоже придумать не могу.
Может быть, когда-нибудь соглашусь на «поглощение»… «Дикость, как, впрочем, любой компромисс…» (мое почтение всем, кто узнал культовый фильм).
Первый шаблон, самый простой, называется Full loader, что в переводе на русский звучит примерно как «грузите апельсины бочками» (сегодня квиз по цитатам из советских фильмов).
Применимость:
▪️ Нет атрибутов, по которым бы можно было отследить изменения данных
▪️Относительно небольшой объем (автор выбрал один миллион строк в качестве порогового значения)
▪️Данные изменяются очень редко
Автор заранее предостерегает от использования самой простой реализации данного шаблона «drop-and-insert», ибо это чревато ошибками в случае, если кому-то приспичило прочитать данные между фазами drop и insert, или же потерей истории изменения данных.
А коль скоро так, свой вариант он тоже предлагает.
Продолжение следует…
❤2👍1
Forwarded from Архитектор Данных
VK Видео
Больше, чем просто данные в S3: Iceberg как основа архитектуры Next-Gen КХД
Регистрируйтесь на вебинар, на котором мы разберем, как Apache Iceberg превращает Data Lake в полноценный Data Lakehouse — с ACID-транзакциями, эволюцией схем, time-travel, snapshot isolation (через Spark/Trino). Вас ждет теоретическая часть, воркшоп и ответы…
👍2
Forwarded from CodeCamp
Отвлечёмся от новых айфонов на ночное-полезное: нашёл «библию дата-инженеров» — репозиторий, где собрано всё для входа в профессию и максимальный буст скиллов.
— 25+ книг, от базовых вроде «Fundamentals of Data Engineering» до сложных «Designing Data-Intensive Applications»;
— Топовые комьюнити и разные комнаты для общения (Discord, Slack, Data Talks Club);
— Обзоры компаний и утилит: от Airflow и Dagster до ClickHouse, dbt и DuckDB;
— Подкасты, блоги, ютуб-каналы и рассылки для постоянного апдейта;
— Подборка курсов и сертификаций от Google, Microsoft, AWS, Databricks.
Данные — сила
— 25+ книг, от базовых вроде «Fundamentals of Data Engineering» до сложных «Designing Data-Intensive Applications»;
— Топовые комьюнити и разные комнаты для общения (Discord, Slack, Data Talks Club);
— Обзоры компаний и утилит: от Airflow и Dagster до ClickHouse, dbt и DuckDB;
— Подкасты, блоги, ютуб-каналы и рассылки для постоянного апдейта;
— Подборка курсов и сертификаций от Google, Microsoft, AWS, Databricks.
Данные — сила
👍5🔥1
#заметкинаполях #depatterns
Чтение о книги о шаблонах движется пока очень медленно, тем не менее, разговор продолжаем.
«Фигура вторая, инкрементальная…» (квиз по советским фильмам не отпускает)
Используется, если есть нечто, что позволяет отделить новые данные от уже обработанных. Это может быть колонка в таблице или же отдельный файл/партиция. Сей шаблон позволяет значительно уменьшить объемы передаваемых данных.
Но…
Если в источнике данные удаляются, то вы об этом вряд ли узнаете.
Ежели вам все же хочется знать об удалениях или же сократить интервалы между «поглощениями» данных, то вашим выбором может стать шаблон под номером 3, именуемый Change Data Capture, а народе же более известный как CDC.
Суть сего метода заключается в подключении непосредственно к внутреннему журналу транзакций базы данных, что, в свою очередь, обеспечивает высокоскоростной доступ к измененным данным. Однако за все надо платить. Чем платить, автор тоже подробно рассказывает.
Продолжение следует…
Чтение о книги о шаблонах движется пока очень медленно, тем не менее, разговор продолжаем.
«Фигура вторая, инкрементальная…» (квиз по советским фильмам не отпускает)
Используется, если есть нечто, что позволяет отделить новые данные от уже обработанных. Это может быть колонка в таблице или же отдельный файл/партиция. Сей шаблон позволяет значительно уменьшить объемы передаваемых данных.
Но…
Если в источнике данные удаляются, то вы об этом вряд ли узнаете.
Ежели вам все же хочется знать об удалениях или же сократить интервалы между «поглощениями» данных, то вашим выбором может стать шаблон под номером 3, именуемый Change Data Capture, а народе же более известный как CDC.
Суть сего метода заключается в подключении непосредственно к внутреннему журналу транзакций базы данных, что, в свою очередь, обеспечивает высокоскоростной доступ к измененным данным. Однако за все надо платить. Чем платить, автор тоже подробно рассказывает.
Продолжение следует…
👍4
Bill Inmon - «Building the Data WareHouse»
Параллельно перечитываю фундаментальный труд от легенды мира данных, автора таких концепций, как Data Warehouse и Data Lakehouse, человека с лицом солиста советского ВИА «Верасы», «малиновки голосок заслышавшего».
Вклад Билла Инмона в развитие аналитических систем сложно переоценить. Именно он заложил основы, проложил широкую дорогу для последователей, предвидел и описал многое из того, что мы сейчас знаем пусть и под другими названиями.
Владимир Ильич Ленин писал: «Кодд и Дейт разбудили Инмона. Инмон развернул революционную агитацию. Ее подхватили, расширили, укрепили, закалили дата-специалисты по всему миру».
Методология Инмона - классическое итальянское «катеначчо» - предполагает построение DWH «от обороны», «страшно далек он от конечного пользователя», все равно они не знают, чего хотят, а «самое красивое в футболе - это счет на Tableau».
Подход отличает основательность, продуман каждый аспект, «в футболе мелочей не бывает». Но… это все только на самом верхнем уровне, погружаться в детали Инмон не считает нужным. «Бей вперед - игра придет», в общем…
Очевидно, что при таком подходе главными действующими лицами в дата-команде становятся «плеймейкеры», классические «десятки» вроде Сандро Маццолы или Джанни Риверы - главные носители знаний о корпоративных данных и процессах, их движущих. Именно они отвечают за доставку данных к конечным пользователям.Подобные исполнители - «штучный товар», при их уходе у компании могут возникнуть серьезные проблемы.
Читайте классику, в общем…
P.S. Встретил у Инмона интересное слово «fiefdom», что в переводе означает «вотчина». Предлагаю в качестве импортозамещения перестать использовать слово «офис» и заменить его исконно русским. Вотчина данных - это же прекрасно, а CDO, соответственно, - боярин над данными. Лепота!
#напочитать
Параллельно перечитываю фундаментальный труд от легенды мира данных, автора таких концепций, как Data Warehouse и Data Lakehouse, человека с лицом солиста советского ВИА «Верасы», «малиновки голосок заслышавшего».
Вклад Билла Инмона в развитие аналитических систем сложно переоценить. Именно он заложил основы, проложил широкую дорогу для последователей, предвидел и описал многое из того, что мы сейчас знаем пусть и под другими названиями.
Владимир Ильич Ленин писал: «Кодд и Дейт разбудили Инмона. Инмон развернул революционную агитацию. Ее подхватили, расширили, укрепили, закалили дата-специалисты по всему миру».
Методология Инмона - классическое итальянское «катеначчо» - предполагает построение DWH «от обороны», «страшно далек он от конечного пользователя», все равно они не знают, чего хотят, а «самое красивое в футболе - это счет на Tableau».
Подход отличает основательность, продуман каждый аспект, «в футболе мелочей не бывает». Но… это все только на самом верхнем уровне, погружаться в детали Инмон не считает нужным. «Бей вперед - игра придет», в общем…
Очевидно, что при таком подходе главными действующими лицами в дата-команде становятся «плеймейкеры», классические «десятки» вроде Сандро Маццолы или Джанни Риверы - главные носители знаний о корпоративных данных и процессах, их движущих. Именно они отвечают за доставку данных к конечным пользователям.Подобные исполнители - «штучный товар», при их уходе у компании могут возникнуть серьезные проблемы.
Читайте классику, в общем…
P.S. Встретил у Инмона интересное слово «fiefdom», что в переводе означает «вотчина». Предлагаю в качестве импортозамещения перестать использовать слово «офис» и заменить его исконно русским. Вотчина данных - это же прекрасно, а CDO, соответственно, - боярин над данными. Лепота!
#напочитать
👍5
Forwarded from DataJourney
Teradata row partitioning (PPIs) VS Snowflake clustering
Неожиданный пост в контексте недоступности этих вендоров в России, но очень интересный в тематике канала.
Недавно наткнулся на заметку широко известного в узких кругах автора Roland Wenzlofsky. В ней автор раскрывает тонкости реализации партиционирования в Teradata и Snowflake.
T - каждый блок данных, удовлетворяющий условию партиционирования физически лежит отдельно, таким образом чтение/изменение данных по ключу затрагивают всегда ожидаемый набор блоков;
S - абсолютно все данные рабиваются на мелкие микро-партиции, а уже для выполнения условия партиционирования собираются отдельные файлы статистики, которые указывают в каких микро-партициях находятся искомые данные по ключу партицирования, таким образом чтение/изменение данных по ключу затрагивает всегда случайный набор блоков.
Исходя из этих знаний можно найти плюсы и минусы одинаковой с точки зрения маркетинга функции:
Teradata Row Partitioning
➕Явное указание партиций → предсказуемость всегда.
➕Отличная производительность, когда предикаты совпадают с ключами разделения.
➕Нулевые затраты на выполнение запросов сверх начальной настройки.
➖Жёсткая структура. Изменение ключа партиционирования требует перезаписи всей таблицы.
➖Требует специальных знаний для проектирования структуры.
➖Неправильный дизайн = плохая производительность вплоть до необходимости редизайна.
Snowflake Clustering
➕Работает из коробки всегда, даже если вы явно не указали на необходимость партиционирования.
➕Гибкость: условия партиционирования могут быть добавлены, изменены или удалены в любое время
➕Нет необходимости заранее проектировать структуру.
➖Недетерминированность: качество проброски запроса к данных зависит от укладки данных в микро-партиции.
➖Поддержка кластеризации потребляет вычислительные ресурсы всегда.
➖Большие беспорядочные обновления быстро ухудшают эффективность.
➖Постоянный мониторинг или автоматическая кластеризация увеличивают операционные расходы.
Неожиданный пост в контексте недоступности этих вендоров в России, но очень интересный в тематике канала.
Недавно наткнулся на заметку широко известного в узких кругах автора Roland Wenzlofsky. В ней автор раскрывает тонкости реализации партиционирования в Teradata и Snowflake.
T - каждый блок данных, удовлетворяющий условию партиционирования физически лежит отдельно, таким образом чтение/изменение данных по ключу затрагивают всегда ожидаемый набор блоков;
S - абсолютно все данные рабиваются на мелкие микро-партиции, а уже для выполнения условия партиционирования собираются отдельные файлы статистики, которые указывают в каких микро-партициях находятся искомые данные по ключу партицирования, таким образом чтение/изменение данных по ключу затрагивает всегда случайный набор блоков.
Исходя из этих знаний можно найти плюсы и минусы одинаковой с точки зрения маркетинга функции:
Teradata Row Partitioning
➕Явное указание партиций → предсказуемость всегда.
➕Отличная производительность, когда предикаты совпадают с ключами разделения.
➕Нулевые затраты на выполнение запросов сверх начальной настройки.
➖Жёсткая структура. Изменение ключа партиционирования требует перезаписи всей таблицы.
➖Требует специальных знаний для проектирования структуры.
➖Неправильный дизайн = плохая производительность вплоть до необходимости редизайна.
Snowflake Clustering
➕Работает из коробки всегда, даже если вы явно не указали на необходимость партиционирования.
➕Гибкость: условия партиционирования могут быть добавлены, изменены или удалены в любое время
➕Нет необходимости заранее проектировать структуру.
➖Недетерминированность: качество проброски запроса к данных зависит от укладки данных в микро-партиции.
➖Поддержка кластеризации потребляет вычислительные ресурсы всегда.
➖Большие беспорядочные обновления быстро ухудшают эффективность.
➖Постоянный мониторинг или автоматическая кластеризация увеличивают операционные расходы.
#depatterns #заметкинаполях
Возвращаемся DE Patterns. Семейство шаблонов под номером 4 называется репликацией данных. Суть их всех сводится к простому копированию из одной локации в другую. Применяется при движении данных между однородными хранилищами, в идеале с сохранением атрибутов метаданных (первичных ключей в БД, к примеру), но «в действительности все не так, как на самом деле».
Итоги про репликацию от Data Whisperer
Шаблон под номером 5 предназначен для решения «проблемы маленьких файлов», известной инженерам с незапамятных практически времен. Решение очевидно - хранить меньше файлов, но большего размера. Впрочем, см сюда...
Следующий шаблон снова отсылает нас к ресторанной тематике: «Вам по готовности или все сразу?» Его задача помочь определить правильный момент для начала процесса поглощения данных. Как узнать, что загрузка какого-либо закончена, и можно запускать последующие процессы обработки?
В объектных хранилищах решение может быть легко реализовано при помощи флаг-файлов, таким как многим знакомый _SUCCESS, например.
Но и здесь не обошлось без подводных камней…
Продолжение следует…
Возвращаемся DE Patterns. Семейство шаблонов под номером 4 называется репликацией данных. Суть их всех сводится к простому копированию из одной локации в другую. Применяется при движении данных между однородными хранилищами, в идеале с сохранением атрибутов метаданных (первичных ключей в БД, к примеру), но «в действительности все не так, как на самом деле».
Итоги про репликацию от Data Whisperer
Шаблон под номером 5 предназначен для решения «проблемы маленьких файлов», известной инженерам с незапамятных практически времен. Решение очевидно - хранить меньше файлов, но большего размера. Впрочем, см сюда...
Следующий шаблон снова отсылает нас к ресторанной тематике: «Вам по готовности или все сразу?» Его задача помочь определить правильный момент для начала процесса поглощения данных. Как узнать, что загрузка какого-либо закончена, и можно запускать последующие процессы обработки?
В объектных хранилищах решение может быть легко реализовано при помощи флаг-файлов, таким как многим знакомый _SUCCESS, например.
Но и здесь не обошлось без подводных камней…
Продолжение следует…
Telegram
Data Whisperer
Data Engineering Design Patterns: Глава 2 — Data Ingestion Designe Patterns
Продолжаю читать Data Engineering Design Patternsy, краткое summary по паттерну Passthrough Replicator.
DATA LOADING vs REPLICATION
На первый взгляд эти два понятия похожи, но…
Продолжаю читать Data Engineering Design Patternsy, краткое summary по паттерну Passthrough Replicator.
DATA LOADING vs REPLICATION
На первый взгляд эти два понятия похожи, но…
👍1
Московский марафон (пятничное лирическое отступление)
Эпиграф
В времена оны, когда я«на почте служил ямщиком», работал руководителем инженерии данных в одном крупном DIY-ритейлере, ко мне постоянно стучались «косматые геологи», инженеры, (да и не только они, в общем-то), с просьбой выдать им список чудодейственных материалов, которые помогут им стать «лучшей версией себя» и достичь просветления в профессии.
Естественно, списки я им давал. Я вообще обожаю составлять списки, мое ОКР не даст соврать. Они были прекрасны, многое я и сейчас готов рекомендовать (и рекомендую), «но что-то его держало».
Путем долгой рефлексии (слово-то какое красивое) я понял причину. Ни один из этих материалов, ни даже все они в совокупности не стали для меня лично каким-то прорывом. Настоящим же прорывом, скачком в гиперпространство, разделившим мою карьеру на «до и после», стало решение пробежать Московский Марафон.
Подготовка к забегу научила меня распределять силы по дистанции, терпеть, восстанавливаться и расслабляться, «просто делать и делать просто», справляться с «перетреном».
В обучении тоже, кстати, есть свой вариант «перетрена» - «синдром вечного студента» - состояние, когда думаешь, что еще одна книга, еще один курс и все, сразу стану самым умным и богатым, но в результате получаешь заход на очередной штрафной круг, а то и тяжелую психологическую травму, отбрасывающую далеко назад.
А после финиша пришло понимание, что для меня теперь нет ничего невозможного, я справлюсь с любой задачей, рабочей и не только.
Наивный… Я тогда не знал про 400 метров… Ни один самый едкий комментарий самого токсичного код-ревьюера не доставит вам столько боли и страданий, сколько эта, короткая, казалось бы, дистанция.
Так что, «всем бег». Это сейчас самый популярный вид спорта в России. Футбольные фанаты не согласны, но сколько их придет даже в Derby Day, если матч назначить на 5 утра, а цена билета будет около 3000?
И легких ног, конечно же, всем участвующим!
#московскиймарафон #лирическое отступление
Эпиграф
«Московский марафон, ветер северный,
На старте в Лужниках в старых трениках
…
Но не стена обычно губит,
А излишне быстрый старт»
(Популярная песня из 90х)
В времена оны, когда я
Естественно, списки я им давал. Я вообще обожаю составлять списки, мое ОКР не даст соврать. Они были прекрасны, многое я и сейчас готов рекомендовать (и рекомендую), «но что-то его держало».
Путем долгой рефлексии (слово-то какое красивое) я понял причину. Ни один из этих материалов, ни даже все они в совокупности не стали для меня лично каким-то прорывом. Настоящим же прорывом, скачком в гиперпространство, разделившим мою карьеру на «до и после», стало решение пробежать Московский Марафон.
Подготовка к забегу научила меня распределять силы по дистанции, терпеть, восстанавливаться и расслабляться, «просто делать и делать просто», справляться с «перетреном».
В обучении тоже, кстати, есть свой вариант «перетрена» - «синдром вечного студента» - состояние, когда думаешь, что еще одна книга, еще один курс и все, сразу стану самым умным и богатым, но в результате получаешь заход на очередной штрафной круг, а то и тяжелую психологическую травму, отбрасывающую далеко назад.
А после финиша пришло понимание, что для меня теперь нет ничего невозможного, я справлюсь с любой задачей, рабочей и не только.
Наивный… Я тогда не знал про 400 метров… Ни один самый едкий комментарий самого токсичного код-ревьюера не доставит вам столько боли и страданий, сколько эта, короткая, казалось бы, дистанция.
Так что, «всем бег». Это сейчас самый популярный вид спорта в России. Футбольные фанаты не согласны, но сколько их придет даже в Derby Day, если матч назначить на 5 утра, а цена билета будет около 3000?
И легких ног, конечно же, всем участвующим!
#московскиймарафон #лирическое отступление
🔥8⚡5👍2
#заметкинаполях #depatterns
Заключительный шаблон из главы про поглощение данных заслуживает отдельного упоминания, ибо разговоров о нем в настоящее время примерно столько же, сколько на небесах о море.
Думаю, вы догадались, кем вас окрестят за незнание там наверху…
Итак, только в идеальном мире сферические лошади побеждают согласно расписанию. В менее идеальных мирах, к коим относится мир данных, порой бывает сложно предугадать момент для начала процесса поглощения. Предыдущий шаблон, казалось бы задачу решает, но в этом случае потребитель самолично ответственен за проверку наличия новых данных (Pull Semantics).
А что, если взять и «изменить мышление всей компании, распределив ответственность» и
обязав источник данных оповещать потребителей, перейдя тем самым от пассивного поглощения к событийно-ориентированному (Push Semantics)?
Звучит как план…
Шаблон «Внешний импульс» (External trigger) состоит из трех основных частей:
▪️Первый шаг соединяет ваши конвейеры с внешним миром путем подписки на канал с уведомлениями. Теперь вы ничего не пропустите.
▪️Шаг второй заключается в реакции на сообщения из внешнего мира (нужно принять решение, запускать ли конвейеры, а, если запускать, то какие?)
▪️Шаг третий - это, собственно, запуск нужных конвейеров.
Засим (кажется, тайное общество «симитов» затянуло и меня) с этой главой все.
Продолжение следует…
Заключительный шаблон из главы про поглощение данных заслуживает отдельного упоминания, ибо разговоров о нем в настоящее время примерно столько же, сколько на небесах о море.
Думаю, вы догадались, кем вас окрестят за незнание там наверху…
Итак, только в идеальном мире сферические лошади побеждают согласно расписанию. В менее идеальных мирах, к коим относится мир данных, порой бывает сложно предугадать момент для начала процесса поглощения. Предыдущий шаблон, казалось бы задачу решает, но в этом случае потребитель самолично ответственен за проверку наличия новых данных (Pull Semantics).
А что, если взять и «изменить мышление всей компании, распределив ответственность» и
обязав источник данных оповещать потребителей, перейдя тем самым от пассивного поглощения к событийно-ориентированному (Push Semantics)?
Звучит как план…
Шаблон «Внешний импульс» (External trigger) состоит из трех основных частей:
▪️Первый шаг соединяет ваши конвейеры с внешним миром путем подписки на канал с уведомлениями. Теперь вы ничего не пропустите.
▪️Шаг второй заключается в реакции на сообщения из внешнего мира (нужно принять решение, запускать ли конвейеры, а, если запускать, то какие?)
▪️Шаг третий - это, собственно, запуск нужных конвейеров.
Засим (кажется, тайное общество «симитов» затянуло и меня) с этой главой все.
Продолжение следует…
👍4