Data Engineer – Telegram
Data Engineer
442 subscribers
165 photos
3 videos
103 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Запись стрима "Разговоры на Архитекторском" с Вадимом Беловым, X5.
#заметкинаполях #datadrivenorganisation

Глава восьмая посвящена A/B тестированию. Главное, что я для себя из нее вынес, - это рекомендация четко формулировать критерии эффективности до начала теста, иначе в итоге получится подгонка задачи под ответ.

Глава девятая обучает навыку принятия решений. Специалист по лидерству и менеджменту Скотт Финкельштейн уверяет, что никакой мистики в этом нет, и научиться этому может каждый.

В отдельный блок выделены проблемы с данными, которые мешают принятию решений, такие как:

▪️ Качество данных
▪️ Объем (больше не значит лучше)
▪️Разделение сигнала и шума

Ну, и, любимое, куда ж без него.

Данные не мыслят в долгосрочной перспективе за вас. Они не принимают решения. Они лишь дают информацию — пищу для размышлений. Но если вы принимаете решения автоматически, не задумываясь о том, что означают эти данные, и не соотнося их с вашим долгосрочным видением относительно вашего продукта или пользователей, то, скорее всего, ваши решения будут ошибочными.


В компании может осуществляться качественный и своевременный сбор необходимых данных, может быть опытный специалист по работе с этими данными, который составляет полезные отчеты и модели и формулирует важные выводы и рекомендации. Но если эти отчеты пылятся на полках или руководитель принимает решения по наитию, независимо от того, что показывают данные, то это все лишено смысла.


менее 44 % сотрудников знают, где найти информацию, необходимую им в повседневной работе


Интуиция должна стать частью процесса принятия решений на основе данных. Без нее не обойтись.
🔥2
#заметкинаполях #datadrivenorganisation

Глава 10 погружает читателя в основы корпоративной культуры на основе данных, которая должна определять, «кто имеет доступ к данным, какие данные можно распространять, какие вложения будут сделаны в развитие сотрудников и в инструменты».

Основные ингредиенты для построения идеальной компании с управлением на основе данных:

▪️Открытость и доверие
«У каждого сотрудника компании должен быть доступ к такому количеству данных, которое только возможно на законных основаниях»


«Компания с управлением на основе данных обладает более значительным потенциалом делегировать принятие определенных решений на операционный уровень. Если у большего числа сотрудников есть доступ к нужным им данным, имеются необходимые навыки их анализа и интерпретации, то при достаточном уровне доверия процесс принятия решений можно существенно демократизировать.»


▪️Повышение квалификации в области работы с данными
«отличное понимание данных должно входить в навыки и характеристики всех сотрудников всех уровней»


«руководитель необязательно должен владеть механизмами сбора, очистки, обработки и агрегирования данных, но у него должно быть понимание, что такое качественный эксперимент, базовое статистическое исследование, а также чем опасно экстраполирование.»


«Главное, начать что-то делать и стимулировать сотрудников — не только из аналитического отдела — развивать навыки работы с данными и инструментами бизнес-аналитики, чтобы они чувствовали себя комфортно в этой теме.»


▪️Сначала цели
«В сфокусированной компании, независимо от того, осуществляется ли в ней управление на основе данных, есть четкое направление развития и известное всем представление, как должен расти бизнес. Задача руководителя — объединить людей вокруг этого вИдения и стимулировать их совместную работу для достижения общей цели.»


▪️Задавайте вопросы
«Нужно стимулировать конструктивные обсуждения, в ходе которых участники запрашивают дополнительную информацию, подвергают сомнениям предположения, обсуждают результаты тестирования или необходимость проведения дополнительных тестов.»


«Главное, сохранять нейтральный тон обсуждения: мы обсуждаем данные, а не людей.»


продолжение следует...
👍2
#заметкинаполях #datadrivenorganisation

Еще немного ингридиентов для успешного построения компании с управлением на основе данных

▪️Итерации и обучение
«компания с управлением на основе данных должна извлекать максимальную пользу из любых данных, даже если это был «провал», учиться на своих ошибках и действовать дальше, продвигая бизнес»


«Управление на основе данных требует гибкости и готовности вносить изменения и на уровне компании: по мере роста и развития компании вы должны быть готовы реорганизовать свои команды специалистов по работе с данными и изменить их место в структуре организации»


▪️Противостояние HiPPO

Акроним HiPPO расшифровывается как Highest Paid Person's Opinion, довольно часто такие сотрудники с данными не ладят.

«Один из способов борьбы с этим явлением — сделать процесс принятия решений прозрачным и подотчетным. Если такие сотрудники принимают отличные решения, способствующие росту и развитию бизнеса, что ж, отлично — в конце концов, именно в этом и состоит ваша цель. Однако если качество их решений вызывает сомнения, их стоит попросить изменить подход к работе или указать на дверь.»


«Если данные противоречат управленческим решениям, но руководителя это не волнует, это создает ситуацию противостояния, которая редко заканчивается добром.»


▪️Руководство на основе данных
«В компании, где реализуются принципы управления на основе данных, должна быть сильная вертикаль власти, поддерживающая эти принципы. Руководство должно стимулировать и продвигать соответствующую корпоративную культуру и активно поддерживать все аспекты аналитической цепочки ценности — от сбора данных до принятия решения на их основе и обучения. Руководство должно продвигать методы работы на основе данных»


«Руководитель должен поддерживать специалистов аналитического отдела. Руководителю следует обеспечить им инструменты и обучение в случае необходимости. Руководитель определяет организационную структуру, меняя ее соответствующим образом по мере роста и развития компании. Кроме того, он должен показать четкую карьерную лестницу и стимулы для специалистов аналитического отдела, чтобы повысить их продуктивность и личную удовлетворенность.»


«Руководитель должен добиться, чтобы его поддерживали все остальные сотрудники… Он должен быть уверен в правильности выбранного им подхода на основе данных. Чтобы заручиться этой поддержкой, руководитель должен демонстрировать результаты, пусть сначала даже небольшие.»


«Руководителя должны поддерживать остальные топ-менеджеры компании. Они отвечают за бюджеты на развитие нужной ИТ-инфраструктуры и обучение, а также играют основную роль в стимулировании корпоративной культуры на основе данных в своих подразделениях.»
👍3
Я тоже за "сиквел", а вот "скуль" прям подбешивает😂
😁6
#datadrivenorganisation #заметкинаполях

Вопрос из недавнего поста далеко не праздный, на самом деле, потому что в разных компания сия аббревиатура может означать разные позиции, так что все варианты верные, хотя Chief Design Officer на практике мне ни разу не встречался. Однако, в данном ТГК D значит data (тем более, что в опросе этот вариант победил).

Вопрос, конечно же, был задан неслучайно, ибо в одиннадцатой главе автор подобрался к топ-менеджменту компании с управлением на основе данных.

«В компании должен быть топ-менеджер, отвечающий за данные».

Chief Data Officer - это, главным образом, евангелист и агент изменений. Он отвечает как за технические, так и нетехнические аспекты, определяет вИдение, стратегию, процессы и методы, посредством которых в компании осуществляются сбор, хранение и управление данными, а также контроль их качества. Первым CDO в январе 2002 года была назначена Кэтрин Клей Досс в компании Capital One.

«Вряд ли вам удастся найти двух CDO с одинаковым набором обязанностей, так как все зависит от конкретной ситуации в компании: бюджета, персонала, формы отчетности»

А вот это необходимо распечатать и в рамочку под стекло в красный угол повесить рядом с образами Дэвида Гребера и Жамак Дегани:

«Работа с данными происходит в другом ритме, нежели работа с программным оборудованием, и ее нельзя рассматривать как проект. Управление данными должно осуществляться на программном уровне. В противном случае у данных должны быть начало и конец, а с ними так не получается»


Первые 90 дней в жизни CDO, как первые 40 лет детства в жизни любого мужчины, - самые сложные.

«Первый месяц стоит потратить на то, чтобы как можно больше общаться с сотрудниками — от топ-менеджмента до стажеров.»

«В течение второго месяца определитесь со своими краткосрочными, среднесрочными и долгосрочными планами. Помимо этого, в это время вам следует сформулировать миссию и видение для компании.»

«На третий месяц, после того как ваш план готов и получил одобрение, приступайте к реальным действиям. Самое время начать добиваться пусть небольших, но положительных результатов.»
#заметкинаполях #datadrivenorganisation

Chief Analytics Officer сосредоточен на стратегическом использовании данных, то есть, как следует из названия этой должности, на их анализе.
«САО должен обладать способностью разглядеть потенциал в имеющихся данных, понять, как они соотносятся, и объединить все разрозненные источники данных из разных подразделений оптимальным образом. Кроме того, он должен контролировать
деятельность аналитической структуры компании, обеспечивать обучение и повышение квалификации и при необходимости проводить реорганизацию.»


Chief Digital Officer часто путают с Chief Data Officer. Основная функция заключается в стимулировании таких изменений в компании, чтобы она успешно отвечала новым требованиям современной цифровой эпохи.
👍3
#datadrivenorganisation #заметкинаполях

Заключительная глава посвящена конфиденциальности данных. Вот три ключевых принципа, связанных с этим аспектом:

▪️Каждый сотрудник, которому требуется доступ к данным для выполнения своих профессиональных обязанностей, имеет этот доступ.

▪️Каждый сотрудник имеет доступ только к тем данным, которые требуются ему для выполнения профессиональных обязанностей.

▪️К персональной информации, такой как данные о пользователях и рекомендации, следует относиться с повышенным вниманием: доступ к ней должен быть максимально ограничен, информация должна быть обезличена и зашифрована.

На этом все, осталось подвести итоги.
👍4
#datadrivenorganisation #заметкинаполях

Как по мне, «Аналитическая культура» Карла Андерсона - книга весьма занятная, хоть и слегка подустаревшая, тем не менее прочтения заслуживает, поскольку является хорошим практическим руководством по внедрению управления на основе данных. Ориентирована на менеджмент, технические аспекты практически не рассматриваются.

Будет полезна тем, кто с данными ранее не сталкивался, но хочет найти ответ на сакральный вопрос имени Гарика «Бульдога» Харламова: «А нужна ли вообще аналитика?» Сюда же можно добавить джун-CDO, вроде меня, технических специалистов, желающих расширить свой кругозор или сменить профессию на управленческую.

Ну, и в финале остались самые любимые цитаты.

«Выбирайтесь из своих четырех стен, избавляйтесь от репутации «гиков», демонстрируйте всем свои деловые качества, показывайте, как плоды вашей работы сказываются на всей компании.»


«Многие компании ошибочно измеряют степень управления на основе данных количеством производимых ими отчетов и числом дашбордов, которыми они пользуются.»


«Необходимо отключать ежеквартально все автоматические отчеты в случайный день/неделю/месяц, чтобы оценить их использование/ценность»
👍4
Пятничное настроение
😁10👍1👎1
Настроение понедельника: "Breathe deep and easy, swallow this pride" (ВИА Rise Against)
#заметкинаполях #depatterns

Совсем свежак, апреля сего года выпуска. Пока только открыл и бегло пробежался по оглавлению. Выглядит как своеобразное продолжение «Fundamentals of Data Engineering», то есть для тех, кто освоился на junior-уровне и хочет перейти на middle.

«Проверим-проверим...»
🤝6🔥2👍1😁1
#depatterns #заметкинаполях

Осилил первую главу. Мне, как человеку, обожающему аналогии и #лишьбыпожрать, весьма импонирует идея автора объяснить преимущества использования шаблонов на примере рецепта по приготовлению популярного десерта - флана («Аруба», что на Таганке, жива ли еще, интересно? Чудесные там фланы подавались…) Интригующее начало, не так ли?

Итак, кулинарный рецепт, по мнению автора, является идеальным представлением того, чем должен быть шаблон проектирования по следующим причинам:

▪️Определенность. Рецепт содержит четко определенный список ингредиентов и описание этапов имплементации, но, вместе с этим, оставляет простор для фантазии, то есть тонкой настройки под нужды конкретного случая (использование коричневого сахара вместо белого, например).

▪️Применимость в различных ситуациях. Шаблоны предназначены для решения какой-то конкретной задачи. В нашем случае рецепт позволяет поделиться с друзьями способом приготовления вкуснейшего десерта или же организовать производство для получения прибыли.

▪️Повторное использование. Вы можете приготовить сей десерт один раз или же обращаться к нему в любое время при желании. Вам не нужно каждый раз «изобретать колесо», мучительно восстанавливая в памяти список ингредиентов.

▪️Есть последствия. Нужно всегда помнить о том, что ежедневное приготовление и поедание фланов влияет на фигуру и, в перспективе, на здоровье

▪️Экономия времени. Если вы хотите побаловать себя «вкусняшкой», не нужно тратить время на «разработку и отладку», можно воспользоваться готовым решением, протестированным миллионами людей по всему миру.

продолжение следует...
👍2🔥1
#пятница

Придумал тут наикрутейшее название для доклада/статьи/митапа на тему оптимизации SQL-запросов или же еще чего-то подобного.

Странно, что раньше не додумался, потому как «нисево не понимаю, я этим скриптом больше года пользуюсь, все быстро работало» - это самая популярная фраза, с которой коллеги начинают разговор, когда приходят к инженерам с просьбой починить внезапно сломавшийся скрипт.

«Ох, уж мне эти сказки! Ох, уж мне эти сказочники!» Ага…

P.S. Поскольку сам я к этой теме вряд ли вернусь в ближайшие годы, можно забирать и даже не благодарить
👍51
Forwarded from Trino и CedrusData
Всем привет!👋

Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.

🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.

🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.

📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥4👾1
#depatterns #заметкинаполях

Вторая глава повествует об организации начального этапа движения данных по направлению к конечному потребителю - шаблонам извлечения данных. Если быть совсем точным, то термин ingestion более широкий, чем просто извлечение, - это EL в ELT (см «Конвейеры данных»), но более адекватного перевода на русский я пока не встречал, сам пока тоже придумать не могу.
Может быть, когда-нибудь соглашусь на «поглощение»… «Дикость, как, впрочем, любой компромисс…» (мое почтение всем, кто узнал культовый фильм).

Первый шаблон, самый простой, называется Full loader, что в переводе на русский звучит примерно как «грузите апельсины бочками» (сегодня квиз по цитатам из советских фильмов).

Применимость:

▪️ Нет атрибутов, по которым бы можно было отследить изменения данных
▪️Относительно небольшой объем (автор выбрал один миллион строк в качестве порогового значения)
▪️Данные изменяются очень редко

Автор заранее предостерегает от использования самой простой реализации данного шаблона «drop-and-insert», ибо это чревато ошибками в случае, если кому-то приспичило прочитать данные между фазами drop и insert, или же потерей истории изменения данных.

А коль скоро так, свой вариант он тоже предлагает.

Продолжение следует…
2👍1
Forwarded from CodeCamp
Отвлечёмся от новых айфонов на ночное-полезное: нашёл «библию дата-инженеров» — репозиторий, где собрано всё для входа в профессию и максимальный буст скиллов.

— 25+ книг, от базовых вроде «Fundamentals of Data Engineering» до сложных «Designing Data-Intensive Applications»;
— Топовые комьюнити и разные комнаты для общения (Discord, Slack, Data Talks Club);
— Обзоры компаний и утилит: от Airflow и Dagster до ClickHouse, dbt и DuckDB;
— Подкасты, блоги, ютуб-каналы и рассылки для постоянного апдейта;
— Подборка курсов и сертификаций от Google, Microsoft, AWS, Databricks.

Данные — сила
👍5🔥1
#заметкинаполях #depatterns

Чтение о книги о шаблонах движется пока очень медленно, тем не менее, разговор продолжаем.

«Фигура вторая, инкрементальная…» (квиз по советским фильмам не отпускает)

Используется, если есть нечто, что позволяет отделить новые данные от уже обработанных. Это может быть колонка в таблице или же отдельный файл/партиция. Сей шаблон позволяет значительно уменьшить объемы передаваемых данных.

Но…

Если в источнике данные удаляются, то вы об этом вряд ли узнаете.

Ежели вам все же хочется знать об удалениях или же сократить интервалы между «поглощениями» данных, то вашим выбором может стать шаблон под номером 3, именуемый Change Data Capture, а народе же более известный как CDC.

Суть сего метода заключается в подключении непосредственно к внутреннему журналу транзакций базы данных, что, в свою очередь, обеспечивает высокоскоростной доступ к измененным данным. Однако за все надо платить. Чем платить, автор тоже подробно рассказывает.

Продолжение следует…
👍4