Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
#заметкинаполях #datapipelinespocketreference

Еще один экземпляр из бумажной коллекции, любовью к которой я проникаюсь все больше и больше, ибо является она чудесным спасением от мирской суеты последней пятилетки. Возможно, дело в успокаивающем шелесте перелистываемых страниц, восможно, в чем-то еще, но в электронных книгах этого нет. «Be still, в общем, and know that I am» - советует в одной из своих композиций британский товарищ Терри Олдфилд, старший брат, ну, того самого, который «Tubular Bells», который в некотором роде тоже «конвейер».

Автор данной книги, некий Джеймс Денсмор, доселе мне незнакомый, утверждает, что она «описывает передовые методы построения конвейеров данных в современную эпоху», и объявляет своей целью «чтобы эта книга стала для вас путеводителем и карманным справочником», потому что «конвейеры данных - это основа успеха в области анализа данных и машинного обучения”.

Подписываясь под каждым словом из последней цитаты предыдущего абзаца, напишу свое уже традиционное «продолжение следует…»
👍3🔥1
#заметкинаполях #datapipelinepocketreference

Начинается книга с расшифровки основных понятий, описания навыков, необходимых разработчикам конвейеров данных, и обсуждения современной инфраструктуры данных.

Ключевая мысль первой главы, на мой взгляд, заключается в следующем абзаце:

«Конвейеры данных не только строить - их нужно контролировать, обслуживать и развивать. Перед инженерами данных стоит задача не просто организовать доставку данных тем или иным способом, но и создать конвейеры и поддерживающую инфраструктуру, которые обеспечивают надежную, безопасную и своевременную доставку и обработку данных. Это нелегкий подвиг, но, когда все сделано правильно, можно спокойно сосредоточиться на извлечении ценной информации из данных организации».


продолжение следует...
👍2
StarRocks meetup

Всем привет.
Рады пригласить вас на первый онлайн митап по восходящей звезде аналитических баз данных StarRocks 19 июня в 19:00МСК. Митап состоится онлайн, регистрация по ссылке.

Сообщество пользователей подготовило 2 доклада, охватывающие весь спектр задач - от типичного dwh небольшой компании до использования lakehouse движка поверх S3 и открытых форматов. От часовых витрин до bi безумия из сотен тысяч запросов. Мы постараемся ответить - жив ли еще опенсорс, есть ли альтернатива кликхаузу, гринпламу или трино. А если вдруг что-то забудем, то после докладов приглашаем вас на сессию вопросов и ответов в zoom к докладчикам 👍
👍4
#заметкинаполях #datapipelinepocketreference


Глава третья посвящена обсуждению ETL/ELT, про это сказано очень много и картинок много нарисовано, вот у меня тут одна из них, уже примелькавшаяся в других каналах, приведена.

Но у меня есть свой (Yet Another) вариант.

На футбольном языке ETL - это «спартаковские кружева», стиль, который «заключается в постоянном контроле мяча с помощью выверенных коротких/средних передач и последующих своевременных открываниях преимущественно на чужой половине поля».

ELT, в свою очередь, - это тактика, более известная как «бей-беги», основанная на длинных передачах, предполагающая минимальную работу в центре поля и быстрый переход от обороны к атаке.

В современном мире ELT практически вытеснил ETL, команды предпочитают «пульнуть» мяч пользователю, а он там сам уже разберется, что ему с этими данными делать, если, конечно, пользователь обладает необходимыми для этого навыками таргетмена.

Иногда бывает полезно выполнить некоторые преобразования перед загрузкой, такие как удаление дубликатов строк или же маскировка конфиденциальных данных. Этот подшаблон иногда называют EtLT или же гегенпрессинг, вместо того, чтобы «перегруппировываться и ждать», организуется моментальное «нападение» на данные, часто результат стоит затраченных усилий, смело используйте, если вашего CDO зовут Юрген Клопп.

P.S. Когда-нибудь я, вдохновленный творчеством Дуги Бримсона, обязательно напишу большую статью, что-то типа «Все о данных для настоящих мужиков».

P.P.S Я снова читаю «Улисса» (на этот раз английском) и, кажется, Джойса в моем творчестве становится слишком много. Это пройдет. Или нет. Потому что в планах прочитать всего Джойса.
👍5
Наблюдал сегодня за попыткой десятимесячного сына выбраться из стульчика для купания(кто не знает, что это такое - см фото). Он встал на ноги, придерживаясь за поручни, но не стал перешагивать, а перегнулся через них и перелез, то есть свел задачу к той, которую он умеет решать хорошо.

Эти натолкнуло меня на мысль, что в роли CDO очень полезен архитектурный бэкграунд. По сути, в проектируемой системе на уровне C1 появляется еще один вид связи, который нужно учитывать: связи между людьми. Таким образом, «вылив воду из чайника, задачу можно легко свести к предыдущей».

К слову, подобный прием предлагал великому ультрамарафонцу Скотту Джуреку, мандражировавшему перед выходом на старт дебютного стомильника, его друг Дасти Олсен: «Это всего лишь пятидесятимильник, а потом еще один пятидесятимильник, а бегать пятидесятимильники ты уже умеешь».

Объединив эти случаи можно сформулировать Закон чайника-стульчика-Олсена: «Довольно часто сложную и незнакомую задачу можно свести к простой и знакомой при помощи смекалки».

P.S. И да, я просто пародирую здесь Джерри Вайнберга.
👍5
#заметкинаполях #datapipelinepocketreference

Нанес на свою беговую карту очередную локацию - старинный русский город Тотьму, «город музеев и мореходов», «родину души» замечательного русского поэта Николая Рубцова, «долго гнавшего свой велосипед и остановившего его в глухих лугах, чтобы нарвать цветов и подарить букет любимой девушке». Легкая сорокаминутная пробежка на низком пульсе (до 120 ударов в минуту) - идеальная возможность и город осмотреть, и о планах на рабочий день подумать.

Вернемся ненадолго к книге о конвейерах данных, в прочитанных к сему моменту главах много кода, говорить особо не о чем.

Глава 4 посвящена извлечению данных из различных источников, таких как: MySQL, PostgreSQL, MongoDB, REST API и загрузке их в S3. В главе 5 данные переносятся из S3 в RedShift и Snowflake. Глава 6 - про преобразование данных, слегка затрагивается тема моделирования.

А Тотьма, одна из «жемчужин Русского Севера», летом хороша, рай для удаленщика, пусть и без тыквенного латте и чибисовских неип. Как же чудесно встать в 5 утра, взять ноутбук и книжку, помахать приветственно памятнику Николая Михайловича, окунуться по пояс в зеленое море дикорастущих трав и, глазея на почти неподвижную Сухону, под щебет птиц писать сие сообщение.
👍6
Красивое
😁11
#заметкинаполях #datapipelinepocketreference

Глава 7 посвящена «оркестровке» конвейеров данных - процессу, «обеспечивающему надлежащее управление зависимостями и выполнение шагов конвейера в правильном порядке», - и одному из самых популярных инструментов такого рода - Apache Airflow.

Airflow в мире данных - это как Джек Дэниэлс в беге, то есть довольно простой инструмент, предоставляющий весь функционал, необходимый для объединения отдельных, различных по типу задач в единый «тренировочный конвейер», направленный на достижение конкретной цели и вместе с тем обладающий механизмами для контроля текущего статуса.

В главе содержатся основные сведения об Airflow: история возникновения, установка и настройка, компоненты, примеры создания DAG.

Стоит упомянуть, что в книге рассматривается версия 1, а 2 только предвкушается, в то время как совсем недавно свет увидел Airflow 3. Надеюсь, что, подобно великой книге Джека Дэниэлса, сей инструмент ждет еще множество переизданий.

продолжение следует...
👍2
#заметкинаполях #datapipelinepocketreference

В отпуске совсем не хочется ни читать, ни писать, ни думать на рабочие темы, тем более, что провожу я его в этот раз на своей малой Родине - селе Ильинско-Подомское, расположенном на юге Архангельской области.

Главной местной достопримечательностью, на мой взгляд, является новенький, открытый прошлой осенью стадион с четырехсотметровым кругом и весьма приличными беговыми дорожками, в моих московских локациях: ДДС и Таганский Парк - качество дорожек примерно такое же. Успел тут уже установить парочку тренировочных season best, постепенно приближаясь к самому себе образца 2018 года.

Занимательный факт: восстанавливаюсь здесь я намного быстрее, чем в Москве, при том, что встаю намного раньше и сплю меньше. «Наверно, это мой рай.» - пела исполнительница дорогого сердцу каждого красно-белого хита «Знаешь ли ты?».

Тем не менее, книгу о конвейерах я все-таки дочитал.

Глава 8 посвящена проверкам качества данных, приведен пример разработки простого фреймворка для осуществления сего действа, описаны основные отслеживаемые метрики.

Глава 9 рассказывает о передовых методах обслуживания конвейеров.

Глава 10 - про измерение и мониторинг производительности.

На этом книга все, в следующий раз подведем итоги.

продолжение следует...
👍4🥰1
#заметкинаполях #datapipelinepocketreference

Подведем итоги. 


Книга, на мой взгляд, несмотря на заверения автора, в первую очередь предназначена для новичков, благодаря внятному и хорошо структурированному изложению основ и многообразию примеров (кода в том числе),  и будет служить прекрасной альтернативой / дополнением другим источникам обучения, таким как курсы, интенсивы и вот это вот все.

Для более опытных специалистов может показаться скучной, наверняка, весь материал вы давно уже усвоили и много раз применяли на практике, опять же много кода, который я, к примеру, просмотрел по диагонали. Полезной книга окажется тем, кто задумывается о создании собственного курса по инженерии данных (благодаря внятному и хорошо структурированному изложению основ и многообразию примеров) или ищет материал для телеграм-канала (как я).
👍7
Архитектор данных своим постом подкинул идею написать про то, что разделило жизнь в роли «продающего эксперта» на До и После. В моем случае таким сепаратором стала книга Джеральда Вайнберга «Закон малинового варенья». Никто не сможет представить ее лучше самого автора: «Если вы консультант или когда-нибудь пользовались услугами консультанта, тогда эта книга для вас. Она рассчитана на широкую аудиторию, поскольку в настоящее время практически каждый является своего рода консультантом».

А я просто приведу свои любимые цитаты из нее. Хорошо бы и книгу, конечно, перечитывать периодически, ибо сказанное в ней я регулярно забываю в повседневной жизни, получаю очередными граблями по голове и опять отправляюсь на штрафной круг…

«Любой, кто не озадачен и не сбит с толку современной действительностью, потерял связь с реальностью.»

«Один из способов, используемых руководителями, чтобы избежать упоминания о том, что у них есть проблема, — назвать эту проблему «технической».

«Найдите какую-нибудь систему, которая в чем-либо похожа на ту, которую вы проверяете, и используйте ее как источник идей. Био­логия, психология, инженерное дело, спорт, семейная жизнь, здо­ровье — все это возможные варианты. Системы не обязательно должны быть одинаковыми: вы ищете идеи, а не ответы.»

«Если повнимательнее присмотреться к набору хитрых прие­мов консультанта, легко обнаружить, что лучшие из них не имеют ничего общего с их «специализацией и могут быть использованы консультантами в любой области деятельности.»

«Чем лучше вы приспособлены к существующим условиям, тем сложнее вам будет адаптироваться к изменениям в будущем.»
🔥4
Forwarded from StarRocks meetup 19.06
📼 Запись митапа теперь доступна!
Если пропустили эфир или хотите пересмотреть — мы всё сохранили.
Смотрите на любой удобной платформе
🔥2
Все так. К сожалению, подобный уровень аналитической культуры все еще довольно распространен, причем характерен не только для маленьких компаний, вроде автосервиса «У Ашота», но и для весьма крупных. С одной стороны, это означает, что у подобных мне специалистов всегда будет работа. С другой же, хочется решить задачу в общем виде.

Вопросы культуры меня занимают довольно давно, но, в основном, факультативно, теперь же - это часть моих рабочих обязанностей, а значит, пора изучить его подробнее.

Про книгу Карла Андерсона «Аналитическая культура. От сбора данных до бизнес-результатов» я узнал из прекрасной статьи коллег из Лемана Про о том, как они внедряли корпоративную BI-школу (статья - тут, если кто пропустил), и, наконец-то, до нее дошел ход. Как обычно, буду держать в курсе.
👍3
В качестве иллюстрации к сегодняшней публикации я выбрал обложку альбома «Leaders of tomorrow» шведского панк-ансамбля Perkele, и это неслучайно. Не могу не вставить свои 5 копеек в дискуссию о том, что менеджеры - первые кандидаты на замену ИИ.

«Закон малинового варенья» предлагает нам искать в окружающем мире системы, похожие на ту, которой мы занимаемся, и использовать их как источники для идей. Лет так 5 назад я заметил, что мир данных подозрительно напоминает мне своим развитием футбол. В футболе были свои Инмон, Кимбалл, Линстед и даже Жамак Дегани. Датеры - это те же футболисты, только с зарплатами на минималках. Ожидаю появления среди отечественных специалистов своих Кокорина и Мамаева, а также Дзюбы, куда ж без него. Брайан Клаф, к примеру, есть, он уже встретил свой «проклятый Юнайтед» и теперь пытается поднять «Ноттингем».

Так вот, пример футбола нам говорит, что под нож пошли «десятки», а не тренеры, роль которых, наоборот, сильно возросла, как бы ни силился Александр Мостовой доказать обратное. ИИ сыграет роль «физухи», которая при достаточной тактической выучке и дисциплине скомпенсирует недостаток «техники», соответственно, спрос на тех, кто умеет ставить «тактику» в ИТ вырастет. Он уже растет, вызывая неиллюзорную тоску по старым добрым временам и «сведение олд скул».

Будущее мира данных принадлежит менеджерам, а не «технарям». И к этому нужно быть готовым.
#datadrivenorganisation #заметкинаполях

Читая книгу Карла андерсона наткнулся на:
Суть процесса управления компанией на основе данных не сводится к данным как таковым или к обладанию самым современным набором инструментов по работе с большими данными. Самое важное в этом — корпоративная культура. Культура организации — доминирующий фактор, который устанавливает ожидания относительно того, насколько демократичным будет процесс работы с данными, как эти данные станут использоваться внутри организации, какие ресурсы, в том числе
образовательные, станут инвестироваться в использование данных как стратегического актива компании.


В тоже время, сегодня, пролистывая ленту в одной заблокированной в РФ соцсети, вычитал интересную мысль, что в работе CDO очень важно донести, что CDO - это не ETL-директор, исключительно конвейеры данных настраивающий, но человек, отвечающий за развитие культуры данных. А в комментариях спросили: «А зачем отделять одно от другого?»

Полностью согласен, предлагаю переименовать сию позицию в NOETL-директор (по аналогии с NOSQL), чтобы всем окончательно стало все понятно.
#datadrivenorganisation #заметкинаполях

Вторая глава посвящена качеству данных. Можно выделить в ней следующие ключевые мысли:

«При работе с большими масштабами данных всегда помните, что вещи, которые случаются “один раз на миллион”,
могут произойти в каждую секунду!»


Каждый участник аналитической цепочки ценности должен следить за качеством данных.


Ну и, конечно же, качество данных в источнике - задача команды источника, а не дата-специалистов. Об этом забывают, по-моему, чаще всего.
👍4
#datadrivenorganisation #заметкинаполях

Третья глава описывает процесс сбора данных.

«Собирайте все доступные данные. Никогда не знаешь, какая информация может понадобиться…»


...«собирать все, что можно» звучит как отличная идея, которая оборачивается серьезной «головной болью», когда доходит до
дела.


Для тех, кто поспешил диагностировать у автора признаки биполярного расстройства (как я, например), прочитав две предыдущие цитаты, есть еще одна:
«Определяя приоритеты при выборе источников данных, компания, в которой управление осуществляется на основе данных, должна сосредоточиться на таком важном аспекте, как ценность данных для бизнеса.»


Отдельный респект автору от меня за список аспектов, на которые стоит обратить внимание при расстановке приоритетов. Не то, чтобы там содержалось что-то секретное, но подобные «шпаргалки» всегда хорошо иметь под рукой.
#заметкинаполях #datadrivenorganisation

Глава 4 посвящена специалистам по данным: разным их типам и
навыкам, которыми они должны обладать.

«Аналитика — это командный спорт. При найме новых сотрудников принимается во внимание «портфолио» совокупных навыков всей команды, чтобы найти таких потенциальных кандидатов, которые «закроют» и усилят проблемные области.»


Я словно слышу тут Билли Бина, произносящего голосом Брэда Питта в фильме «Человек, который изменил все»: «Мы не можем заменить Джамби, но мы можем воссоздать его в совокупности.»

«Далее мы рекомендуем вам бросить вызов. Если вы аналитик, бросьте вызов самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Если вы руководите аналитиками, поставьте перед ними такую задачу. Попробуйте и увидите, какой будет результат. Вы будете удивлены.»


Кажется, автор является большим любителем спорта и использует его в качестве источника вдохновения.

Ну, и на закуску представлены описания централизованной и децентрализованной моделей работы аналитиков в контексте компании.
👍3
Андрей сегодня впервые лет этак за 7 на тренировке выбежал 200м из 30 секунд - 28.6.
Дата-спринтер возвращается! И дата-стендапер, похоже, тоже😁

Всех с пятницей!
🔥6🤝1
#заметкинаполях #datadrivenorganisation

Продолжаю чтение «Аналитической культуры».
Пятая глава посвящена различным видам анализа данных таким как:

▪️описательный (denoscriptive) - обеспечивает количественное описание набора
данных;
▪️разведочный (exploratory, ну, и перевод🤦‍♂️) - позволяет опровергнуть или подтвердить наши предположения относительно данных;
индуктивный (inferential) - позволяет делать выводы о большей популяции на основе данных, собранных из меньшей выборки;
▪️прогностический (predictive) - изучает взаимосвязи между переменными на основе существующего набора данных и разрабатывает статистическую модель, способную прогнозировать значения для новых, неполных или будущих точек данных;
▪️каузальный (причинно-следственный) (causal) - позволяет выявить и изучить взаимосвязи между переменными;
▪️механистический (mechanistic);

Кроме того, автор приводит словарь основных аналитических терминов и мер, а также рекомендации сотрудникам и руководителям для более эффективного влияния на деятельность компании. Весьма полезная информация для тех, кто с анализом данных не сталкивался.
👍1