NEW BOT Телеграм, страница

Data Engineer

Шпаргалка по Airflow от Marc Lamberti

👍8

567 views06:04

Data Engineer

Forwarded from 5 minutes of data

Вот ещё шпаргалка

👍3

693 views07:43

Data Engineer

Собрал все части воедино, поменял название и тональность.
Получилось мутно, плотно, в меру горько, в меру крепко. NE DIPA.

https://telegra.ph/Poigraem-v-DataOps-davaj-vecherom-04-16

#dataops

Telegraph

Поиграем в DataOps (давай вечером)

Все нижеизложенное есть моя авторская «интертрепация» содержимого книги «The DataOps CookBook», написанная исключительно с целью дать начальное понимание концепции непосвященным. Для полноценного погружения в тему рекомендуется обратиться к оригиналу. …

👍3🔥3😁2😐1

699 views06:41

Data Engineer

«По «Маяку» Стахан Рахимов дуэтом с Иошпе песни пел…»

Кажется, что сейчас самое время начать новый цикл публикаций, на этот раз посвященный вопросу настолько же легендарному, как и творчество упомянутой в заглавии супружеской четы, а именно - качеству данных. Сокращенно - ДК.

Тем более, что у меня наконец-то «дошел ход» до выпущенной в сентябре 2022 года товарищами из O'Reilly книги под названием «Data Quality Fundamentals», которая и послужит отправной точкой для данного повествования.
«Все, все как вчера…» - скажет внимательный читатель данного канала словами одной известной рок-поэтессы, ссылаясь на ее стихи практически сорокалетней давности. И будет безусловно прав…
Ибо фразу «работает - не трогай!» я избрал своим основным жизненным принципом еще тогда, когда никакого IT толком в моей жизни и не существовало.

Продолжение следует...

👍9

657 views05:45

Data Engineer

😁12

472 views06:24

Data Engineer

"А мужики-то не знали..."

https://habr.com/ru/companies/glowbyte/articles/821001/

Хабр

Open source GreenPlum: а что дальше?

Наверняка, многие уже слышали, что новый правообладатель GreenPlum — компания Broadcom — перевела репозитории с открытым исходным кодом на GitHub в архивный статус....

👍4

507 views13:46

Data Engineer

Всех с пятницей!

👍13

617 views15:05

Data Engineer

«Опять мне снится сон,
Один и тот же сон,
Как мы с коллегой Колею
распарсили JSON…»

Впервые с понятием «качество данных» я столкнулся на собеседовании году этак в 2012. Там же я узнал, что у ~~Висенте Феолы~~ Ральфа Кимбалла помимо ставшего классическим труда есть чуть менее известная книга про ETL. Незнание этих двух очевидных для интервьюирующего вещей и стало основной причиной того, что #меняневзяли.

С тех пор термин сей уверенно сопровождает меня на карьерном пути и периодически мне приходилось решать различные задачи с ним связанные. Для тех, кто хоть раз сталкивался с чем-то подобным Great Expectations - всего лишь весьма и весьма посредственный «шираз». Но тут, как говорится, на вкус и цвет…

Логично, что с тех пор любые разговоры на тему «качества данных» вызывают у меня примерно такую же реакцию, как и постоянно звучавшие из уст отечественных футбольных комментаторов во времена, когда у меня еще хватало терпения футбол смотреть, фразы вроде «гол в раздевалку» или «выкрутил позвонки». Тем более, что, перефразируя Брайана Клафа, «больше всего о качестве данных рассуждают люди, едва способные написать простой SQL-запрос».

Несмотря на мое отношение к данному вопросу, не могу не подчеркнуть его животрепещущую актуальность, для описания которой идеально подходят слова другой легенды английского тренерского цеха - Билла Шенкли: «Многие думают, что качество данных - это вопрос жизни и смерти. Они ошибаются, это намного важнее.»

Перейдем к сути. Не стану и в этот раз изобретать велосипед, воспользуюсь проверенным приемом, заимствованным у Льва Николаевича Гумилева, - начну с определения (каким его видят авторы «Data Quality Fundamentals»).

Качество данных - это «уровень здоровья» данных на каждом этапе их жизненного цикла.

продолжение следует…

#dataquality

👍4

491 views08:47

Data Engineer

Marc Lambertti опубликовал свои приоритеты в обучении инженеров данных:

1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake, Databricks, Airflow, Kafka, etc.)

Оригинал здесь - https://www.linkedin.com/posts/marclamberti_dataengineer-dataengineering-airflow-activity-7212461313275432960-XdMs?utm_source=share&utm_medium=member_desktop

What skills would you use as a data engineer? | Marc Lamberti posted on the topic | LinkedIn

If I had to become a data engineer again, these are the skills that I would prioritize 👇

1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake…

535 views09:26

Data Engineer

https://youtu.be/DXq3qtMgvBU?feature=shared

Лет так 5 назад мне казалось, что тренд на смузи-программистов, скучающих в ожидании секретарши, которая вот-вот должна привести аналитика или девопса, без которых дальнейшее решение задачи не представляется возможным, постепенно сходит на нет.

Но нет...

YouTube

Тренды Data Engineering от DEorDIE

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Тренды — это, может, и баззворд, но обсуждать их все равно важно, потому что они помогают сузить скоуп и быстрее ориентироваться в бескрайнем мире Data Engineering. Участники подкаста DEorDIE собрали…

461 viewsedited 12:25

Data Engineer

«Double-crossed by Neon Pill»

Я сначала хотел написать что-то на стариковско-ворчательном: «Ничего, мол, нового, «книга-ради-книги» и все это уже было в «Симпсонах»…»
Но потом вдруг вспомнил, как когда-то давно зачитывался книгами Ицика Бен-Гана и Брайана Найта, и подумал, что для кого-то эта книга может стать чем-то подобным, важным шагом на пути к своей мечте, путеводной звездой, остающейся в памяти надолго, как «первая любовь, что известна с древности, и в которой так много неизвестности». Ищи ее потом, эту «Синюю птицу», взмахом крыла поманившую», на рагу уже небось пущена злостными недоброжелателями, не слыхавшими «как поет Дроздов».

Начало книги довольно бодрое и традиционное для подобного класса: описание трудностей, связанных с обработкой больших данных, которые инструмент призван был разрешить, затем установка, настройка и прочий «курс молодого бойца».

Вторая часть посвящена более продвинутым вещам таким, как архитектура Trino, описание модели выполнения запросов и оптимизатора. По паре глав уделено коннекторам и использованию SQL.

Третья часть описывает аспекты эксплуатации такие, как безопасность, мониторинг и совместное использование Trino c другими инструментами из мира данных: Apache Superset, Apache Airflow и т.п.

Подведем итоги: книга написана простым и доступным английским языком, содержит множество иллюстраций и примеров кода, так что прочтение вряд ли отнимет значительный промежуток времени. «Старикам здесь не место», для вас есть официальная документация. Подойдет тем, кто никогда не слышал слов типа «Query Plan» или «Cost-Based Optimizer» или только слышал.

Мое же впечатление от книги наиболее точно передается словом из заглавной песни с нового альбома кумиров из ВИА «Cage The Elephant», под который она и читалась, - «double-crossed».
Не видать им «Грэмми» за третий подряд альбом, это и без всяких предиктивных моделей ясно.

Так бывает, когда выбираешь не ту пилюлю…
#trino #books #напочитать

👍9

582 views08:36

Data Engineer

Если верить написанному на этой картинке, то я родился сразу синьором...

Глядя на нее, я вспомнил одну старую сказку, в которой героине - соискательнице на роль спутницы жизни принца предложили выполнить тестовое задание в виде сна на горе тюфяков и перин с подложенной под них горошиной.
И тут же решил добавить в свой список вопросов к интервьюируемым мной инженерам следующие "горошины":

- Ваши действия при встрече с миддлом?
- Какие звуки Вы издаете при знакомстве с новым фреймворком?
- Встречалась ли ранее в вашей практике "такая х..ня"?
и т. п.

P.S. Да, я знаю, что сегодня еще не пятница, и время безудержного веселья еще не пришло... Но я-то в отпуске...

😁5👍1

388 views08:23

Data Engineer

Дата-контракты - тема сейчас, как очевидно, «хайповая», многим видится очередной «некстван», в то время как обитатели измайловских общежитий МГТУ имени Баумана нулевых годов почуяли теплый весенний ветерок и, позевывая, принялись искать в закромах жестких дисков тот самый текст: «Вот мы и в Канаде!!!»

Можно было бы,как обычно, начать с определения, но что в этом толку? Ибо как писал в «Закате Европы» Освальд Шпенглер: «Средство для уразумения живых форм — аналогия». А дата-контракты пока скорее живы. А раз так, то в очередной раз за иллюстрацией обратимся к лучшему сериалу для дата-специалистов любых профессий - «Тед Лассо».

В седьмом эпизоде третьего сезона под название «The Strings That Bind Us» игроки «Ричмонда» отрабатывают осознанность на поле при помощи предложенной Роем Кентом революционной методики: футболисты попарно соединены веревками, привязанными к их пенисам. «Скованным одной цепью» теперь приходится согласовывать свои действия друг с другом, «чтобы не было мучительно больно».

Вот эта веревка и есть дата-контракт или же «соглашение которое определяет, как данные должны быть структурированы, организованы для обмена между различными системами, приложениями или сторонами.»

Кажется, что подход рабочий, ведь «почти невозможно не знать, что делает твой товарищ, когда ты привязан к нему хозяйством». Рано или поздно взаимопонимание должно быть доведено «до автоматизма». Однако чудеса случаются лишь в сериалах, а на практике при исчезновении «веревки» происходит откат на прежние позиции.

Все будет идти как встарь, пока не реализуется «бессильная» тайна имени Сергея Витицкого (он же Борис Стругацкий): «Что-то загадочное и даже сакральное, может быть, должно произойти с этим миром, чтобы Человек Воспитанный стал этому миру нужен. Человечеству сделался бы нужен. Самому себе и ближнему своему.»

👍8

335 viewsedited 04:04

Data Engineer

#напочитать

Продолжаю разгребать свой бук-долг. С трудом, но осилил «Building the Data LakeHouse» Билла Инмона сотоварищи.

Книга легенды мира данных и отца data warehousing (сей факт задекларирован непосредственно на обложке) о популярной ныне архитектуре получилась слащаво-приторно-попсовой словно песни бойз-бенда какого. Порой реально вязнешь в этих молочных потоках умных слов с кисельными берегами. Несколько раз хотелось бросить (вместо пары дней чтение в итоге растянулось на пару недель), но ОКР упорно застявляло двигаться дальше.

Главным достоинством данной книги, на мой взгляд, является ее бесплатность (за деньги — нет!), скачать ее можно на сайте Databricks. Но при этом все по-честному: книга об архитектуре, а не о ее реализации на конкретной технологии, название компании упоминается на страницах не более, чем пару раз.

Помимо поклонников Билла Инмона и «коллекционеров» вроде меня, читающих все подряд, книга будет полезна тем, кто хочет узнать

• Что такое Data LakeHouse и зачем это нужно

• Какие существуют особенности реализации и эксплуатации

• Как обстоят дела с Data governance, Data Quality, Data lineage

https://www.databricks.com/resources/ebook/building-the-data-lakehouse

Databricks

Building the Data Lakehouse | Databricks

Explore the next generation of data architecture with the father of the data warehouse, Bill Inmon. Download a copy now.

👍1

310 views06:36

Data Engineer

#напочитать

Инженерия данных медленно, но верно движется в сторону стандартизации. Сначала авторы «Fundamentals of data engineering» дали идеальное, на мой взгляд, определение профессии и описали ее функционал, что позволило перейти отдельным продвинутым организациям к созданию и внедрению матриц компетенций с четким и прозрачным описанием уровней их владения и даже созданию собственных корпоративных курсов для «воспитания Бабы-Яги в своем коллективе».

Теперь вот O’Reilly планирует выпустить в марте 2025 «Data Engineering Design Patterns» за авторством некоего Bartosz Konieczny, утверждая на обложке, что книга содержит «рецепты для решения самых распространенных проблем».

Звучит интригующе. Судя по краткому содержанию, книга продолжает линию «Fundamentals of data engineering», описывая то, что и так известно опытным инженерам. Этот факт может ее сделать прекрасным обучающим материалом для начинающих и источником, на который можно ссылаться при случае.

Поживем – увидим…

https://www.oreilly.com/library/view/data-engineering-design/9781098165826/

O’Reilly Online Learning

Data Engineering Design Patterns

Data projects are an intrinsic part of an organization's technical ecosystem, but data engineers in many companies continue to work on problems that others have already solved. This... - Selection from Data Engineering Design Patterns [Book]

🔥5

365 viewsedited 08:39

Data Engineer

Интересующимся темой книги из предыдущего поста, а именно: «Data Engineering Design Patterns», рекомендую обратить свое внимание на один интересный ресурс.

Автор его по имени Simon Späti пишет книгу на ту же тему, но выкладывает главы в свободный доступ по мере их написания. Книга задумана не как справочное пособие, а как цельная история от начала до конца и предназначена для тех, кто уже знаком с базовыми понятиями инженерии данных, например, прочитавших «Fundamentals of data engineering» и теперь желающих продолжить свое обучение при помощи «практического руководства по применению шаблонов проектирования сложных, надежных и управляемых платформ данных».

Также автор предлагает поучаствовать в обсуждениях через форму обратной связи и обещает дать доступ к закрытому репозиторию на GitHub, в котором желающие могут предложить свои правки к тексту книги.

Интересно, какой из этих двух проектов придет к финишу раньше?🤔

dedp.online

Book: Data Engineering Design Patterns (DEDP): Timeless Practices for Data Engineers

A living Book about Data Engineering Design Patterns, exploring the evolution and its significance. Different from usual books. It does not come finished.

👍7

405 views07:33

Data Engineer

😁8

350 views05:37

Data Engineer

#напочитать

Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.

Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.

Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.

Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.

👍6

568 viewsedited 08:19

Data Engineer

#напочитать

Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».

Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»

Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…

«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.

Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.

👍5🔥1

359 views09:20

Data Engineer

Тема "Музыка with data" за 300.

Именно этой технологии (о которой речь пойдет в ближайших постах) "посвятили" свою песню композитор Игорь Николаев и поэтесса Лидия Козлова.

👏1

364 views07:03

Data Engineer

"Кто ты есть на самом деле...?"
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)

Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.

Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.

Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.

#напочитать

Dremio

Apache Iceberg: The Definitive Guide | Dremio

Master Apache Iceberg with this comprehensive guide by Dremio. Get expert insights on how to optimize big data management with open table formats.

👍4

330 views10:29

About

Blog

Apps

Platform