Собрал все части воедино, поменял название и тональность.
Получилось мутно, плотно, в меру горько, в меру крепко. NE DIPA.
https://telegra.ph/Poigraem-v-DataOps-davaj-vecherom-04-16
#dataops
Получилось мутно, плотно, в меру горько, в меру крепко. NE DIPA.
https://telegra.ph/Poigraem-v-DataOps-davaj-vecherom-04-16
#dataops
Telegraph
Поиграем в DataOps (давай вечером)
Все нижеизложенное есть моя авторская «интертрепация» содержимого книги «The DataOps CookBook», написанная исключительно с целью дать начальное понимание концепции непосвященным. Для полноценного погружения в тему рекомендуется обратиться к оригиналу. …
👍3🔥3😁2😐1
«По «Маяку» Стахан Рахимов дуэтом с Иошпе песни пел…»
Кажется, что сейчас самое время начать новый цикл публикаций, на этот раз посвященный вопросу настолько же легендарному, как и творчество упомянутой в заглавии супружеской четы, а именно - качеству данных. Сокращенно - ДК.
Тем более, что у меня наконец-то «дошел ход» до выпущенной в сентябре 2022 года товарищами из O'Reilly книги под названием «Data Quality Fundamentals», которая и послужит отправной точкой для данного повествования.
«Все, все как вчера…» - скажет внимательный читатель данного канала словами одной известной рок-поэтессы, ссылаясь на ее стихи практически сорокалетней давности. И будет безусловно прав…
Ибо фразу «работает - не трогай!» я избрал своим основным жизненным принципом еще тогда, когда никакого IT толком в моей жизни и не существовало.
Продолжение следует...
Кажется, что сейчас самое время начать новый цикл публикаций, на этот раз посвященный вопросу настолько же легендарному, как и творчество упомянутой в заглавии супружеской четы, а именно - качеству данных. Сокращенно - ДК.
Тем более, что у меня наконец-то «дошел ход» до выпущенной в сентябре 2022 года товарищами из O'Reilly книги под названием «Data Quality Fundamentals», которая и послужит отправной точкой для данного повествования.
«Все, все как вчера…» - скажет внимательный читатель данного канала словами одной известной рок-поэтессы, ссылаясь на ее стихи практически сорокалетней давности. И будет безусловно прав…
Ибо фразу «работает - не трогай!» я избрал своим основным жизненным принципом еще тогда, когда никакого IT толком в моей жизни и не существовало.
Продолжение следует...
👍9
«Опять мне снится сон,
Один и тот же сон,
Как мы с коллегой Колею
распарсили JSON…»
Впервые с понятием «качество данных» я столкнулся на собеседовании году этак в 2012. Там же я узнал, что уВисенте Феолы Ральфа Кимбалла помимо ставшего классическим труда есть чуть менее известная книга про ETL. Незнание этих двух очевидных для интервьюирующего вещей и стало основной причиной того, что #меняневзяли.
С тех пор термин сей уверенно сопровождает меня на карьерном пути и периодически мне приходилось решать различные задачи с ним связанные. Для тех, кто хоть раз сталкивался с чем-то подобным Great Expectations - всего лишь весьма и весьма посредственный «шираз». Но тут, как говорится, на вкус и цвет…
Логично, что с тех пор любые разговоры на тему «качества данных» вызывают у меня примерно такую же реакцию, как и постоянно звучавшие из уст отечественных футбольных комментаторов во времена, когда у меня еще хватало терпения футбол смотреть, фразы вроде «гол в раздевалку» или «выкрутил позвонки». Тем более, что, перефразируя Брайана Клафа, «больше всего о качестве данных рассуждают люди, едва способные написать простой SQL-запрос».
Несмотря на мое отношение к данному вопросу, не могу не подчеркнуть его животрепещущую актуальность, для описания которой идеально подходят слова другой легенды английского тренерского цеха - Билла Шенкли: «Многие думают, что качество данных - это вопрос жизни и смерти. Они ошибаются, это намного важнее.»
Перейдем к сути. Не стану и в этот раз изобретать велосипед, воспользуюсь проверенным приемом, заимствованным у Льва Николаевича Гумилева, - начну с определения (каким его видят авторы «Data Quality Fundamentals»).
Качество данных - это «уровень здоровья» данных на каждом этапе их жизненного цикла.
продолжение следует…
#dataquality
Один и тот же сон,
Как мы с коллегой Колею
распарсили JSON…»
Впервые с понятием «качество данных» я столкнулся на собеседовании году этак в 2012. Там же я узнал, что у
С тех пор термин сей уверенно сопровождает меня на карьерном пути и периодически мне приходилось решать различные задачи с ним связанные. Для тех, кто хоть раз сталкивался с чем-то подобным Great Expectations - всего лишь весьма и весьма посредственный «шираз». Но тут, как говорится, на вкус и цвет…
Логично, что с тех пор любые разговоры на тему «качества данных» вызывают у меня примерно такую же реакцию, как и постоянно звучавшие из уст отечественных футбольных комментаторов во времена, когда у меня еще хватало терпения футбол смотреть, фразы вроде «гол в раздевалку» или «выкрутил позвонки». Тем более, что, перефразируя Брайана Клафа, «больше всего о качестве данных рассуждают люди, едва способные написать простой SQL-запрос».
Несмотря на мое отношение к данному вопросу, не могу не подчеркнуть его животрепещущую актуальность, для описания которой идеально подходят слова другой легенды английского тренерского цеха - Билла Шенкли: «Многие думают, что качество данных - это вопрос жизни и смерти. Они ошибаются, это намного важнее.»
Перейдем к сути. Не стану и в этот раз изобретать велосипед, воспользуюсь проверенным приемом, заимствованным у Льва Николаевича Гумилева, - начну с определения (каким его видят авторы «Data Quality Fundamentals»).
Качество данных - это «уровень здоровья» данных на каждом этапе их жизненного цикла.
продолжение следует…
#dataquality
👍4
Marc Lambertti опубликовал свои приоритеты в обучении инженеров данных:
1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake, Databricks, Airflow, Kafka, etc.)
Оригинал здесь - https://www.linkedin.com/posts/marclamberti_dataengineer-dataengineering-airflow-activity-7212461313275432960-XdMs?utm_source=share&utm_medium=member_desktop
1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake, Databricks, Airflow, Kafka, etc.)
Оригинал здесь - https://www.linkedin.com/posts/marclamberti_dataengineer-dataengineering-airflow-activity-7212461313275432960-XdMs?utm_source=share&utm_medium=member_desktop
Linkedin
What skills would you use as a data engineer? | Marc Lamberti posted on the topic | LinkedIn
If I had to become a data engineer again, these are the skills that I would prioritize 👇
1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake…
1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake…
https://youtu.be/DXq3qtMgvBU?feature=shared
Лет так 5 назад мне казалось, что тренд на смузи-программистов, скучающих в ожидании секретарши, которая вот-вот должна привести аналитика или девопса, без которых дальнейшее решение задачи не представляется возможным, постепенно сходит на нет.
Но нет...
Лет так 5 назад мне казалось, что тренд на смузи-программистов, скучающих в ожидании секретарши, которая вот-вот должна привести аналитика или девопса, без которых дальнейшее решение задачи не представляется возможным, постепенно сходит на нет.
Но нет...
YouTube
Тренды Data Engineering от DEorDIE
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Тренды — это, может, и баззворд, но обсуждать их все равно важно, потому что они помогают сузить скоуп и быстрее ориентироваться в бескрайнем мире Data Engineering. Участники подкаста DEorDIE собрали…
— —
Тренды — это, может, и баззворд, но обсуждать их все равно важно, потому что они помогают сузить скоуп и быстрее ориентироваться в бескрайнем мире Data Engineering. Участники подкаста DEorDIE собрали…
«Double-crossed by Neon Pill»
Я сначала хотел написать что-то на стариковско-ворчательном: «Ничего, мол, нового, «книга-ради-книги» и все это уже было в «Симпсонах»…»
Но потом вдруг вспомнил, как когда-то давно зачитывался книгами Ицика Бен-Гана и Брайана Найта, и подумал, что для кого-то эта книга может стать чем-то подобным, важным шагом на пути к своей мечте, путеводной звездой, остающейся в памяти надолго, как «первая любовь, что известна с древности, и в которой так много неизвестности». Ищи ее потом, эту «Синюю птицу», взмахом крыла поманившую», на рагу уже небось пущена злостными недоброжелателями, не слыхавшими «как поет Дроздов».
Начало книги довольно бодрое и традиционное для подобного класса: описание трудностей, связанных с обработкой больших данных, которые инструмент призван был разрешить, затем установка, настройка и прочий «курс молодого бойца».
Вторая часть посвящена более продвинутым вещам таким, как архитектура Trino, описание модели выполнения запросов и оптимизатора. По паре глав уделено коннекторам и использованию SQL.
Третья часть описывает аспекты эксплуатации такие, как безопасность, мониторинг и совместное использование Trino c другими инструментами из мира данных: Apache Superset, Apache Airflow и т.п.
Подведем итоги: книга написана простым и доступным английским языком, содержит множество иллюстраций и примеров кода, так что прочтение вряд ли отнимет значительный промежуток времени. «Старикам здесь не место», для вас есть официальная документация. Подойдет тем, кто никогда не слышал слов типа «Query Plan» или «Cost-Based Optimizer» или только слышал.
Мое же впечатление от книги наиболее точно передается словом из заглавной песни с нового альбома кумиров из ВИА «Cage The Elephant», под который она и читалась, - «double-crossed».
Не видать им «Грэмми» за третий подряд альбом, это и без всяких предиктивных моделей ясно.
Так бывает, когда выбираешь не ту пилюлю…
#trino #books #напочитать
Я сначала хотел написать что-то на стариковско-ворчательном: «Ничего, мол, нового, «книга-ради-книги» и все это уже было в «Симпсонах»…»
Но потом вдруг вспомнил, как когда-то давно зачитывался книгами Ицика Бен-Гана и Брайана Найта, и подумал, что для кого-то эта книга может стать чем-то подобным, важным шагом на пути к своей мечте, путеводной звездой, остающейся в памяти надолго, как «первая любовь, что известна с древности, и в которой так много неизвестности». Ищи ее потом, эту «Синюю птицу», взмахом крыла поманившую», на рагу уже небось пущена злостными недоброжелателями, не слыхавшими «как поет Дроздов».
Начало книги довольно бодрое и традиционное для подобного класса: описание трудностей, связанных с обработкой больших данных, которые инструмент призван был разрешить, затем установка, настройка и прочий «курс молодого бойца».
Вторая часть посвящена более продвинутым вещам таким, как архитектура Trino, описание модели выполнения запросов и оптимизатора. По паре глав уделено коннекторам и использованию SQL.
Третья часть описывает аспекты эксплуатации такие, как безопасность, мониторинг и совместное использование Trino c другими инструментами из мира данных: Apache Superset, Apache Airflow и т.п.
Подведем итоги: книга написана простым и доступным английским языком, содержит множество иллюстраций и примеров кода, так что прочтение вряд ли отнимет значительный промежуток времени. «Старикам здесь не место», для вас есть официальная документация. Подойдет тем, кто никогда не слышал слов типа «Query Plan» или «Cost-Based Optimizer» или только слышал.
Мое же впечатление от книги наиболее точно передается словом из заглавной песни с нового альбома кумиров из ВИА «Cage The Elephant», под который она и читалась, - «double-crossed».
Не видать им «Грэмми» за третий подряд альбом, это и без всяких предиктивных моделей ясно.
Так бывает, когда выбираешь не ту пилюлю…
#trino #books #напочитать
👍9
Если верить написанному на этой картинке, то я родился сразу синьором...
Глядя на нее, я вспомнил одну старую сказку, в которой героине - соискательнице на роль спутницы жизни принца предложили выполнить тестовое задание в виде сна на горе тюфяков и перин с подложенной под них горошиной.
И тут же решил добавить в свой список вопросов к интервьюируемым мной инженерам следующие "горошины":
- Ваши действия при встрече с миддлом?
- Какие звуки Вы издаете при знакомстве с новым фреймворком?
- Встречалась ли ранее в вашей практике "такая х..ня"?
и т. п.
P.S. Да, я знаю, что сегодня еще не пятница, и время безудержного веселья еще не пришло... Но я-то в отпуске...
Глядя на нее, я вспомнил одну старую сказку, в которой героине - соискательнице на роль спутницы жизни принца предложили выполнить тестовое задание в виде сна на горе тюфяков и перин с подложенной под них горошиной.
И тут же решил добавить в свой список вопросов к интервьюируемым мной инженерам следующие "горошины":
- Ваши действия при встрече с миддлом?
- Какие звуки Вы издаете при знакомстве с новым фреймворком?
- Встречалась ли ранее в вашей практике "такая х..ня"?
и т. п.
P.S. Да, я знаю, что сегодня еще не пятница, и время безудержного веселья еще не пришло... Но я-то в отпуске...
😁5👍1
Дата-контракты - тема сейчас, как очевидно, «хайповая», многим видится очередной «некстван», в то время как обитатели измайловских общежитий МГТУ имени Баумана нулевых годов почуяли теплый весенний ветерок и, позевывая, принялись искать в закромах жестких дисков тот самый текст: «Вот мы и в Канаде!!!»
Можно было бы,как обычно, начать с определения, но что в этом толку? Ибо как писал в «Закате Европы» Освальд Шпенглер: «Средство для уразумения живых форм — аналогия». А дата-контракты пока скорее живы. А раз так, то в очередной раз за иллюстрацией обратимся к лучшему сериалу для дата-специалистов любых профессий - «Тед Лассо».
В седьмом эпизоде третьего сезона под название «The Strings That Bind Us» игроки «Ричмонда» отрабатывают осознанность на поле при помощи предложенной Роем Кентом революционной методики: футболисты попарно соединены веревками, привязанными к их пенисам. «Скованным одной цепью» теперь приходится согласовывать свои действия друг с другом, «чтобы не было мучительно больно».
Вот эта веревка и есть дата-контракт или же «соглашение которое определяет, как данные должны быть структурированы, организованы для обмена между различными системами, приложениями или сторонами.»
Кажется, что подход рабочий, ведь «почти невозможно не знать, что делает твой товарищ, когда ты привязан к нему хозяйством». Рано или поздно взаимопонимание должно быть доведено «до автоматизма». Однако чудеса случаются лишь в сериалах, а на практике при исчезновении «веревки» происходит откат на прежние позиции.
Все будет идти как встарь, пока не реализуется «бессильная» тайна имени Сергея Витицкого (он же Борис Стругацкий): «Что-то загадочное и даже сакральное, может быть, должно произойти с этим миром, чтобы Человек Воспитанный стал этому миру нужен. Человечеству сделался бы нужен. Самому себе и ближнему своему.»
Можно было бы,как обычно, начать с определения, но что в этом толку? Ибо как писал в «Закате Европы» Освальд Шпенглер: «Средство для уразумения живых форм — аналогия». А дата-контракты пока скорее живы. А раз так, то в очередной раз за иллюстрацией обратимся к лучшему сериалу для дата-специалистов любых профессий - «Тед Лассо».
В седьмом эпизоде третьего сезона под название «The Strings That Bind Us» игроки «Ричмонда» отрабатывают осознанность на поле при помощи предложенной Роем Кентом революционной методики: футболисты попарно соединены веревками, привязанными к их пенисам. «Скованным одной цепью» теперь приходится согласовывать свои действия друг с другом, «чтобы не было мучительно больно».
Вот эта веревка и есть дата-контракт или же «соглашение которое определяет, как данные должны быть структурированы, организованы для обмена между различными системами, приложениями или сторонами.»
Кажется, что подход рабочий, ведь «почти невозможно не знать, что делает твой товарищ, когда ты привязан к нему хозяйством». Рано или поздно взаимопонимание должно быть доведено «до автоматизма». Однако чудеса случаются лишь в сериалах, а на практике при исчезновении «веревки» происходит откат на прежние позиции.
Все будет идти как встарь, пока не реализуется «бессильная» тайна имени Сергея Витицкого (он же Борис Стругацкий): «Что-то загадочное и даже сакральное, может быть, должно произойти с этим миром, чтобы Человек Воспитанный стал этому миру нужен. Человечеству сделался бы нужен. Самому себе и ближнему своему.»
👍8
#напочитать
Продолжаю разгребать свой бук-долг. С трудом, но осилил «Building the Data LakeHouse» Билла Инмона сотоварищи.
Книга легенды мира данных и отца data warehousing (сей факт задекларирован непосредственно на обложке) о популярной ныне архитектуре получилась слащаво-приторно-попсовой словно песни бойз-бенда какого. Порой реально вязнешь в этих молочных потоках умных слов с кисельными берегами. Несколько раз хотелось бросить (вместо пары дней чтение в итоге растянулось на пару недель), но ОКР упорно застявляло двигаться дальше.
Главным достоинством данной книги, на мой взгляд, является ее бесплатность (за деньги — нет!), скачать ее можно на сайте Databricks. Но при этом все по-честному: книга об архитектуре, а не о ее реализации на конкретной технологии, название компании упоминается на страницах не более, чем пару раз.
Помимо поклонников Билла Инмона и «коллекционеров» вроде меня, читающих все подряд, книга будет полезна тем, кто хочет узнать
• Что такое Data LakeHouse и зачем это нужно
• Какие существуют особенности реализации и эксплуатации
• Как обстоят дела с Data governance, Data Quality, Data lineage
https://www.databricks.com/resources/ebook/building-the-data-lakehouse
Продолжаю разгребать свой бук-долг. С трудом, но осилил «Building the Data LakeHouse» Билла Инмона сотоварищи.
Книга легенды мира данных и отца data warehousing (сей факт задекларирован непосредственно на обложке) о популярной ныне архитектуре получилась слащаво-приторно-попсовой словно песни бойз-бенда какого. Порой реально вязнешь в этих молочных потоках умных слов с кисельными берегами. Несколько раз хотелось бросить (вместо пары дней чтение в итоге растянулось на пару недель), но ОКР упорно застявляло двигаться дальше.
Главным достоинством данной книги, на мой взгляд, является ее бесплатность (за деньги — нет!), скачать ее можно на сайте Databricks. Но при этом все по-честному: книга об архитектуре, а не о ее реализации на конкретной технологии, название компании упоминается на страницах не более, чем пару раз.
Помимо поклонников Билла Инмона и «коллекционеров» вроде меня, читающих все подряд, книга будет полезна тем, кто хочет узнать
• Что такое Data LakeHouse и зачем это нужно
• Какие существуют особенности реализации и эксплуатации
• Как обстоят дела с Data governance, Data Quality, Data lineage
https://www.databricks.com/resources/ebook/building-the-data-lakehouse
Databricks
Building the Data Lakehouse | Databricks
Explore the next generation of data architecture with the father of the data warehouse, Bill Inmon. Download a copy now.
👍1
#напочитать
Инженерия данных медленно, но верно движется в сторону стандартизации. Сначала авторы «Fundamentals of data engineering» дали идеальное, на мой взгляд, определение профессии и описали ее функционал, что позволило перейти отдельным продвинутым организациям к созданию и внедрению матриц компетенций с четким и прозрачным описанием уровней их владения и даже созданию собственных корпоративных курсов для «воспитания Бабы-Яги в своем коллективе».
Теперь вот O’Reilly планирует выпустить в марте 2025 «Data Engineering Design Patterns» за авторством некоего Bartosz Konieczny, утверждая на обложке, что книга содержит «рецепты для решения самых распространенных проблем».
Звучит интригующе. Судя по краткому содержанию, книга продолжает линию «Fundamentals of data engineering», описывая то, что и так известно опытным инженерам. Этот факт может ее сделать прекрасным обучающим материалом для начинающих и источником, на который можно ссылаться при случае.
Поживем – увидим…
https://www.oreilly.com/library/view/data-engineering-design/9781098165826/
Инженерия данных медленно, но верно движется в сторону стандартизации. Сначала авторы «Fundamentals of data engineering» дали идеальное, на мой взгляд, определение профессии и описали ее функционал, что позволило перейти отдельным продвинутым организациям к созданию и внедрению матриц компетенций с четким и прозрачным описанием уровней их владения и даже созданию собственных корпоративных курсов для «воспитания Бабы-Яги в своем коллективе».
Теперь вот O’Reilly планирует выпустить в марте 2025 «Data Engineering Design Patterns» за авторством некоего Bartosz Konieczny, утверждая на обложке, что книга содержит «рецепты для решения самых распространенных проблем».
Звучит интригующе. Судя по краткому содержанию, книга продолжает линию «Fundamentals of data engineering», описывая то, что и так известно опытным инженерам. Этот факт может ее сделать прекрасным обучающим материалом для начинающих и источником, на который можно ссылаться при случае.
Поживем – увидим…
https://www.oreilly.com/library/view/data-engineering-design/9781098165826/
O’Reilly Online Learning
Data Engineering Design Patterns
Data projects are an intrinsic part of an organization's technical ecosystem, but data engineers in many companies continue to work on problems that others have already solved. This... - Selection from Data Engineering Design Patterns [Book]
🔥5
Интересующимся темой книги из предыдущего поста, а именно: «Data Engineering Design Patterns», рекомендую обратить свое внимание на один интересный ресурс.
Автор его по имени Simon Späti пишет книгу на ту же тему, но выкладывает главы в свободный доступ по мере их написания. Книга задумана не как справочное пособие, а как цельная история от начала до конца и предназначена для тех, кто уже знаком с базовыми понятиями инженерии данных, например, прочитавших «Fundamentals of data engineering» и теперь желающих продолжить свое обучение при помощи «практического руководства по применению шаблонов проектирования сложных, надежных и управляемых платформ данных».
Также автор предлагает поучаствовать в обсуждениях через форму обратной связи и обещает дать доступ к закрытому репозиторию на GitHub, в котором желающие могут предложить свои правки к тексту книги.
Интересно, какой из этих двух проектов придет к финишу раньше?🤔
Автор его по имени Simon Späti пишет книгу на ту же тему, но выкладывает главы в свободный доступ по мере их написания. Книга задумана не как справочное пособие, а как цельная история от начала до конца и предназначена для тех, кто уже знаком с базовыми понятиями инженерии данных, например, прочитавших «Fundamentals of data engineering» и теперь желающих продолжить свое обучение при помощи «практического руководства по применению шаблонов проектирования сложных, надежных и управляемых платформ данных».
Также автор предлагает поучаствовать в обсуждениях через форму обратной связи и обещает дать доступ к закрытому репозиторию на GitHub, в котором желающие могут предложить свои правки к тексту книги.
Интересно, какой из этих двух проектов придет к финишу раньше?🤔
dedp.online
Book: Data Engineering Design Patterns (DEDP): Timeless Practices for Data Engineers
A living Book about Data Engineering Design Patterns, exploring the evolution and its significance. Different from usual books. It does not come finished.
👍7
#напочитать
Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.
Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.
Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.
Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.
Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.
Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.
Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.
Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.
👍6
#напочитать
Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».
Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»
Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…
«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.
Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.
Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».
Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»
Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…
«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.
Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.
👍5🔥1
"Кто ты есть на самом деле...?"
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)
Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.
Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.
Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.
#напочитать
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)
Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.
Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.
Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.
#напочитать
Dremio
Apache Iceberg: The Definitive Guide | Dremio
Master Apache Iceberg with this comprehensive guide by Dremio. Get expert insights on how to optimize big data management with open table formats.
👍4