Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Всех с пятницей!
👍13
«Опять мне снится сон,
Один и тот же сон,
Как мы с коллегой Колею
распарсили JSON…»


Впервые с понятием «качество данных» я столкнулся на собеседовании году этак в 2012. Там же я узнал, что у Висенте Феолы Ральфа Кимбалла помимо ставшего классическим труда есть чуть менее известная книга про ETL. Незнание этих двух очевидных для интервьюирующего вещей и стало основной причиной того, что #меняневзяли.

С тех пор термин сей уверенно сопровождает меня на карьерном пути и периодически мне приходилось решать различные задачи с ним связанные. Для тех, кто хоть раз сталкивался с чем-то подобным Great Expectations - всего лишь весьма и весьма посредственный «шираз». Но тут, как говорится, на вкус и цвет…

Логично, что с тех пор любые разговоры на тему «качества данных» вызывают у меня примерно такую же реакцию, как и постоянно звучавшие из уст отечественных футбольных комментаторов во времена, когда у меня еще хватало терпения футбол смотреть, фразы вроде «гол в раздевалку» или «выкрутил позвонки». Тем более, что, перефразируя Брайана Клафа, «больше всего о качестве данных рассуждают люди, едва способные написать простой SQL-запрос».

Несмотря на мое отношение к данному вопросу, не могу не подчеркнуть его животрепещущую актуальность, для описания которой идеально подходят слова другой легенды английского тренерского цеха - Билла Шенкли: «Многие думают, что качество данных - это вопрос жизни и смерти. Они ошибаются, это намного важнее.»

Перейдем к сути. Не стану и в этот раз изобретать велосипед, воспользуюсь проверенным приемом, заимствованным у Льва Николаевича Гумилева, - начну с определения (каким его видят авторы «Data Quality Fundamentals»).

Качество данных - это «уровень здоровья» данных на каждом этапе их жизненного цикла.

продолжение следует…

#dataquality
👍4
Marc Lambertti опубликовал свои приоритеты в обучении инженеров данных:

1️⃣ Data modeling
2️⃣ SQL
3️⃣ Data structure
4️⃣ Python
5️⃣ Version control
6️⃣ Containerization (Docker/K8s)
7️⃣ AWS or GCP or Azure
8️⃣ Data tools (dbt, Snowflake, Databricks, Airflow, Kafka, etc.)

Оригинал здесь - https://www.linkedin.com/posts/marclamberti_dataengineer-dataengineering-airflow-activity-7212461313275432960-XdMs?utm_source=share&utm_medium=member_desktop
https://youtu.be/DXq3qtMgvBU?feature=shared


Лет так 5 назад мне казалось, что тренд на смузи-программистов, скучающих в ожидании секретарши, которая вот-вот должна привести аналитика или девопса, без которых дальнейшее решение задачи не представляется возможным, постепенно сходит на нет.

Но нет...
«Double-crossed by Neon Pill»

Я сначала хотел написать что-то на стариковско-ворчательном: «Ничего, мол, нового, «книга-ради-книги» и все это уже было в «Симпсонах»…»
Но потом вдруг вспомнил, как когда-то давно зачитывался книгами Ицика Бен-Гана и Брайана Найта, и подумал, что для кого-то эта книга может стать чем-то подобным, важным шагом на пути к своей мечте, путеводной звездой, остающейся в памяти надолго, как «первая любовь, что известна с древности, и в которой так много неизвестности». Ищи ее потом, эту «Синюю птицу», взмахом крыла поманившую», на рагу уже небось пущена злостными недоброжелателями, не слыхавшими «как поет Дроздов».

Начало книги довольно бодрое и традиционное для подобного класса: описание трудностей, связанных с обработкой больших данных, которые инструмент призван был разрешить, затем установка, настройка и прочий «курс молодого бойца».

Вторая часть посвящена более продвинутым вещам таким, как архитектура Trino, описание модели выполнения запросов и оптимизатора. По паре глав уделено коннекторам и использованию SQL.

Третья часть описывает аспекты эксплуатации такие, как безопасность, мониторинг и совместное использование Trino c другими инструментами из мира данных: Apache Superset, Apache Airflow и т.п.

Подведем итоги: книга написана простым и доступным английским языком, содержит множество иллюстраций и примеров кода, так что прочтение вряд ли отнимет значительный промежуток времени. «Старикам здесь не место», для вас есть официальная документация. Подойдет тем, кто никогда не слышал слов типа «Query Plan» или «Cost-Based Optimizer» или только слышал.

Мое же впечатление от книги наиболее точно передается словом из заглавной песни с нового альбома кумиров из ВИА «Cage The Elephant», под который она и читалась, - «double-crossed».
Не видать им «Грэмми» за третий подряд альбом, это и без всяких предиктивных моделей ясно.

Так бывает, когда выбираешь не ту пилюлю…
#trino #books #напочитать
👍9
Если верить написанному на этой картинке, то я родился сразу синьором...

Глядя на нее, я вспомнил одну старую сказку, в которой героине - соискательнице на роль спутницы жизни принца предложили выполнить тестовое задание в виде сна на горе тюфяков и перин с подложенной под них горошиной.
И тут же решил добавить в свой список вопросов к интервьюируемым мной инженерам следующие "горошины":

- Ваши действия при встрече с миддлом?
- Какие звуки Вы издаете при знакомстве с новым фреймворком?
- Встречалась ли ранее в вашей практике "такая х..ня"?
и т. п.

P.S. Да, я знаю, что сегодня еще не пятница, и время безудержного веселья еще не пришло... Но я-то в отпуске...
😁5👍1
Дата-контракты - тема сейчас, как очевидно, «хайповая», многим видится очередной «некстван», в то время как обитатели измайловских общежитий МГТУ имени Баумана нулевых годов почуяли теплый весенний ветерок и, позевывая, принялись искать в закромах жестких дисков тот самый текст: «Вот мы и в Канаде!!!»

Можно было бы,как обычно, начать с определения, но что в этом толку? Ибо как писал в «Закате Европы» Освальд Шпенглер: «Средство для уразумения живых форм — аналогия». А дата-контракты пока скорее живы. А раз так, то в очередной раз за иллюстрацией обратимся к лучшему сериалу для дата-специалистов любых профессий - «Тед Лассо».

В седьмом эпизоде третьего сезона под название «The Strings That Bind Us» игроки «Ричмонда» отрабатывают осознанность на поле при помощи предложенной Роем Кентом революционной методики: футболисты попарно соединены веревками, привязанными к их пенисам. «Скованным одной цепью» теперь приходится согласовывать свои действия друг с другом, «чтобы не было мучительно больно».

Вот эта веревка и есть дата-контракт или же «соглашение которое определяет, как данные должны быть структурированы, организованы для обмена между различными системами, приложениями или сторонами.»

Кажется, что подход рабочий, ведь «почти невозможно не знать, что делает твой товарищ, когда ты привязан к нему хозяйством». Рано или поздно взаимопонимание должно быть доведено «до автоматизма». Однако чудеса случаются лишь в сериалах, а на практике при исчезновении «веревки» происходит откат на прежние позиции.

Все будет идти как встарь, пока не реализуется «бессильная» тайна имени Сергея Витицкого (он же Борис Стругацкий): «Что-то загадочное и даже сакральное, может быть, должно произойти с этим миром, чтобы Человек Воспитанный стал этому миру нужен. Человечеству сделался бы нужен. Самому себе и ближнему своему.»
👍8
#напочитать

Продолжаю разгребать свой бук-долг. С трудом, но осилил «Building the Data LakeHouse» Билла Инмона сотоварищи.

Книга легенды мира данных и отца data warehousing (сей факт задекларирован непосредственно на обложке) о популярной ныне архитектуре получилась слащаво-приторно-попсовой словно песни бойз-бенда какого. Порой реально вязнешь в этих молочных потоках умных слов с кисельными берегами. Несколько раз хотелось бросить (вместо пары дней чтение в итоге растянулось на пару недель), но ОКР упорно застявляло двигаться дальше.

Главным достоинством данной книги, на мой взгляд, является ее бесплатность (за деньги — нет!), скачать ее можно на сайте Databricks. Но при этом все по-честному: книга об архитектуре, а не о ее реализации на конкретной технологии, название компании упоминается на страницах не более, чем пару раз.

Помимо поклонников Билла Инмона и «коллекционеров» вроде меня, читающих все подряд, книга будет полезна тем, кто хочет узнать

• Что такое Data LakeHouse и зачем это нужно

• Какие существуют особенности реализации и эксплуатации

• Как обстоят дела с Data governance, Data Quality, Data lineage

https://www.databricks.com/resources/ebook/building-the-data-lakehouse
👍1
#напочитать

Инженерия данных медленно, но верно движется в сторону стандартизации. Сначала авторы «Fundamentals of data engineering» дали идеальное, на мой взгляд, определение профессии и описали ее функционал, что позволило перейти отдельным продвинутым организациям к созданию и внедрению матриц компетенций с четким и прозрачным описанием уровней их владения и даже созданию собственных корпоративных курсов для «воспитания Бабы-Яги в своем коллективе».

Теперь вот O’Reilly планирует выпустить в марте 2025 «Data Engineering Design Patterns» за авторством некоего Bartosz Konieczny, утверждая на обложке, что книга содержит «рецепты для решения самых распространенных проблем».

Звучит интригующе. Судя по краткому содержанию, книга продолжает линию «Fundamentals of data engineering», описывая то, что и так известно опытным инженерам. Этот факт может ее сделать прекрасным обучающим материалом для начинающих и источником, на который можно ссылаться при случае.

Поживем – увидим…

https://www.oreilly.com/library/view/data-engineering-design/9781098165826/
🔥5
Интересующимся темой книги из предыдущего поста, а именно: «Data Engineering Design Patterns», рекомендую обратить свое внимание на один интересный ресурс.

Автор его по имени Simon Späti пишет книгу на ту же тему, но выкладывает главы в свободный доступ по мере их написания. Книга задумана не как справочное пособие, а как цельная история от начала до конца и предназначена для тех, кто уже знаком с базовыми понятиями инженерии данных, например, прочитавших «Fundamentals of data engineering» и теперь желающих продолжить свое обучение при помощи «практического руководства по применению шаблонов проектирования сложных, надежных и управляемых платформ данных».

Также автор предлагает поучаствовать в обсуждениях через форму обратной связи и обещает дать доступ к закрытому репозиторию на GitHub, в котором желающие могут предложить свои правки к тексту книги.

Интересно, какой из этих двух проектов придет к финишу раньше?🤔
👍7
😁8
#напочитать

Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.

Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.

Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.

Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.
👍6
#напочитать

Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».

Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»

Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…

«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.

Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.
👍5🔥1
Тема "Музыка with data" за 300.

Именно этой технологии (о которой речь пойдет в ближайших постах) "посвятили" свою песню композитор Игорь Николаев и поэтесса Лидия Козлова.
👏1
"Кто ты есть на самом деле...?"
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)

Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.

Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.

Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.

#напочитать
👍4
Объёмная, но неожиданно неплохая статья на Ленте про искусственный интеллект и хайп вокруг него. Не отбрасывая того факта, что дискуссии противников ИИ с его сторонниками выглядят как меряние wishful thinking’ом («влажными фантазиями») с обеих сторон, лично я не могу не согласиться со следующими тезисами джентльменов, кои «пришествие ИИ» воспринимают с некоей долей скепсиса:

– имеет место явная недооценка креативности человека со стороны тех, кто «за все ИИшное против всего плохого»;
– кроме довольно узких ниш использование ИИ в современной экономике пока не вырисовывается;
– контент, мать его. Доступный для обучения созданный человеком контент конечен и либо уже закончился, либо вот-вот в обозримом будущем. А обучение нейросетки на контенте, сгенерированном нейросеткой же – это, очевидно, тлен и суета сует.

Как оно в реальной жизни окажется – ну, будем посмотреть
👍2
Forwarded from Паша AI AI AI
Gartner назвал главные технологические тренды на 2025 год

Исследователи из Gartner выпустили очередной отчет — на этот раз эксперты назвали 10 главных технологических трендов, которые станут определяющими в следующем году. Разберемся в прогнозах компании.

AI-агенты
В Gartner считают, что к 2028 году AI-агенты будут автономно принимать до 15% решений в повседневной работе компаний. По мнению авторов, AI-агенты смогут увеличить продуктивность компаний, упростив менеджмент сложных проектов.

Платформы для управления AI 
Такие платформы позволяют следить, чтобы AI-модели соответствовали стандартам безопасности компании. Это особенно важно в условиях, когда количество областей, где применяется AI, постоянно растет, а сами AI-модели получают доступ к все более конфиденциальной информации. Gartner прогнозирует, что к 2028 году компаниям, использующим такие платформы, пользователи будут доверять на треть больше, чем остальным.

Защита от дезинформации
Это системы, которые могут подтвердить достоверность информации, отследить и предотвратить распространение дипфейков и другого вредоносного контента. Для этого может использоваться мониторинг поведения пользователя, алгоритмы выявление синтетического контента и т.д. По прогнозам Gartner, к 2028 году такое ПО будет использовать половина компаний.

Постквантовая криптография
В Gartner считают, что квантовые компьютеры будут использовать повсеместно еще в этом десятилетии, а значит все предыдущие методы защиты от взлома станут бесполезными. Соответственно, компаниям уже сейчас надо задумать о защите своих данных от будущих атак.

Эмбиентный невидимый интеллект
Это использование небольших дешевых датчиков для отслеживания местоположения и состояния разных предметов и объектов. В качестве примеров использования авторы приводят управление светом, музыкой и рекомендациями для покупателей в ритейле; отслеживание состояния пациентов без использования носимых устройств и т..д.

Энергоэффективные вычисления
Под этим Gartner подразумевает новые алгоритмы работы и усовершенствованное аппаратное обеспечение не только компьютеров, но и ЦОДов, которые должны минимизировать энергопотребление и вредные выбросы в атмосферу. Это особенно актуально на фоне быстрой эволюции AI-моделей.

Гибридные вычисления
Использование CPU и GPU одновременно с квантовыми, нейроморфными и другими системами с целью создания гибридной вычислительной среды для решения сложных задач. Это должно позволить компаниям эффективно распределять мощности между задачами, которые можно выполнять в облаке, и теми которые требуют локальных ресурсов. 

Пространственные вычисления
Рынок создания иммерсивного пространства с помощью MR и AR-устройств, где пользователи смогут продуктивно взаимодействовать с информацией, увеличится со $110 млрд в 2023 году до $1,7 трлн в 2033 году. Пример использования: удаленная рабочая встреча с коллегами по работе в дополненном пространстве или AR-симуляции для проведения рабочих тренингов. К 2028 году такой экспириенс будут хотя бы раз в неделю получать до 20% людей против 1% сегодня. 

Многофункциональные роботы
В Gartner считают, что уже к 2030 году 80% людей будет в той или иной мере взаимодействовать с роботами, которые могут выполнять несколько задач. Речь не только о работе на складах, но и техобслуживании различных механизмов, в том числе в опасных условиях, помощи маломобильным пациентам в больницах и т.д.

Когнитивные улучшения с помощью нейроинтерфейсов
Улучшение когнитивных способностей человека с помощью технологий и устройств, анализирующих мозговую деятельность. Применять их будут не только в медицинских целях, но и для повышения работоспособности. В Gartner считают, что уже к 2030 году подобными устройствами будут пользоваться 60% сотрудников сферы IT.  
#напочитать

Пополнил коллекцию бумажных книг данным, весьма любопытным, как по мне, экземпляром.

Возможно, следовало бы, как обычно, начинать с англоязычного варианта.
А то от "новых аффордансов" в переводе книги Жамак Дегани до сих пор глаза кровоточат.
- Our best release yet! - говорили они...
- No reason to pay for Tableau/Looker/PowerBI anymore. Try Apache Superset 4.1 - говорили они...

- Проверим, проверим - отвечаем мы им словами Василия Казарцева.

Говорит, если что, легенда мира больших данных Maxime Beauchemin в заблокированной в РФ соцсети
Forwarded from DataJourney
Дичь в данных

Порой пользователям нужно обогатить данные в хранилище «вон тем справочником в Excel от поставщика» или еще какой-нибудь дичью, для которой нормальный процесс интеграции не построить.

В мире розовых дата-пони такое неприемлемо. Любые данные должны быть описаны, понятны, качественны и т.д. Но в реальном мире такое вот обогащение навозом может помочь вырастить розу аналитических выводов или управленческих решений на данных. И ради таких роз люди будут это делать какими-то своими способами в обход существующих правил.

Здесь настоятельно всем рекомендую иметь официальную возможность загрузки дичи в хранилище, чтобы не бороться потом с последствиями, а понимать общий масштаб беды и, возможно, менять что-то в процессах. Простая кнопка «загрузить CSV» реализованная в контейнере с Flask позволит пользователям централизованно загружать данные, а команде хранилища их как-то обслуживать.
👍31