Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
#напочитать

Инженерия данных медленно, но верно движется в сторону стандартизации. Сначала авторы «Fundamentals of data engineering» дали идеальное, на мой взгляд, определение профессии и описали ее функционал, что позволило перейти отдельным продвинутым организациям к созданию и внедрению матриц компетенций с четким и прозрачным описанием уровней их владения и даже созданию собственных корпоративных курсов для «воспитания Бабы-Яги в своем коллективе».

Теперь вот O’Reilly планирует выпустить в марте 2025 «Data Engineering Design Patterns» за авторством некоего Bartosz Konieczny, утверждая на обложке, что книга содержит «рецепты для решения самых распространенных проблем».

Звучит интригующе. Судя по краткому содержанию, книга продолжает линию «Fundamentals of data engineering», описывая то, что и так известно опытным инженерам. Этот факт может ее сделать прекрасным обучающим материалом для начинающих и источником, на который можно ссылаться при случае.

Поживем – увидим…

https://www.oreilly.com/library/view/data-engineering-design/9781098165826/
🔥5
Интересующимся темой книги из предыдущего поста, а именно: «Data Engineering Design Patterns», рекомендую обратить свое внимание на один интересный ресурс.

Автор его по имени Simon Späti пишет книгу на ту же тему, но выкладывает главы в свободный доступ по мере их написания. Книга задумана не как справочное пособие, а как цельная история от начала до конца и предназначена для тех, кто уже знаком с базовыми понятиями инженерии данных, например, прочитавших «Fundamentals of data engineering» и теперь желающих продолжить свое обучение при помощи «практического руководства по применению шаблонов проектирования сложных, надежных и управляемых платформ данных».

Также автор предлагает поучаствовать в обсуждениях через форму обратной связи и обещает дать доступ к закрытому репозиторию на GitHub, в котором желающие могут предложить свои правки к тексту книги.

Интересно, какой из этих двух проектов придет к финишу раньше?🤔
👍7
😁8
#напочитать

Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.

Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.

Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.

Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.
👍6
#напочитать

Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».

Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»

Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…

«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.

Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.
👍5🔥1
Тема "Музыка with data" за 300.

Именно этой технологии (о которой речь пойдет в ближайших постах) "посвятили" свою песню композитор Игорь Николаев и поэтесса Лидия Козлова.
👏1
"Кто ты есть на самом деле...?"
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)

Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.

Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.

Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.

#напочитать
👍4
Объёмная, но неожиданно неплохая статья на Ленте про искусственный интеллект и хайп вокруг него. Не отбрасывая того факта, что дискуссии противников ИИ с его сторонниками выглядят как меряние wishful thinking’ом («влажными фантазиями») с обеих сторон, лично я не могу не согласиться со следующими тезисами джентльменов, кои «пришествие ИИ» воспринимают с некоей долей скепсиса:

– имеет место явная недооценка креативности человека со стороны тех, кто «за все ИИшное против всего плохого»;
– кроме довольно узких ниш использование ИИ в современной экономике пока не вырисовывается;
– контент, мать его. Доступный для обучения созданный человеком контент конечен и либо уже закончился, либо вот-вот в обозримом будущем. А обучение нейросетки на контенте, сгенерированном нейросеткой же – это, очевидно, тлен и суета сует.

Как оно в реальной жизни окажется – ну, будем посмотреть
👍2
Forwarded from Паша AI AI AI
Gartner назвал главные технологические тренды на 2025 год

Исследователи из Gartner выпустили очередной отчет — на этот раз эксперты назвали 10 главных технологических трендов, которые станут определяющими в следующем году. Разберемся в прогнозах компании.

AI-агенты
В Gartner считают, что к 2028 году AI-агенты будут автономно принимать до 15% решений в повседневной работе компаний. По мнению авторов, AI-агенты смогут увеличить продуктивность компаний, упростив менеджмент сложных проектов.

Платформы для управления AI 
Такие платформы позволяют следить, чтобы AI-модели соответствовали стандартам безопасности компании. Это особенно важно в условиях, когда количество областей, где применяется AI, постоянно растет, а сами AI-модели получают доступ к все более конфиденциальной информации. Gartner прогнозирует, что к 2028 году компаниям, использующим такие платформы, пользователи будут доверять на треть больше, чем остальным.

Защита от дезинформации
Это системы, которые могут подтвердить достоверность информации, отследить и предотвратить распространение дипфейков и другого вредоносного контента. Для этого может использоваться мониторинг поведения пользователя, алгоритмы выявление синтетического контента и т.д. По прогнозам Gartner, к 2028 году такое ПО будет использовать половина компаний.

Постквантовая криптография
В Gartner считают, что квантовые компьютеры будут использовать повсеместно еще в этом десятилетии, а значит все предыдущие методы защиты от взлома станут бесполезными. Соответственно, компаниям уже сейчас надо задумать о защите своих данных от будущих атак.

Эмбиентный невидимый интеллект
Это использование небольших дешевых датчиков для отслеживания местоположения и состояния разных предметов и объектов. В качестве примеров использования авторы приводят управление светом, музыкой и рекомендациями для покупателей в ритейле; отслеживание состояния пациентов без использования носимых устройств и т..д.

Энергоэффективные вычисления
Под этим Gartner подразумевает новые алгоритмы работы и усовершенствованное аппаратное обеспечение не только компьютеров, но и ЦОДов, которые должны минимизировать энергопотребление и вредные выбросы в атмосферу. Это особенно актуально на фоне быстрой эволюции AI-моделей.

Гибридные вычисления
Использование CPU и GPU одновременно с квантовыми, нейроморфными и другими системами с целью создания гибридной вычислительной среды для решения сложных задач. Это должно позволить компаниям эффективно распределять мощности между задачами, которые можно выполнять в облаке, и теми которые требуют локальных ресурсов. 

Пространственные вычисления
Рынок создания иммерсивного пространства с помощью MR и AR-устройств, где пользователи смогут продуктивно взаимодействовать с информацией, увеличится со $110 млрд в 2023 году до $1,7 трлн в 2033 году. Пример использования: удаленная рабочая встреча с коллегами по работе в дополненном пространстве или AR-симуляции для проведения рабочих тренингов. К 2028 году такой экспириенс будут хотя бы раз в неделю получать до 20% людей против 1% сегодня. 

Многофункциональные роботы
В Gartner считают, что уже к 2030 году 80% людей будет в той или иной мере взаимодействовать с роботами, которые могут выполнять несколько задач. Речь не только о работе на складах, но и техобслуживании различных механизмов, в том числе в опасных условиях, помощи маломобильным пациентам в больницах и т.д.

Когнитивные улучшения с помощью нейроинтерфейсов
Улучшение когнитивных способностей человека с помощью технологий и устройств, анализирующих мозговую деятельность. Применять их будут не только в медицинских целях, но и для повышения работоспособности. В Gartner считают, что уже к 2030 году подобными устройствами будут пользоваться 60% сотрудников сферы IT.  
#напочитать

Пополнил коллекцию бумажных книг данным, весьма любопытным, как по мне, экземпляром.

Возможно, следовало бы, как обычно, начинать с англоязычного варианта.
А то от "новых аффордансов" в переводе книги Жамак Дегани до сих пор глаза кровоточат.
- Our best release yet! - говорили они...
- No reason to pay for Tableau/Looker/PowerBI anymore. Try Apache Superset 4.1 - говорили они...

- Проверим, проверим - отвечаем мы им словами Василия Казарцева.

Говорит, если что, легенда мира больших данных Maxime Beauchemin в заблокированной в РФ соцсети
Forwarded from DataJourney
Дичь в данных

Порой пользователям нужно обогатить данные в хранилище «вон тем справочником в Excel от поставщика» или еще какой-нибудь дичью, для которой нормальный процесс интеграции не построить.

В мире розовых дата-пони такое неприемлемо. Любые данные должны быть описаны, понятны, качественны и т.д. Но в реальном мире такое вот обогащение навозом может помочь вырастить розу аналитических выводов или управленческих решений на данных. И ради таких роз люди будут это делать какими-то своими способами в обход существующих правил.

Здесь настоятельно всем рекомендую иметь официальную возможность загрузки дичи в хранилище, чтобы не бороться потом с последствиями, а понимать общий масштаб беды и, возможно, менять что-то в процессах. Простая кнопка «загрузить CSV» реализованная в контейнере с Flask позволит пользователям централизованно загружать данные, а команде хранилища их как-то обслуживать.
👍31
#заметкинаполях

Начал читать "Data Mesh в действии". Выглядит так, что лучше "Data Mesh" совсем никак не переводить, чем переводить как "сетка данных".

Звучит ужасно, как по мне...

Где-то на одном уровне с ОАГ и "хранилищем ключевой ценности".

#datameshinaction
👍4
#заметкинаполях

«Чуечка» моя меня редко подводит. Книгу, упомянутую в предыдущей публикации, однозначно, брать стоило, хотя я и прочитал пока лишь пару абзацев из первой главы. Ибо авторы четко задекларировали свое намерение сделать упор на социальную составляющую и уделить основное внимание «людям, процессам и организациям».

А технологии, говорят, можно брать любые, «на которых функционирует большинство современных систем работы с данными»

Посмотрим, что у них в итоге у них получится.

#datameshinaction
🔥4
#заметкинаполях #datameshinaction

«...мы называем такую сеть — сеткой данных...»

Вот ради избежания разрывов головного мозга и других важных человеческих органов при чтении подобных фраз я и стою на том, чтоб не переводить Data Mesh таким образом…
👍5
#заметкинаполях
#datameshinaction

Занимательный факт — авторы дают свое определение Data Mesh, «сформулированное с точки зрения практичности и конечного результата».

Data Mesh — это парадигма децентрализации. В ней децентрализуются владение данных, их преобразование в информацию, а также их обслуживание. Цель — повысить извлечение ценности из данных, устранив узкие места в потоке конверсии данных в ценность. Понятие Data Mesh опирается на четыре принципа, которые помогают эффективно масштабировать работу с данными: владение доменом, представление данных как продукта, федеративное вычислительное управление и самообслуживаемая платформа данных. Реализации могут различаться по объему и степени использования каждого принципа.

Первое и последнее предложение в этом определении являются ключевыми, на мой взгляд. Первое максимально просто и емко и напоминает легендарное определение одного из направлений в рок-музыке, данное ВИА Тараканы! («Панк — это слово из четырех букв.»). А последнее делает бессмысленными споры на тему «чистоты Data Mesh» и оставляет простор для импровизации.

Сами авторы так и пишут: «Ценность заключается в децентрализации, а ключевые принципы — это рекомендации, которые помогут правильно осуществить эту децентрализацию»
👍3
#пятница #заметкинаполях

В моем октябрятском детстве говорили: «Критикуешь — предлагай». Тем более, что я не отношусь к той категории людей, которые считают русский язык бедным, невыразительным, недостойным, чтобы термины иностранные на него переводить (мама - филолог, ага).

На мой взгляд, гораздо лучшим, чем «сетка данных», импортозамещенным вариантом термина Data Mesh будет «пасека данных». Пасечник предоставляет удобную платформу самообслуживания, внутри которой команды «децентрализованно самоорганизуются» и «пилят» свои продукты.

Не дословно, конечно, но суть отражает. К тому же в случае успеха, можно будет пропеть голосом Александра Ливера (обязательно!): «А у меня есть пасека!»

Всех с пятницей!
😁8👍2
Forwarded from DataJourney
Новости AWS

Amazon на днях представил новый тип bucket: «Table bucket», который заточен под хранение Iceberg. Выходит, что Iceberg всех победил и гигант рынка предлагает связку Athena (Trino/Presto/Spark) с Iceberg на S3 как один из вариантов быстрого, надежного, хранилища.

Ребята пишут, что новый тип хранения прячет от пользователя рад операций, которые нужно выполнять при обслуживании хранилища в такой конфигурации. Такие как:
- объединение (compaction): ряд небольших файлов сливаются в один для увеличения скорости обработки
- управление снимками (snapshot management): обычная ротация, старые снапшоты помечаются на удаление и чуть позже удаляются
- очистка (Unreferenced File Removal): автоматическое удаление неиспользуемых файлов.

Исходя из вышеуказанного, выходит, что новый тип позволит как снизить нагрузку на чтение, так и сэкономить на стоимости хранения.
🔥4👍1
#заметкинаполях #datameshinaction

Прекрасная метафора: «Однако уже более десяти лет проблема «похмельного синдрома» от увлечения большими данными отравляет жизнь компаниям любого масштаба…»

Сам когда-то писал про «иглу больших данных».

Отсюда следует, что данные - это не новая нефть, а новый наркотик, вызывающий мгновенное привыкание, чувство эйфории, безопасности и полного контроля над происходящим…

И с отсутствующей пока концепцией «умеренного потребления»…
👍5
#заметкинаполях #datameshinaction

Распечатать и в рамочку под стекло:

«Если вам не удается найти актуальный бизнес-мотив, чтобы переходить к Data Mesh, на этом можно сразу закончить
👍5