Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
😁8
#напочитать

Книга Hien Luu «Beginning Apache Spark 3: With DataFrame, Spark SQL, Structured Streaming, and Spark Machine Learning Library» вряд ли понравилась бы Усэйну Болту, поскольку являет собой очень быстрый старт и довольно глубокое погружение в технологию одновременно, что, пожалуй, используя беговые метафоры можно сравнить с дистанцией 400 метров, которую величайший спринтер ненавидел с детства.

Рассказ об одной из самых популярных технологий в мире больших данных начинается с рассмотрения архитектуры и ключевых концепций, установки и основам взаимодействия с технологией, плавно переходя к рассмотрению ее компонентов. Отдельная глава посвящена оптимизации Spark-приложений.

Книга читается легко, написана интересно (что редкость для книг про Opensource-технологии, зачастую являющихся сухими выжимками из документации) и содержит достаточное количество примеров для получения стартового опыта. Стремительный прорыв в топ-3 моих любимых технических книг.

Примеры приведены на Scala, кто-то назовет этот факт барьером, но Scala в общем-то простой язык (русский гораздо сложнее), даже без знания его код из книги интуитивно понятен.
👍6
#напочитать

Книга из серии «За деньги - да». C возрастом я все больше и больше стал ценить бумажные книги, артефакты, к которым можно прикоснуться, перелистывать не спеша, без суеты их страницы, считывая мудрость в них запечатленную. Постепенно я начал собирать библиотеку из дорогих мне книг, в основном, художественных. И вот, он, первый экземпляр, что называется, «для работы» - «DAMA-DMBOK: Свод знаний по управлению данными».

Содержимое книги, как и ее достоинства, можно перечислять бесконечно, ибо объем очень большой. Название не обманывает, это действительно максимально возможный широкий охват всех аспектов работы с данными. Слегка уже устаревший, конечно же, издание 2021 года все-таки, но фундаментом являться может. Главный вопрос: «Зачем это все инженеру?»

Время «чистых технарей», считающих, что «разработчик должен только код писать, а все остальное от лукавого», безвозвратно ушло. Последние «динозавры» вымрут под натиском ИИ. Современный инженер обязан обладать хорошими аналитическими навыками, разбираться в предметной области и понимать, что происходит в смежных сферах обработки данных: DA/DS, DQ/DG и прочих ML…

«Готовь «Sunny» летом, в общем,» - как пели легендарные ВИА Boney M / New England M.

Ну, и не стоит забывать про главный инженерный hard skill - любопытство, спасавший меня, например, даже чаще чем Мона Лиза Виктора Чайку.
👍5🔥1
Тема "Музыка with data" за 300.

Именно этой технологии (о которой речь пойдет в ближайших постах) "посвятили" свою песню композитор Игорь Николаев и поэтесса Лидия Козлова.
👏1
"Кто ты есть на самом деле...?"
(приз за лучшее название для серии постов про Apache Iceberg уходит @famer10)

Продолжаю разгребать свой букдолг, и вот уже руки дошли до выпущенной в мае этого года издательством O’Reilly книги «Apache Iceberg: The Definitive Guide» за авторством группы товарищей в лице Tomer Shiran, Jason Hughes и Alex Merced.

Мое знакомство с данной технологией началось ровно 2 года назад, тогда же и закончилось, в общем-то. Я «наваял» некий прототип для какого-то проекта, успешно потом потерянный. Само собой, мимо такой книги я пройти не мог. Но, в отличие упоминаемых в предыдущих постах, эту я еще не читал, так что планирую делиться впечатлениями прямо по ходу действия.

Для тех, кто не хочет ждать - на сайте Dremio выложена бесплатная электронная версия.

#напочитать
👍4
Объёмная, но неожиданно неплохая статья на Ленте про искусственный интеллект и хайп вокруг него. Не отбрасывая того факта, что дискуссии противников ИИ с его сторонниками выглядят как меряние wishful thinking’ом («влажными фантазиями») с обеих сторон, лично я не могу не согласиться со следующими тезисами джентльменов, кои «пришествие ИИ» воспринимают с некоей долей скепсиса:

– имеет место явная недооценка креативности человека со стороны тех, кто «за все ИИшное против всего плохого»;
– кроме довольно узких ниш использование ИИ в современной экономике пока не вырисовывается;
– контент, мать его. Доступный для обучения созданный человеком контент конечен и либо уже закончился, либо вот-вот в обозримом будущем. А обучение нейросетки на контенте, сгенерированном нейросеткой же – это, очевидно, тлен и суета сует.

Как оно в реальной жизни окажется – ну, будем посмотреть
👍2
Forwarded from Паша AI AI AI
Gartner назвал главные технологические тренды на 2025 год

Исследователи из Gartner выпустили очередной отчет — на этот раз эксперты назвали 10 главных технологических трендов, которые станут определяющими в следующем году. Разберемся в прогнозах компании.

AI-агенты
В Gartner считают, что к 2028 году AI-агенты будут автономно принимать до 15% решений в повседневной работе компаний. По мнению авторов, AI-агенты смогут увеличить продуктивность компаний, упростив менеджмент сложных проектов.

Платформы для управления AI 
Такие платформы позволяют следить, чтобы AI-модели соответствовали стандартам безопасности компании. Это особенно важно в условиях, когда количество областей, где применяется AI, постоянно растет, а сами AI-модели получают доступ к все более конфиденциальной информации. Gartner прогнозирует, что к 2028 году компаниям, использующим такие платформы, пользователи будут доверять на треть больше, чем остальным.

Защита от дезинформации
Это системы, которые могут подтвердить достоверность информации, отследить и предотвратить распространение дипфейков и другого вредоносного контента. Для этого может использоваться мониторинг поведения пользователя, алгоритмы выявление синтетического контента и т.д. По прогнозам Gartner, к 2028 году такое ПО будет использовать половина компаний.

Постквантовая криптография
В Gartner считают, что квантовые компьютеры будут использовать повсеместно еще в этом десятилетии, а значит все предыдущие методы защиты от взлома станут бесполезными. Соответственно, компаниям уже сейчас надо задумать о защите своих данных от будущих атак.

Эмбиентный невидимый интеллект
Это использование небольших дешевых датчиков для отслеживания местоположения и состояния разных предметов и объектов. В качестве примеров использования авторы приводят управление светом, музыкой и рекомендациями для покупателей в ритейле; отслеживание состояния пациентов без использования носимых устройств и т..д.

Энергоэффективные вычисления
Под этим Gartner подразумевает новые алгоритмы работы и усовершенствованное аппаратное обеспечение не только компьютеров, но и ЦОДов, которые должны минимизировать энергопотребление и вредные выбросы в атмосферу. Это особенно актуально на фоне быстрой эволюции AI-моделей.

Гибридные вычисления
Использование CPU и GPU одновременно с квантовыми, нейроморфными и другими системами с целью создания гибридной вычислительной среды для решения сложных задач. Это должно позволить компаниям эффективно распределять мощности между задачами, которые можно выполнять в облаке, и теми которые требуют локальных ресурсов. 

Пространственные вычисления
Рынок создания иммерсивного пространства с помощью MR и AR-устройств, где пользователи смогут продуктивно взаимодействовать с информацией, увеличится со $110 млрд в 2023 году до $1,7 трлн в 2033 году. Пример использования: удаленная рабочая встреча с коллегами по работе в дополненном пространстве или AR-симуляции для проведения рабочих тренингов. К 2028 году такой экспириенс будут хотя бы раз в неделю получать до 20% людей против 1% сегодня. 

Многофункциональные роботы
В Gartner считают, что уже к 2030 году 80% людей будет в той или иной мере взаимодействовать с роботами, которые могут выполнять несколько задач. Речь не только о работе на складах, но и техобслуживании различных механизмов, в том числе в опасных условиях, помощи маломобильным пациентам в больницах и т.д.

Когнитивные улучшения с помощью нейроинтерфейсов
Улучшение когнитивных способностей человека с помощью технологий и устройств, анализирующих мозговую деятельность. Применять их будут не только в медицинских целях, но и для повышения работоспособности. В Gartner считают, что уже к 2030 году подобными устройствами будут пользоваться 60% сотрудников сферы IT.  
#напочитать

Пополнил коллекцию бумажных книг данным, весьма любопытным, как по мне, экземпляром.

Возможно, следовало бы, как обычно, начинать с англоязычного варианта.
А то от "новых аффордансов" в переводе книги Жамак Дегани до сих пор глаза кровоточат.
- Our best release yet! - говорили они...
- No reason to pay for Tableau/Looker/PowerBI anymore. Try Apache Superset 4.1 - говорили они...

- Проверим, проверим - отвечаем мы им словами Василия Казарцева.

Говорит, если что, легенда мира больших данных Maxime Beauchemin в заблокированной в РФ соцсети
Forwarded from DataJourney
Дичь в данных

Порой пользователям нужно обогатить данные в хранилище «вон тем справочником в Excel от поставщика» или еще какой-нибудь дичью, для которой нормальный процесс интеграции не построить.

В мире розовых дата-пони такое неприемлемо. Любые данные должны быть описаны, понятны, качественны и т.д. Но в реальном мире такое вот обогащение навозом может помочь вырастить розу аналитических выводов или управленческих решений на данных. И ради таких роз люди будут это делать какими-то своими способами в обход существующих правил.

Здесь настоятельно всем рекомендую иметь официальную возможность загрузки дичи в хранилище, чтобы не бороться потом с последствиями, а понимать общий масштаб беды и, возможно, менять что-то в процессах. Простая кнопка «загрузить CSV» реализованная в контейнере с Flask позволит пользователям централизованно загружать данные, а команде хранилища их как-то обслуживать.
👍31
#заметкинаполях

Начал читать "Data Mesh в действии". Выглядит так, что лучше "Data Mesh" совсем никак не переводить, чем переводить как "сетка данных".

Звучит ужасно, как по мне...

Где-то на одном уровне с ОАГ и "хранилищем ключевой ценности".

#datameshinaction
👍4
#заметкинаполях

«Чуечка» моя меня редко подводит. Книгу, упомянутую в предыдущей публикации, однозначно, брать стоило, хотя я и прочитал пока лишь пару абзацев из первой главы. Ибо авторы четко задекларировали свое намерение сделать упор на социальную составляющую и уделить основное внимание «людям, процессам и организациям».

А технологии, говорят, можно брать любые, «на которых функционирует большинство современных систем работы с данными»

Посмотрим, что у них в итоге у них получится.

#datameshinaction
🔥4
#заметкинаполях #datameshinaction

«...мы называем такую сеть — сеткой данных...»

Вот ради избежания разрывов головного мозга и других важных человеческих органов при чтении подобных фраз я и стою на том, чтоб не переводить Data Mesh таким образом…
👍5
#заметкинаполях
#datameshinaction

Занимательный факт — авторы дают свое определение Data Mesh, «сформулированное с точки зрения практичности и конечного результата».

Data Mesh — это парадигма децентрализации. В ней децентрализуются владение данных, их преобразование в информацию, а также их обслуживание. Цель — повысить извлечение ценности из данных, устранив узкие места в потоке конверсии данных в ценность. Понятие Data Mesh опирается на четыре принципа, которые помогают эффективно масштабировать работу с данными: владение доменом, представление данных как продукта, федеративное вычислительное управление и самообслуживаемая платформа данных. Реализации могут различаться по объему и степени использования каждого принципа.

Первое и последнее предложение в этом определении являются ключевыми, на мой взгляд. Первое максимально просто и емко и напоминает легендарное определение одного из направлений в рок-музыке, данное ВИА Тараканы! («Панк — это слово из четырех букв.»). А последнее делает бессмысленными споры на тему «чистоты Data Mesh» и оставляет простор для импровизации.

Сами авторы так и пишут: «Ценность заключается в децентрализации, а ключевые принципы — это рекомендации, которые помогут правильно осуществить эту децентрализацию»
👍3
#пятница #заметкинаполях

В моем октябрятском детстве говорили: «Критикуешь — предлагай». Тем более, что я не отношусь к той категории людей, которые считают русский язык бедным, невыразительным, недостойным, чтобы термины иностранные на него переводить (мама - филолог, ага).

На мой взгляд, гораздо лучшим, чем «сетка данных», импортозамещенным вариантом термина Data Mesh будет «пасека данных». Пасечник предоставляет удобную платформу самообслуживания, внутри которой команды «децентрализованно самоорганизуются» и «пилят» свои продукты.

Не дословно, конечно, но суть отражает. К тому же в случае успеха, можно будет пропеть голосом Александра Ливера (обязательно!): «А у меня есть пасека!»

Всех с пятницей!
😁8👍2
Forwarded from DataJourney
Новости AWS

Amazon на днях представил новый тип bucket: «Table bucket», который заточен под хранение Iceberg. Выходит, что Iceberg всех победил и гигант рынка предлагает связку Athena (Trino/Presto/Spark) с Iceberg на S3 как один из вариантов быстрого, надежного, хранилища.

Ребята пишут, что новый тип хранения прячет от пользователя рад операций, которые нужно выполнять при обслуживании хранилища в такой конфигурации. Такие как:
- объединение (compaction): ряд небольших файлов сливаются в один для увеличения скорости обработки
- управление снимками (snapshot management): обычная ротация, старые снапшоты помечаются на удаление и чуть позже удаляются
- очистка (Unreferenced File Removal): автоматическое удаление неиспользуемых файлов.

Исходя из вышеуказанного, выходит, что новый тип позволит как снизить нагрузку на чтение, так и сэкономить на стоимости хранения.
🔥4👍1
#заметкинаполях #datameshinaction

Прекрасная метафора: «Однако уже более десяти лет проблема «похмельного синдрома» от увлечения большими данными отравляет жизнь компаниям любого масштаба…»

Сам когда-то писал про «иглу больших данных».

Отсюда следует, что данные - это не новая нефть, а новый наркотик, вызывающий мгновенное привыкание, чувство эйфории, безопасности и полного контроля над происходящим…

И с отсутствующей пока концепцией «умеренного потребления»…
👍5
#заметкинаполях #datameshinaction

Распечатать и в рамочку под стекло:

«Если вам не удается найти актуальный бизнес-мотив, чтобы переходить к Data Mesh, на этом можно сразу закончить
👍5
#заметкинаполях #datameshinaction

Еще одно важное замечание:

«Data Mesh легче внедрять в компаниях, в которых программное обеспечение разрабатывается в тесном сотрудничестве со специалистами по данным».
👍5
#заметкинаполях #datameshianaction

«Чтобы заложить основу управления данными нужно достичь двух задач в рамках MVP:

1️⃣ Разработать заявление о ценностях, связанное с политиками и правилами управления данными

2️⃣ Задать первоначальные правила и политики, которые будут управлять центральной платформой и продуктами данных.»


Наличие этих двух пунктов, описанных авторами книги, отличает исследованные мной успешные проекты по внедрению Data Mesh от неудачных. И именно с них я начал новый проект, в котором слова «Data Mesh» пока не упоминаются. Долго шел к осознанию сего факта, а мог бы просто в книжке прочитать, если б раньше нашел ее…