Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#ml

Вчера я посетил ML meetup в компании xMatters, и там в презентации была интересная ссылка на статью How to make a racist AI without really trying. Статья о bias или о том, что можно быстро сделать модель, и получить хорошую точность, но это будет совершенно не правильный результат. http://blog.conceptnet.io/posts/2017/how-to-make-a-racist-ai-without-really-trying/

Кстати вы можете повторить опыт, вся информация в статье.
#python
Питон один из самых популярных языков для задач инжиниринга данных. В нем есть основые типы данных int, float, string. Когда мы работаем с данными для аналитики, часто мы работаем с суммами денег. И вот интересный пример, как python будет работать с деньгами.

Попробуйте следующую команду:

x=.1+.1+.1-.3
print(x)

Мы ожидаем получить 0, но получим 5.551115123125783e-17 (почти 0)
А вот пример из жизни, кассовый апарат при работе с float типом данных. Решение - использование from decimal import * a=Decimal('.10')...
#dataengineering Пример современной Big Data архитектуры с использованием решений AWS. Ключевой элемент здесь serverless ETL - AWS Glue, который управляет потоками данных, забирая их из источника, складируя в озеро данных S3, при это делает очень важную вещь - собирает метаданные и создает схему данных. Без этого шага, ваше озеро данных=помойка данных. Так же AWS Glue использует Spark для работы с данными или EMR (Hadoop) для вычислительной мощности. Результат отправляется в Redshift для BI или используется для ML. Такую архитектуро можно воспроизвести +/- 1 в 1 в Google/Azure.
#cloudanalytics решения

Все мы знаем, как увеличивается объем данных. Согласно данным AWS, каждые 5 лет объем данных увеличивается в 10 раз. Когда мы используем традиционных решения для аналитики, то есть мы покупаем физические сервера и используем их для нужд аналитики и бизнеса, нам необходимо платить за избыточную производительность серверов. То есть, сейчас нам нужно решение для хранения и обработки 10 терабайт, но мы инвестируем в железо минимум на 5 лет, то нам нужно решение, которое может работать со 100 терабайтам. При этом, фактически мы будем изначально использовать 10% мощности, а платить за 100%. Отсюда популярность и эффективность облачных технологий, мы платим, за то что используем и легко масштабируется.

Другое преимущество, что облачные решения предлагают нам решения для всех нужд аналитики, например BI, DW, ETL, BigData, ML и тп. Все эти решения работают вместе и могут использовать единый источник данных – озеро данных (Data Lake).

Несмотря на то, что доступен целый зоопарк решений в том же AWS, мы можем решить одну и тужу задачу десятком способов. Другое преимущество облако, что существует marketplace, на котором доступны партнерские решения.
экосистема аналитических решений AWS
#скилы

Что учить в 2019? Согласно статье HBR “Prioritize Which Data Skills Your Company Needs”, то есть какие скилы будут полезны для вашего работадателя или клиента. У них получился интересная матрица 2 на 2, в которой показали, что учить, что не учить, что полезно, что бесполезно. Мне кажется, что данную матрицу делали на основе запросов в гугле по ключевым словам, и она очень оторвана от реальной жизни. https://hbr.org/2018/10/prioritize-which-data-skills-your-company-needs-with-this-2x2-matrix
вот она матрица скилов
А вот как над ней надругались знающие люди
#скилы Я бы выделил несколько областей:
1)Организация данных, то есть, прежде чем учить Data Science, BI, Python, поймите как данные хранятся в таблицах. Чем таблица отличается от кросс таблицы (pivot), и как из одной сделать другое.
2)Так как SQL и базы данных везде, то вам нужно уметь писать SQL на бумажке, вы видите таблицу(ы) и можете написать запрос на бумажке. Еще нет лучшего ресурса чем этот сайт sql-ex.ru, которому лет наверно, как нам, всякие там codecademy и тп, отдыхают.
3)Если вы знаете Excel, то это замечательно, теперь необходимо выбрать BI tool, можно любой, и разобраться как он работает, вообще не важно какой, можно Tableau или Qlik, все что захотите. Главное, это понять, что роль BI А:это замена Excel для автоматизации (больше автоматизации, меньше человеческого фактора) Б: это замена SQL на мышку, но ваше ценность не очень велика, если вы не понимаете как Таблицы из п.1 при помощи SQL п.2 создают красивую картинку в BI п.3.

Пункты 1-3 это базовые пункты для работы с данными. Главное, что нужно помнить, не учите конкретный инструмент, учите методы и подходы. Например, SQL синтаксис очень похож во всех продуктах. Все BI инструменты делают +/- одно и тоже. Знаю подход, вы освоите новый инструмент очень быстро, так как сейчас есть материалы по любому вопросу и все бесплатно. Что уж там, можно MBA обучиться бесплатно.
👍2
Лари Элисон ругается на Амазон, что тот отказался от базы данных Оракл и отрицает, что Амазон заменил Оракл. Амазон использовала Оракл для OLTP системы и для Хранилища Данных. К сожалению, Оракл больше не смог обеспечивать производительность при росте Амазон, что привело к сбоям в работе сайта и в работе Хранилища данных.
Я считаю, что эра Oracle как хранилища данных уже прошла. Когда 20 лет назад, Амазон выбрал Oracle, то это была #1 база данных. А Лари молодец, настоящий лидер, который идет вперед, несмотря ни на что.
https://youtu.be/xrzMYL901AQ
#целина2019

Есть ли у вас цель на следующий год? Осуществили ли вы цели на это год? Прочитали достаточно книг? Когда я был в Москве, у меня была одна цель, жить у океана и работать в лучшей компании Google, Facebook, Amazon. Я рад, что эти цели достигнуты, и рад, что наконец у меня появились новые цели. Это год был простой и успешной с точки зрения основной работы, но очень тяжелый с точки зрения расстановки приоритетов, было потрачено много сил не туда, но был получен колоссальный опыт. Теперь я спокоен, у меня есть следущая большая цель, как и до этого.

В Амазон “Think Big” это ключевой атрибут успешности, поэтому ваши цели должны быть BIG, я мне кажется, что когда у нас есть цель, вселенная нам помогает и мысли визуализируются, очень часто были ситуации, когда не знаешь, что делать, но как-то само все организовывается в лучшем виде.

Я точно знаю, возможно все, как пример, моя фотография с моей первой работы фрезеровщика, ГКПНЦ им Хруничева, где я работал с 2008 по 2010. Так что все возможно. Это так же, как в истории, когда мужчина съел САМОЛЕТ, как он это сделал? Ел по маленьким кусочками. https://en.wikipedia.org/wiki/Michel_Lotito
Моя первая профессия 2008-2010 на ГКНПЦ им Хруничева.
#modernanalyticssolution

Еще один пример современного аналитического решения, но уже на Google Cloud.

🍾BigQuery - аналитическое хранилище данных от Google
🍷Matillion ETL - облачный ETL
🕺🏻SuperQuery AI - углубленная аналтитика для Big Query
🥃Striim - загрузка данных в реальном времение в BigQuery
🤪Looker - облачный BI. Кстати если хотите его попробовать или научиться, напишите мне, у меня есть инстанс свой, к сожалению в РФ не используется, но в Европе и Северной Америке такой же популярный как Tableau, так что может пригодиться
https://gweb-cloudblog-publish.appspot.com/products/data-analytics/finding-data-insights-faster-with-bigquery-and-gcp-marketplace-solutions/amp/?utm_content=80693342&utm_medium=social&utm_source=rockyourdata
#bigdata

Ниже ссылка на запись AWS re:invent Big Data Analytics Architectural Patterns and Best Practices. (Примеры архитектуры для кейсов Big Data и лучшие практики).
https://www.youtube.com/watch?v=ovPheIbY7U8
Любая система аналитики представляет собой следующую систему: Сырые данные -> Запись в область хранения -> Обработка-> Запись в область хранения -> Аналитика -> Инсайты

Согласно презентации, современные технологии, в частности AWS и его аналоги, позволяют нам для каждого элемента системы выбрать наиболее подходящую технологию. Выделяют следующие архитектурные принципы:
🙈Разделение системы – отдельно область хранения, отдельно вычислительные мощности
🙊Каждой задаче свой инструмент
🙉Максимально использовать managed или serverless сервисы, то есть сервисы, где нужна минимальная поддержка
🙊Храним все историю изменений и данных (озеро данных)
🙈Экономность – мы платим только за использование ресурса
🙉Машинное обучение – используем по возможности

В презентации хорошо видно можно подобрать подходящий инструмент в зависимости от задачи, типа данных, объема, частоты использования и других вводных.

Например, у меня сейчас есть задача, предоставить логи веб сервера маркетингу для аналитики. Вроде бы все просто, вот логи, и я могу взять один лог файл (access combined) и загрузить в Redshift. Время загрузки одного файла 1 минута. Но мне нужно загрузить 3 года данных, при этом за один день, у меня несколько тысяч файлов, то есть я только один день буду грузить несколько тысяч минут.

Поэтому мне необходимо воспользоваться системой класса Big Data, которая сможет быстро сделать эту работу. В данном случае это EMR (Hadoop)+Spark. Spark – задает логику для вычислительных мощностей Hadoop (EMR), а данные хранятся в S3 (файловое хранилище), то есть моя система разделена (хранение данных и вычислительные мощности). Это всего лишь один из вариантов решения задачи. Так же я могу использовать Redshift Spectrum и создать внешние таблицы поверх S3, или использовать serverless ETL AWS Glue, и загрузить и обработать файлы.

Выводов 3
1)Технологии так быстро развиваются, что мы не поспеваем за ними
2)Если у нас не получается решить задачу обычным способом с классическим ETL/DW, тогда мы можем смотреть в сторону Big Data решений
3)Cloud serverless and managed services are future for analytics.
#jobhunt

Хотел поделиться интересным лайфхаком, про оформление резюме. Цель резюме понятна. Мы хотим найти работу, желательно получше и где повыше зарплата. В любом случае, потолок нам не перепрыгнуть (мой пост про зп был про это).

Обычно на хорошие вакансии большой спрос, то есть нам надо привлечь к себе внимание. Так же, как и в бизнесе, мы боремся за внимание аудитории. Когда я искал работу за границей, то я решил сделать презентацию про себя в качестве cover letter.

Как и в аналитике, визуальная информация воспринимается лучше, поэтому я решил максимально визуализировать свой опыт (впервые я увидел такой подход в одном из TED Talk). Я много экспериментировал с презентациями. В итоге, стал использовать slideshare, чтобы отправлять ссылку на мою презентацию. В slideshare можно сделать приватную ссылку, и отслеживать веб аналитику по ним, кол-во кликов, страна, реферал и тп. То есть когда мы откликаемся на вакансию и отправляем ссылку на презентацию, мы сможешь отслеживать интерес к своей кандидатуре.

Другой важный элемент презентации, сделать ее интересной, почти как история (опять же из аналитики данных, нужно создавать истории, а не сухие цифры). Обычно опыт и резюме — это очень скучно. Из него не понятно какую ЦЕННОСТЬ вы несете для компании, поэтому нужно раскрыть тему своей ЦЕННОСТИ, попробовать указать проблемы индустрии, показать, что вы с ними знакомы и знаете решение.

Как минимум, ваше презентация может оказаться свежим глотком воздуха для уставших рекрутеров и значит, у вас больше шансов.

Кстати, когда я искал работу в Канаде из Москвы (я нашел ее), я создал себе канадский норме через IP телефонию и написал левый адрес в резюме, и так хотя бы просматривали мой опыт и со мной связались. Как результат, по приезду в Канаду, я выше на работу сразу. А обычно, вы будете искать работу несколько месяцев, просто все так медленно. Вот ссылка на презентацию https://www.slideshare.net/secret/JB5eHCWBW4i2fp
А это мое резюму, с которым я попал на собеседование в Амазон, может быть использовано как шаблон
#datagovernace

Вы наверно слышали термин Data Governace? Мне до си сих пор не доконца понятно, что с этим делать и я стараюсь избегать этого, но особенно в больших организациях от этого не убежать и приходиться заниматься скучной, но важной работой.

Data Goverance - процесс управления данными, состоит из множество элементов, как безопасность данных, доступ к данным, качество данных, жизненный цикл данных и тп. Обычно этим занимается Enterprise Data Architect или Chief Data Officer, но если такого нет, то это падает на плечи BI/Data разработчиков.

Сегодня пришло приглашение на онлайн конференцию по этому топику, которое будет в январе, вот ссылка, кому интересно записываейтесь:

http://datagovernanceonline.com/
Data Governance Elements