NEW BOT Телеграм, страница

Инжиниринг Данных

#startupanalytcs Часть 2

3️⃣ (20-50 сотрудников): обычно данный этап наступает после 2х лет тяжелой работы. Также у вас появляются инвесторы и появляются дополнительные деньги на развитие. Сейчас самое время, использовать качественные решения для аналитики и создания решения DW/ETL/BI и нанять на работу профессионала в этой области.

🧰Инструменты: Облачные решения идеальный вариант (Snowflake, Redshift, Big Query, Azure Cloud, Tableau, Power BI, Looker и тп). Облако дает нам несколько преимуществ: скорость развертывания, гибкая цена, мы платим только за то, что используем и простота масштабирования. Вам необходимо нанять человека или консультанта, который сможет быстро создать такое решение.

❌Чего не делать: еще рано использовать Machine Learning (если это не основа вашего продукта), не тратьте время на скрипты для ETL, используйте готовые решения (Pentaho DI, Talend, Azure Data Factory, AWS Glue и тп). Не используйте Enterprise BI (SAP BO, MicroStrategy, IBM, Oracle) они дорогие и не гибкие. Не используйте open source базы данных Postgres/MySQL, они плохо масштабируются и не подходят в качестве аналитической БД.

4️⃣(50-150): Эта фаза считается самой сложной. У вас все еще не очень большая команда и недостаточно ресурсов. Но есть потребность у бизнеса в качественной аналитике. На данном этапе аналитика должна помогать управлять бизнесом и добавлять ценность как никогда ранее. Необходимо задуматься о создании модели данных, чтобы лучше трансформировать бизнес логику в данные. Модель нужна, чтобы синхронизировать бизнес пользователей и создать так называемый Single Point of Truth (единую точку правды), иначе каждый департаменты будем иметь свою прибыль. Необходимо развивать свою команду аналитики и расширять штат, основные скилы это SQL, BI, ETL. Также вы начинает использовать статистику и data mining, например для бюджетирования или строите модель оттока. Ну и, конечно, стоит пересмотреть подход с атрибуцией.

🧰Инструменты: DBT, Erwin, Mysql Workbench, все они позволяет рисовать модель данных, она должна отражать бизнес-процессы и все необходимые показатели. Необходимо использовать версионность (Git, SVN). Возможно стоит подумать и переходе на GA Premium или использовать любую другую система аналитики, в которой нет ограничений и которые не забирает ваши данные. Например, Snowplow, Tealium. Стоит добавить в арсенал Jupyter Notebook или Rstudio.

❌Чего не делать: вы все еще может обойтись относительно недорогими решениями или open source, нет смысла «стрелять из пушки по воробьям». Big Data решения (Hadoop, Spark, Data Lake, Real time streaming) пока еще подождут.

5️⃣ (150-500 сотрудников): на данном этапе мы должны создавать аналитическое решение, которое может быть легко масштабируемо. Обычно на 150 сотрудников, BI команда состоит из 3-6 человек, при 500 сотрудниках, команда вырастает до 30 человек. Очень важно управлять ростом, иначе производительность команды при ее росте будет падать (я прошел через такой рост, и наблюдал это). Необходимо задуматься о качестве данных (QA), о управление данными и их безопасности. Например, работая в lamoda, все имели доступ к клиентской базе (3млн+ клиентов) и этот доступ никак не отслеживался. Для повышения надежности решения аналитики, необходимо делать ревью всех изменений (BI, DW, ETL). Очень важно наладить процесс документации и тренингов, и процесс передачи знаний. Никто из команды не должен быть узким местом. Так же у вас есть выбор в метода организации аналитики. Например, может быть отдельная BI команда, а могут быть распределенные ресурсы, которые обслуживают свою команду (BI Champions)

🧰Инструменту: Аналитическое хранилище данных (Redshift, Big Query, Azure, Snowflake), надежное решение ETL, BI (Tableau, Looker), решения Big Data (Hadoop, Spark), решения Machine Learning. В принципе можно посмотреть Gartner или Forrestert и использовать решения лидеры.

❌Чего не делать: никаких поблажек, аналитика на данном уровне занятие не простое и требует хороших скилов и опыта. Необходимо четко следовать правилам (QA, code review, data governance, documentation и тп)

1.18K viewsedited 00:03

Инжиниринг Данных

PS Каждый случай уникален, и все зависит от компетенций основателя. Например, если я что-то делаю, то уже на первом этапе я использую DW(Azure SQL Server free) /ETL (Pentaho DI - free) /Tableau Desktop or Klipfolio (free), потому что мне это легче и быстрей. Но в целом в статье, отслеживается модель развития BI (maturity model). Если есть вопросы, пишите.

1.03K views00:14

Инжиниринг Данных

#проактивность

Чудес не бывает, и если вы хотите достичь успеха в работа или в бизнесе, нам необходимо быть проактивными. Если я посмотрю на свой опыт и вещи, которые у меня получились, включая работу в Амазоне, написанные книжки и другие большие и маленькие личные победы, то везде я увижу след проактивных действий.

Например, вы устроились на новую работу, не надо ждать пока к вам придут и скажут, что делать. Возьмите «ноги в руки» и вперед. Допустим в роли аналитика или разработчика, я ходил к бизнес пользователям, общался с ними, спрашивал, что у них не получается, помогал им осваивать BI инструменты. Это не входило в мои обязанности, но я понимал, что нельзя просто сидеть и ждать.

Другой пример, когда вы работаете, у вас появляются идеи, они могут быть про работу или про что-то другое, эти идеи полезны, и могут вам помочь, но вы откладываете их на потом, и в результате вы их так и не пробуете. Я всегда стараюсь пользоваться моментом, чтобы воплотить в жизнь идею, быть проактивным, даже если это идет в разрез с моими планами и будет тормозить меня, по опыту я получаю больше хорошего, чем плохого. Так было и с каналом, мелькнула идея, и я не стал откладывать, просто взял и сделал. Так же я никогда не откладываю на потом, что можно сделать сейчас.

Еще один пример проактивности, я работал в Терадата, и был одним из BI консультантов. Условия у всех одинаковые. Я решил быть проактивными и сделал следующие 2 вещи:

🔨Создал тренинги по SAP BusinessObjects и поучил коллег (хотя я раньше никогда такого не делал), после этого я создал slideshare и так на меня вышли издатели книг. И заодно сходил в SAP и пособеседовался.

📝Я написал всем партнерам Терадата в Штаты (Oracle, Microstrategy, IBM, Microsoft,SAS и впервые увидел про Табло, их еще не было в РФ), я всем написал одно и тоже: «Привет, мы тут крутые BI проекты делаем и продаем Teradata + <вставить BI продукт>, мы хотим узнать больше о вашем продукт, приезжайте к нам в Москву и проведите тренинг для нас». Ответили почти все. Как результат:
1️⃣к нам приехали из Польши и сделали тренинг про MicroStrategy. Позже, используя этот опыт, я собеседовался в Microstrategy, и даже 6 месяцев работал в Канаде Microstrategy Developer и написал книгу Mastering Business Intelligence with Microstrategy 10 + сдал экзамен на сертфикицаю. Все благодаря проактивности.
2️⃣Мы сходил в офис Oracle и нам провели тренинг, я там заодно пособеседовался:)
3️⃣SAS сказал, что у нас есть бюджет на 2к$ в Москве. Опять, используя проактивность, я сходил на тренинги по SAS BI и сдал экзамен на сертификат и все бесплатно. Даже пособеседовался:) Но как обычно зп выше рынка сложно получить. И больше никто не захотел идти.
4️⃣Благодаря Tableau я узнал про этот продукт и стал его изучать, и вообще уже собрался в Австралию, так как у них была там вакансия, но меня конечно там ждали))

Как вы видите, когда мы проявляем проактивность, это дает нам преимущество, так как многие будут просто лениться делать, что-то лишнее. Повышение я не получил, как и прибавку к зарплате, зато обрел много ценных контактов и расширил кругозор.

Теперь нужно быть проактивным и успеть: сдать эказмен по Tableau, получить сертификать AWS Solution Architect Assosiate, Snowflake Assosiate, разобраться как работает Spark+EMR (Hadoop), и подтянуть Machine learning. В идеале нужно заниматься чем-то одним, но никогда не знаешь, что выстрелит, поэтому я всегда делаю все возможные варианты, так и живем😜

1.17K viewsedited 00:23

Инжиниринг Данных

#ml

Вчера я посетил ML meetup в компании xMatters, и там в презентации была интересная ссылка на статью How to make a racist AI without really trying. Статья о bias или о том, что можно быстро сделать модель, и получить хорошую точность, но это будет совершенно не правильный результат. http://blog.conceptnet.io/posts/2017/how-to-make-a-racist-ai-without-really-trying/

Кстати вы можете повторить опыт, вся информация в статье.

ConceptNet blog

How to make a racist AI without really trying

A cautionary tutorial. Let's make a sentiment classifier!¶Sentiment analysis is a very frequently-implemented task in NLP, and it's no surprise. Recognizing whether people are expressing positi

993 views18:22

Инжиниринг Данных

#python
Питон один из самых популярных языков для задач инжиниринга данных. В нем есть основые типы данных int, float, string. Когда мы работаем с данными для аналитики, часто мы работаем с суммами денег. И вот интересный пример, как python будет работать с деньгами.

Попробуйте следующую команду:

x=.1+.1+.1-.3
print(x)

Мы ожидаем получить 0, но получим 5.551115123125783e-17 (почти 0)

842 viewsedited 19:51

Инжиниринг Данных

А вот пример из жизни, кассовый апарат при работе с float типом данных. Решение - использование from decimal import * a=Decimal('.10')...

885 viewsedited 19:53

Инжиниринг Данных

#dataengineering Пример современной Big Data архитектуры с использованием решений AWS. Ключевой элемент здесь serverless ETL - AWS Glue, который управляет потоками данных, забирая их из источника, складируя в озеро данных S3, при это делает очень важную вещь - собирает метаданные и создает схему данных. Без этого шага, ваше озеро данных=помойка данных. Так же AWS Glue использует Spark для работы с данными или EMR (Hadoop) для вычислительной мощности. Результат отправляется в Redshift для BI или используется для ML. Такую архитектуро можно воспроизвести +/- 1 в 1 в Google/Azure.

930 views19:38

Инжиниринг Данных

#cloudanalytics решения

Все мы знаем, как увеличивается объем данных. Согласно данным AWS, каждые 5 лет объем данных увеличивается в 10 раз. Когда мы используем традиционных решения для аналитики, то есть мы покупаем физические сервера и используем их для нужд аналитики и бизнеса, нам необходимо платить за избыточную производительность серверов. То есть, сейчас нам нужно решение для хранения и обработки 10 терабайт, но мы инвестируем в железо минимум на 5 лет, то нам нужно решение, которое может работать со 100 терабайтам. При этом, фактически мы будем изначально использовать 10% мощности, а платить за 100%. Отсюда популярность и эффективность облачных технологий, мы платим, за то что используем и легко масштабируется.

Другое преимущество, что облачные решения предлагают нам решения для всех нужд аналитики, например BI, DW, ETL, BigData, ML и тп. Все эти решения работают вместе и могут использовать единый источник данных – озеро данных (Data Lake).

Несмотря на то, что доступен целый зоопарк решений в том же AWS, мы можем решить одну и тужу задачу десятком способов. Другое преимущество облако, что существует marketplace, на котором доступны партнерские решения.

821 views19:43

Инжиниринг Данных

экосистема аналитических решений AWS

868 views19:44

Инжиниринг Данных

#скилы

Что учить в 2019? Согласно статье HBR “Prioritize Which Data Skills Your Company Needs”, то есть какие скилы будут полезны для вашего работадателя или клиента. У них получился интересная матрица 2 на 2, в которой показали, что учить, что не учить, что полезно, что бесполезно. Мне кажется, что данную матрицу делали на основе запросов в гугле по ключевым словам, и она очень оторвана от реальной жизни. https://hbr.org/2018/10/prioritize-which-data-skills-your-company-needs-with-this-2x2-matrix

Harvard Business Review

Prioritize Which Data Skills Your Company Needs with This 2×2 Matrix

Data skills — the skills to turn data into insight and action — are the driver of modern economies. According to the World Economic Forum, computing and mathematically-focused jobs are showing the strongest growth, at the expense of less quantitative roles.…

834 viewsedited 04:51

Инжиниринг Данных

вот она матрица скилов

880 views04:51

Инжиниринг Данных

А вот как над ней надругались знающие люди

1.06K views04:52

Инжиниринг Данных

#скилы Я бы выделил несколько областей:
1)Организация данных, то есть, прежде чем учить Data Science, BI, Python, поймите как данные хранятся в таблицах. Чем таблица отличается от кросс таблицы (pivot), и как из одной сделать другое.
2)Так как SQL и базы данных везде, то вам нужно уметь писать SQL на бумажке, вы видите таблицу(ы) и можете написать запрос на бумажке. Еще нет лучшего ресурса чем этот сайт sql-ex.ru, которому лет наверно, как нам, всякие там codecademy и тп, отдыхают.
3)Если вы знаете Excel, то это замечательно, теперь необходимо выбрать BI tool, можно любой, и разобраться как он работает, вообще не важно какой, можно Tableau или Qlik, все что захотите. Главное, это понять, что роль BI А:это замена Excel для автоматизации (больше автоматизации, меньше человеческого фактора) Б: это замена SQL на мышку, но ваше ценность не очень велика, если вы не понимаете как Таблицы из п.1 при помощи SQL п.2 создают красивую картинку в BI п.3.

Пункты 1-3 это базовые пункты для работы с данными. Главное, что нужно помнить, не учите конкретный инструмент, учите методы и подходы. Например, SQL синтаксис очень похож во всех продуктах. Все BI инструменты делают +/- одно и тоже. Знаю подход, вы освоите новый инструмент очень быстро, так как сейчас есть материалы по любому вопросу и все бесплатно. Что уж там, можно MBA обучиться бесплатно.

👍2

1.36K views05:04

Инжиниринг Данных

Лари Элисон ругается на Амазон, что тот отказался от базы данных Оракл и отрицает, что Амазон заменил Оракл. Амазон использовала Оракл для OLTP системы и для Хранилища Данных. К сожалению, Оракл больше не смог обеспечивать производительность при росте Амазон, что привело к сбоям в работе сайта и в работе Хранилища данных.
Я считаю, что эра Oracle как хранилища данных уже прошла. Когда 20 лет назад, Амазон выбрал Oracle, то это была #1 база данных. А Лари молодец, настоящий лидер, который идет вперед, несмотря ни на что.
https://youtu.be/xrzMYL901AQ

YouTube

Oracle is destined to beat Amazon at cloud database: Larry Ellison

Oracle Co-Founder & Executive Chair Larry Ellison tells FOX Business’ Maria Bartiromo that all of the world’s important and valuable data is in an Oracle database.

1.2K views19:17

Инжиниринг Данных

#целина2019

Есть ли у вас цель на следующий год? Осуществили ли вы цели на это год? Прочитали достаточно книг? Когда я был в Москве, у меня была одна цель, жить у океана и работать в лучшей компании Google, Facebook, Amazon. Я рад, что эти цели достигнуты, и рад, что наконец у меня появились новые цели. Это год был простой и успешной с точки зрения основной работы, но очень тяжелый с точки зрения расстановки приоритетов, было потрачено много сил не туда, но был получен колоссальный опыт. Теперь я спокоен, у меня есть следущая большая цель, как и до этого.

В Амазон “Think Big” это ключевой атрибут успешности, поэтому ваши цели должны быть BIG, я мне кажется, что когда у нас есть цель, вселенная нам помогает и мысли визуализируются, очень часто были ситуации, когда не знаешь, что делать, но как-то само все организовывается в лучшем виде.

Я точно знаю, возможно все, как пример, моя фотография с моей первой работы фрезеровщика, ГКПНЦ им Хруничева, где я работал с 2008 по 2010. Так что все возможно. Это так же, как в истории, когда мужчина съел САМОЛЕТ, как он это сделал? Ел по маленьким кусочками. https://en.wikipedia.org/wiki/Michel_Lotito

937 viewsedited 18:42

Инжиниринг Данных

Моя первая профессия 2008-2010 на ГКНПЦ им Хруничева.

1K views18:44

Инжиниринг Данных

#datalake

11 декабря будет вебинар посвященный созданию безопасного озера данных - " How to Build a Governed Data Lake".
http://info.matillion.com/governed-data-lake-webinar?utm_content=80814842&utm_medium=social&utm_source=rockyourdata

Matillion

Webinar - Governed Data Lake - 11.12.18

Register for our webinar to find out what a governed data lake architecture looks like and how Matillion can help you load your business' data directly into a data lake, simplifying complex data flows while accommodating business rules creating a logical…

910 viewsedited 01:09

Инжиниринг Данных

#modernanalyticssolution

Еще один пример современного аналитического решения, но уже на Google Cloud.

🍾BigQuery - аналитическое хранилище данных от Google
🍷Matillion ETL - облачный ETL
🕺🏻SuperQuery AI - углубленная аналтитика для Big Query
🥃Striim - загрузка данных в реальном времение в BigQuery
🤪Looker - облачный BI. Кстати если хотите его попробовать или научиться, напишите мне, у меня есть инстанс свой, к сожалению в РФ не используется, но в Европе и Северной Америке такой же популярный как Tableau, так что может пригодиться
https://gweb-cloudblog-publish.appspot.com/products/data-analytics/finding-data-insights-faster-with-bigquery-and-gcp-marketplace-solutions/amp/?utm_content=80693342&utm_medium=social&utm_source=rockyourdata

979 viewsedited 01:16

Инжиниринг Данных

#bigdata

Ниже ссылка на запись AWS re:invent Big Data Analytics Architectural Patterns and Best Practices. (Примеры архитектуры для кейсов Big Data и лучшие практики).
https://www.youtube.com/watch?v=ovPheIbY7U8
Любая система аналитики представляет собой следующую систему: Сырые данные -> Запись в область хранения -> Обработка-> Запись в область хранения -> Аналитика -> Инсайты

Согласно презентации, современные технологии, в частности AWS и его аналоги, позволяют нам для каждого элемента системы выбрать наиболее подходящую технологию. Выделяют следующие архитектурные принципы:
🙈Разделение системы – отдельно область хранения, отдельно вычислительные мощности
🙊Каждой задаче свой инструмент
🙉Максимально использовать managed или serverless сервисы, то есть сервисы, где нужна минимальная поддержка
🙊Храним все историю изменений и данных (озеро данных)
🙈Экономность – мы платим только за использование ресурса
🙉Машинное обучение – используем по возможности

В презентации хорошо видно можно подобрать подходящий инструмент в зависимости от задачи, типа данных, объема, частоты использования и других вводных.

Например, у меня сейчас есть задача, предоставить логи веб сервера маркетингу для аналитики. Вроде бы все просто, вот логи, и я могу взять один лог файл (access combined) и загрузить в Redshift. Время загрузки одного файла 1 минута. Но мне нужно загрузить 3 года данных, при этом за один день, у меня несколько тысяч файлов, то есть я только один день буду грузить несколько тысяч минут.

Поэтому мне необходимо воспользоваться системой класса Big Data, которая сможет быстро сделать эту работу. В данном случае это EMR (Hadoop)+Spark. Spark – задает логику для вычислительных мощностей Hadoop (EMR), а данные хранятся в S3 (файловое хранилище), то есть моя система разделена (хранение данных и вычислительные мощности). Это всего лишь один из вариантов решения задачи. Так же я могу использовать Redshift Spectrum и создать внешние таблицы поверх S3, или использовать serverless ETL AWS Glue, и загрузить и обработать файлы.

Выводов 3
1)Технологии так быстро развиваются, что мы не поспеваем за ними
2)Если у нас не получается решить задачу обычным способом с классическим ETL/DW, тогда мы можем смотреть в сторону Big Data решений
3)Cloud serverless and managed services are future for analytics.

YouTube

AWS re:Invent 2018: Big Data Analytics Architectural Patterns & Best Practices (ANT201-R1)

In this session, we discuss architectural principles that helps simplify big data analytics.

We'll apply principles to various stages of big data processing: collect, store, process, analyze, and visualize. We'll disucss how to choose the right technology…

1.14K viewsedited 23:48

Инжиниринг Данных

#jobhunt

Хотел поделиться интересным лайфхаком, про оформление резюме. Цель резюме понятна. Мы хотим найти работу, желательно получше и где повыше зарплата. В любом случае, потолок нам не перепрыгнуть (мой пост про зп был про это).

Обычно на хорошие вакансии большой спрос, то есть нам надо привлечь к себе внимание. Так же, как и в бизнесе, мы боремся за внимание аудитории. Когда я искал работу за границей, то я решил сделать презентацию про себя в качестве cover letter.

Как и в аналитике, визуальная информация воспринимается лучше, поэтому я решил максимально визуализировать свой опыт (впервые я увидел такой подход в одном из TED Talk). Я много экспериментировал с презентациями. В итоге, стал использовать slideshare, чтобы отправлять ссылку на мою презентацию. В slideshare можно сделать приватную ссылку, и отслеживать веб аналитику по ним, кол-во кликов, страна, реферал и тп. То есть когда мы откликаемся на вакансию и отправляем ссылку на презентацию, мы сможешь отслеживать интерес к своей кандидатуре.

Другой важный элемент презентации, сделать ее интересной, почти как история (опять же из аналитики данных, нужно создавать истории, а не сухие цифры). Обычно опыт и резюме — это очень скучно. Из него не понятно какую ЦЕННОСТЬ вы несете для компании, поэтому нужно раскрыть тему своей ЦЕННОСТИ, попробовать указать проблемы индустрии, показать, что вы с ними знакомы и знаете решение.

Как минимум, ваше презентация может оказаться свежим глотком воздуха для уставших рекрутеров и значит, у вас больше шансов.

Кстати, когда я искал работу в Канаде из Москвы (я нашел ее), я создал себе канадский норме через IP телефонию и написал левый адрес в резюме, и так хотя бы просматривали мой опыт и со мной связались. Как результат, по приезду в Канаду, я выше на работу сразу. А обычно, вы будете искать работу несколько месяцев, просто все так медленно. Вот ссылка на презентацию https://www.slideshare.net/secret/JB5eHCWBW4i2fp

1.18K views19:30

Инжиниринг Данных

Business Intelligence Engineer.docx.pdf

368.4 KB

1.14K views19:32

About

Blog

Apps

Platform