20 августа будет вебинар по Qlik, https://events.webinar.ru/novobi/qlik# Qlik - это одно из BI решений, такое же как Tableau, Power BI. Конечно они все разные. Я работал с Qlik только один раз, это было полностью кастомизированное решение на скриптах Qlik, которое включало в себя элементы ETL/DW, было не просто. Если что, то я за Tableau. Но всегда не плохо узнать про другие продукты и способы их пременения, особенно, если вы работаете с аналитикой и данными.
Zappos - это дочернее предприятие Амазон, находиться в Лас Вегасе. Очень успешные и креативные. Это интеренет магазин обуви, у них супер культура. и они практикуют holacracy А статья про их недавний проект https://venturebeat.com/2019/07/17/zappos-lead-data-scientist-on-the-challenges-of-using-semantic-search/
VentureBeat
Zappos lead data scientist on the challenges of using semantic search
At Transform 2019 in San Francisco, Zappos lead data scientist Ameen Kazerouni talked about how his team successfully implemented semantic search.
Небольшой ролик про девайсы AWS и автомобиль для транспортировки данных в облака. А вы как думали, можно загрузить несколько петабайтов в облако?
YouTube
How Amazon Uses Explosive-Resistant Devices To Transfer Data To AWS
Demand for cloud computing from providers like Amazon Web Services continues to rise from both companies and consumers that rely on remote storage and computing power accessible from anywhere. While other tech giants Google, Microsoft, and IBM are vying to…
👍1
Всем знают, что обычно при создании хранилищ данных, нужно подумать о модели данных. Есть много вариантов - Dimensional Modelling via Kimball, 3rd Normal Form via Inmon, Data Vault and so on. На собеседованиях часто спрашивают в чем разница и какие техники существуют. Вот одна из статей на эту тему.
С другой стороны, бизнесу нужен результат здесь и сейчас, у них нет времени ждать пока вы создадите нужную модель данных. И часто, все модели вообще игнорируются, и это не смертельно. Если вы смоглы помочь бизнесу быстро получить результат, это намного лучше, чем согласовывать модель данных несколько месяцев. Опасность в том, что нет модели = нет порядка, вы создаете хаус внутри хранилища, и только вы знаете, где что находится. Так что это такая грань, и вам решать как быть. Я в этой ситуации использую ELT tool Matillion, который помогает мне разрабатывать быстро и включать в работу бизнес пользователей.
Например в Алексе, где я сейчас, именно такая ситуация, за последние несколько лет мой департамент Applied Modelling and Data Science нагородил много кастомных решений, и теперь все хором говорят, что им нужна правильная модель данных, а что в ней должно быть и почему, никто не знает. Ну я могу им рассказывать, как модель данных важна, и мы понимаем друг друга с полу слова😆 Так же у другой команды есть Redshift кластер, в котором 128 нод, это максимально возможный кластер и он не справляется с объемом и кол-вом запросов. И в этой ситуации решение - это микс хранилища данных и озера данных, то есть уйти от реляционной модели данных, где есть в этом необходимость. Что в принципе и сделал Amazon.com в течение последних трех лет под названием проекта Rolling Stone. Все реляционные базы данных Оракл были заменены на AWS DynamoDB (NoSQL).
И последнее, про модели данных. Как правило, когда мы говорим о модели данных, мы подразумиваем релационную модель данных (Schema on Write), то есть у нас есть система источник, база данных с таблицами, и таргет, хранилище данных с таблицами, с помощью ETL/ELT мы загружаем данные ИЗ сорса В таргет. Если у нас, в таблице в системе источнике добавится столбец, или поменяется тип данных, то все сломается, так как данные изменились, а схема нет. Поэтому есть альтернатива - Schema on Read, то есть мы можем обновлять схему каждый раз, когда меняется источник и ничего не сломается. Обычно это в случие неструктурированных данных. Более подробно можно почитать в Snowflake Ebook.
С другой стороны, бизнесу нужен результат здесь и сейчас, у них нет времени ждать пока вы создадите нужную модель данных. И часто, все модели вообще игнорируются, и это не смертельно. Если вы смоглы помочь бизнесу быстро получить результат, это намного лучше, чем согласовывать модель данных несколько месяцев. Опасность в том, что нет модели = нет порядка, вы создаете хаус внутри хранилища, и только вы знаете, где что находится. Так что это такая грань, и вам решать как быть. Я в этой ситуации использую ELT tool Matillion, который помогает мне разрабатывать быстро и включать в работу бизнес пользователей.
Например в Алексе, где я сейчас, именно такая ситуация, за последние несколько лет мой департамент Applied Modelling and Data Science нагородил много кастомных решений, и теперь все хором говорят, что им нужна правильная модель данных, а что в ней должно быть и почему, никто не знает. Ну я могу им рассказывать, как модель данных важна, и мы понимаем друг друга с полу слова😆 Так же у другой команды есть Redshift кластер, в котором 128 нод, это максимально возможный кластер и он не справляется с объемом и кол-вом запросов. И в этой ситуации решение - это микс хранилища данных и озера данных, то есть уйти от реляционной модели данных, где есть в этом необходимость. Что в принципе и сделал Amazon.com в течение последних трех лет под названием проекта Rolling Stone. Все реляционные базы данных Оракл были заменены на AWS DynamoDB (NoSQL).
И последнее, про модели данных. Как правило, когда мы говорим о модели данных, мы подразумиваем релационную модель данных (Schema on Write), то есть у нас есть система источник, база данных с таблицами, и таргет, хранилище данных с таблицами, с помощью ETL/ELT мы загружаем данные ИЗ сорса В таргет. Если у нас, в таблице в системе источнике добавится столбец, или поменяется тип данных, то все сломается, так как данные изменились, а схема нет. Поэтому есть альтернатива - Schema on Read, то есть мы можем обновлять схему каждый раз, когда меняется источник и ничего не сломается. Обычно это в случие неструктурированных данных. Более подробно можно почитать в Snowflake Ebook.
Работает консультантом? Вот список книг, который (возможно) даст вам новые идеи. Я заказал себе все книжки. Кстати использовал Абебукс (Амазон дочка) которая продает б/у книги по 4-5 долларов вместо 20-30.
google.com: Migrating Teradata and other data warehouses to BigQuery.
https://cloud.google.com/blog/products/data-analytics/migrating-teradata-and-other-data-warehouses-to-bigquery
https://cloud.google.com/blog/products/data-analytics/migrating-teradata-and-other-data-warehouses-to-bigquery
Google Cloud Blog
Migrating Teradata and other data warehouses to BigQuery
Check out the migration framework and architecture we suggest for moving your data warehouse, like Teradata, to Google Cloud BigQuery.
Хотел поделиться новостью, будем делать первый ивент с Майкрософт в Ванкувере про Azure Data Platform на весь день!https://dwiad.ticketleap.com/data-warehouse-in-a-daysept2019/
Ticketleap
Cloud Data Warehouse in a Day
In this course, you will learn concepts, strategies, and best practices for designing a cloud-based data warehousing solution using Microsoft Azure SQL Data Warehouse, the petabyte-scale data warehou…
Dice Insights: Data Analyst: Necessary Skills, Education, Training, Résumé.
https://insights.dice.com/2019/08/07/data-analyst-education-training-resume/
https://insights.dice.com/2019/08/07/data-analyst-education-training-resume/
Dice Insights
Data Analyst: Necessary Skills, Education, Training, Résumé
A data analyst is more important to an organization than ever. If you're interested in becoming a data analyst, here's a breakdown of necessary skills.