Ещё один пример миграция он премис в облако: https://aws.amazon.com/blogs/big-data/how-to-migrate-from-ibm-netezza-to-amazon-redshift-with-no-downtime/
Amazon
How to migrate a large data warehouse from IBM Netezza to Amazon Redshift with no downtime | Amazon Web Services
In this article, we explain how this customer performed a large-scale data warehouse migration from IBM Netezza to Amazon Redshift without downtime, by following a thoroughly planned migration process, and leveraging AWS Schema Conversion Tool (SCT) and Amazon…
This media is not supported in your browser
VIEW IN TELEGRAM
Meetup прошел супер! Секрет простой, надо побольше гифок в презентацию и побольше шутить. Люди хотят развлечений вечером после работы, а не скучные рассказы как там все в облаке работает;)
Интересная статья про сравнение аналитики и статистики как отдельных дисциплин.
Medium
What’s the difference between analytics and statistics?
Understanding the value of two completely different professions
Хороший курс по основе работе с данными - трансформации и визуализация.
Coursera
Basic Data Processing and Visualization
Offered by University of California San Diego. This is ... Enroll for free.
Я нираз писал про Snowflake. Вот и книжка почти готова. На вопрос зачем столько книг писать? Ответ простой, написать книгу - это всего лишь возможность, которая создаст еще больше возможностей. Особенно если учесть, что Rock Your Data нацелена на облачную аналитику, то такие книги лишь укрепят авторитет компании для партнеров и клиентов.
Если кто в Ванкувере в эти дни - Велком! Осталось разобраться как работает Azure, и подготовиться к экзамену DP-200 Data Platform Engineer ну и все материалы подготовить. Если у кого чего есть, поделитесь. Я нашел интересный курс на Linux Academy - Azure D200 Certification Prep.
Команды curl вам пригодиться! Если вы работаете с данными и не знаете, что это такое, то в этом посте подробно описано с примерами и упражнениями. https://jvns.ca/blog/2019/08/27/curl-exercises/
Julia Evans
curl exercises
Recently I’ve been interested in how people learn things. I was reading Kathy Sierra’s great book Badass: Making Users Awesome. It talks about the idea of deliberate practice.
Слышали о CAP теореме? В CAP говорится, что в распределенной системе возможно выбрать только 2 из 3-х свойств:
C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.
Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.
Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
А вот информацию по data science в Big Query с использованием SQL.
Medium
SQL For Data Science
SQL is one of the most requested skills in Data Science. Let’s find out how it can be used in Data processing and Machine Learning using…
Мы слышали много раз про Data Lake, но всегда был вопрос как же не превратить это все в болото данных. Успех был в правильной организации метаданных. Теперь Data Lake эволюционировали в Delta Lake, то есть действительно стали на шаг ближе к традиционным хранилищам данных. Более подробно в статье от databricks.
Databricks
AWS Data Lake Delta Transformation Using AWS Glue
Learn how to use the AWS Glue Data Catalog with Databricks Runtime to seamlessly transform your AWS Data Lake into a reliable Delta Lake.
А вы бы смогли объяснить бабушке, что такое SQL и NoSQL? Посмотрите как это делается в этой статье.
Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
Medium
Explaining SQL and NoSQL, to Grandma
One of the important choices developer’s must make is about what DB technology to use. Let’s explain the main ones using plain ol’ English.
Данные помогает делать бизнес (деньги) эффективней, но какой ценой? Все знают про Amazon Prime - бесплатная доставка за 2 дня, есть и другие опции как Prime Now, Prime Air и другие. Мы можем использовать данные, чтобы рассчитать модель доставки, и на компьютере все будет сходиться. Конечно все факты сложно учесть. Wallmart, например, пытается сделать доставку за 1 день, вместо 2х. В этой статье описаны случаи, когда из-за жесткого графика доставки страдают люди. По сути это обратная сторона монеты эффективной бизнес модели основанной на данных.