Еще один вебинар по теме модернизации хранилища данных https://tdwi.org/webcasts/2019/04/arch-all-cloud-data-warehouse-modernization.aspx?tc=page0
Transforming Data with Intelligence
Cloud Data Warehouse Modernization | Transforming Data with Intelligence
Is it time to reassess your current business processes and future demands to liberate your legacy data warehouse? Learn key modernization steps as you explore data discovery, data catalogs, self-service data access, and other key cloud DW features that let…
Амазон проводит много конференция, но самая инновационная это re:MARS.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
US About Amazon
re:MARS
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.