Амазон проводит много конференция, но самая инновационная это re:MARS.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
Это про будущее, космос, ракеты и тп, только недавно узнал побробности про нее.
M = Machine Learning
A = Automation
R = Robotics
S = Space
На этой недели я в Сиэтле, сегодня выступаю на конференции SubTech2019, ничего космического, топик - создание Data Lake, как, зачем и почему. Вместе со мной будут выступать ребята из Twitch, они будут про свой подход рассказывать, у них там все серьезно, несколько тысяч таблиц в озере. Я расшарю свою презенташку потом. Еще из интересного, я попробовал сегодня комментировать stories in Instagram, про Сиэтл и Амазон, если интересно заходите))
В субботу полечу в Edmonton, выступать на конференцию Microsoft, буду рассказывать про Cloud Analytics на Azure, хороший challenge, если учесть, что я не работал с Azure. Это же классика - fake it till you make it, интересно, что получится.
После всех своих многочисленных выступлений, я понял, что все оценивают презентацию только по одному критерию, скучно или нет. Как мне сказал директор Tableau по Канаде, "не надо быть скучным и говорить про ценность данных и аналитики, люди хотят театр", и действительно, хотите получить внимание аудитории, подарите им театр. А то вчера я почти заснул на конференции тут, театра не было.
US About Amazon
re:MARS
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
Сегодня посещу Edmonton, а вот и презентация по Microsoft Azure Data Analytics https://www.slideshare.net/dimoobraznii/building-modern-data-platform-with-microsoft-azure
SlideShare
Building Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft Azure - Download as a PDF or view online for free
Вот это крутая штука - бесплатная БД mysql - https://remotemysql.com/ всамый раз поучиться или собрать аналитику для своего проекта