Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
Сегодня посещу Edmonton, а вот и презентация по Microsoft Azure Data Analytics https://www.slideshare.net/dimoobraznii/building-modern-data-platform-with-microsoft-azure
SlideShare
Building Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft Azure - Download as a PDF or view online for free
Вот это крутая штука - бесплатная БД mysql - https://remotemysql.com/ всамый раз поучиться или собрать аналитику для своего проекта
Немного не в тему, но очень классная реклама Канады https://youtu.be/xYJ1LtTvofU
YouTube
- YouTube
Хороший товарищ Тимур Мишин написал хорошую статью https://vc.ru/hr/66075-ne-vse-prodakt-menedzhery-odinakovo-polezny
vc.ru
Не все продакты одинаково полезны — Карьера на vc.ru
Как не впасть в карго-культ и создавать успешные тиражируемые продукты.