Բավականին լավ հավաքածու է #Spark
https://dzone.com/articles/the-complete-apache-spark-collection-tutorials-and
https://dzone.com/articles/the-complete-apache-spark-collection-tutorials-and
DZone
The Complete Apache Spark Collection [Tutorials and Articles]
We've compiled our best tutorials and articles on one of the most popular analytics engines for data processing, Apache Spark.
Վերջապես #Redshift ից էլ կարելի է #Parquet ֆորմատով էկսպորտ անել։ Ու ոնց հասկացա գնալով ավելի է մոտենում ֆուկցիոնալով #Athena ին։
https://www.datanami.com/2019/12/04/aws-bolsters-redshift-elasticsearch-services/
https://www.datanami.com/2019/12/04/aws-bolsters-redshift-elasticsearch-services/
Datanami
AWS Bolsters Redshift, Elasticsearch Services
Amazon Web Services gave customers 28 more reasons to store and process data on its public cloud platform yesterday during its annual re:Invent conference
Մի զարմացեք նոր շատ եմ գրում #AWS ից, վերջերս #re:Invent էր, ու լիքը նոր բաներ են ներկայացրել: Ինչպես օրինակ #Cassandra #AWS ում
https://www.datanami.com/2019/12/03/aws-launches-cassandra-service/
https://www.datanami.com/2019/12/03/aws-launches-cassandra-service/
Datanami
AWS Launches Cassandra Service
AWS today unveiled a serverless Cassandra service that ostensibly will give customers the scalability benefits of the NoSQL database but without the
Այ սա արդեն շատ հետաքրքիր է։ #Cloudera չգիտեմ հիմա ինչ պտի անի։ #EMR
https://aws.amazon.com/about-aws/whats-new/2019/12/amazon-emr-is-now-available-in-your-data-center-with-aws-outposts/
https://aws.amazon.com/about-aws/whats-new/2019/12/amazon-emr-is-now-available-in-your-data-center-with-aws-outposts/
Լավ ամփոփում է թե ինչով են զբաղվում #DataEngineer ները
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/?itm_source=infoq&itm_campaign=user_page&itm_medium=link
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/?itm_source=infoq&itm_campaign=user_page&itm_medium=link
InfoQ
Future of Data Engineering
Chris Riccomini talks about the current state-of-the-art in data pipelines and data warehousing, and shares some of the solutions to current problems dealing with data streaming and warehousing.
Կարծում եմ շատ հետաքրքիր պրոյեկտ է, որի կարիքը զգացվելու գրեցե բոլոր կազմակերպություններում #DataDiscovery
https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
Medium
Amundsen — Lyft’s data discovery & metadata engine
In order to increase productivity of data scientists and research scientists at Lyft, we developed a data discovery application built on…
Բավականին խոստումնալից պրոյեկտ է երևում #DataScientist գործը հեշտացնելու համար
https://medium.com/netflix-techblog/open-sourcing-metaflow-a-human-centric-framework-for-data-science-fa72e04a5d9
https://medium.com/netflix-techblog/open-sourcing-metaflow-a-human-centric-framework-for-data-science-fa72e04a5d9
Medium
Open-Sourcing Metaflow, a Human-Centric Framework for Data Science
by David Berg, Ravi Kiran Chirravuri, Romain Cledat, Savin Goyal, Ferras Hamad, Ville Tuulos
Կարծում եմ ոչ միան #DataScientist պետք կգա։ Շատ հաճախ մեծ ովյալների հետ պետք է լինում աշխատել ոչ կլաստերի վրա, ու այդ դեպքում սենց գործիքները շատ օգտակար կարող են լինել #Vaex
https://towardsdatascience.com/a-billion-rows-a-second-36b7a2066175
https://towardsdatascience.com/a-billion-rows-a-second-36b7a2066175
Medium
A Billion Rows A Second
Working with BIG! data in Python.
Ինձ թվում է մի քանի տարում այդքան գործիքները կարևոր չեն լինի, այլ ավելի շատ ինչպես դրանք օգտագործելով լավ արդյունք ստանալ #DataEngineering ում։
https://cloud.google.com/blog/products/data-analytics/introducing-the-code-free-bridge-to-data-analytics-on-google-cloud/Խ
https://cloud.google.com/blog/products/data-analytics/introducing-the-code-free-bridge-to-data-analytics-on-google-cloud/Խ