Եթե օգտագործում եք #Cloudera և ուզում եք ձեր մեքենայական ուսուցումը զուգահեռացնել ապա այս հոդվածը նայեք
https://blog.cloudera.com/distributed-model-training-using-dask-and-scikit-learn/
https://blog.cloudera.com/distributed-model-training-using-dask-and-scikit-learn/
Cloudera Blog
Distributed model training using Dask and Scikit-learn - Cloudera Blog
The theoretical bases for Machine Learning have existed for decades yet it wasn’t until the early 2000’s that the last AI winter came to an end. Since then, interest in and use of machine learning has exploded and its development has been largely democratized…
պարզվում է Facebook #HBase ից անցել է սրան Messenger ի համար
https://engineering.fb.com/core-data/myrocks-a-space-and-write-optimized-mysql-database/
https://engineering.fb.com/core-data/myrocks-a-space-and-write-optimized-mysql-database/
Engineering at Meta
MyRocks: A space- and write-optimized MySQL database
Visit the post for more.
Լավ նախագիծ #Airflof #Spark #EMR և #Redshift միջոցով #DataPipeline կառուցելու համար գրքերի հայտնի կայքի տվյալների օրինակով
https://github.com/san089/goodreads_etl_pipeline
https://github.com/san089/goodreads_etl_pipeline
GitHub
GitHub - san089/goodreads_etl_pipeline: An end-to-end GoodReads Data Pipeline for Building Data Lake, Data Warehouse and Analytics…
An end-to-end GoodReads Data Pipeline for Building Data Lake, Data Warehouse and Analytics Platform. - san089/goodreads_etl_pipeline
#Spark կարգավորելու համար երկու գործիքի կիրառման մասին
https://aws.amazon.com/blogs/big-data/tune-hadoop-and-spark-performance-with-dr-elephant-and-sparklens-on-amazon-emr/
https://aws.amazon.com/blogs/big-data/tune-hadoop-and-spark-performance-with-dr-elephant-and-sparklens-on-amazon-emr/
Amazon
Tune Hadoop and Spark performance with Dr. Elephant and Sparklens on Amazon EMR | Amazon Web Services
This post demonstrates how to install Dr. Elephant and Sparklens on an Amazon EMR cluster and run workloads to demonstrate these tools’ capabilities. Amazon EMR is a managed Hadoop service offered by AWS to easily and cost-effectively run Hadoop and other…
Պարզ հոդված շատ հաճախ սխալ ընկալվող #BI և #DataAnalytics մասին
https://towardsdatascience.com/how-to-build-an-analytics-team-for-impact-in-an-organization-21bb05925587
https://towardsdatascience.com/how-to-build-an-analytics-team-for-impact-in-an-organization-21bb05925587
Medium
How to build an analytics team for impact in an organization
The analytics value lifecycle is a good way to think about how an analytics team should operate.
Եթե #Hive եք օգտագործում #EMR վրա ապա հաստատ արժե օգտագործել
https://aws.amazon.com/blogs/big-data/apache-hive-is-2x-faster-with-hive-llap-on-emr-6-0-0/
https://aws.amazon.com/blogs/big-data/apache-hive-is-2x-faster-with-hive-llap-on-emr-6-0-0/
Amazon
Apache Hive is 2x faster with Hive LLAP on EMR 6.0.0 | Amazon Web Services
Customers use Apache Hive with Amazon EMR to provide SQL-based access to petabytes of data stored on Amazon S3. Amazon EMR 6.0.0 adds support for Hive LLAP, providing an average performance speedup of 2x over EMR 5.29, with up to 10x improvement on individual…
Շատ թույն գործիք եմ գտել #SQL նախագծերի #deployment և #versioning համար։ Կարծում եմ հարմար կլինի սրանով CI/CD կազմակերպել նմանատիպ նախագծերի համար
https://sqitch.org/
https://sqitch.org/
Եթե #Terraform և #AWS ից օգտվում եք կարծում եմ օգտակար կլինի. շարունակելով #dataops թեման
https://medium.com/xebia-engineering/best-practices-to-create-organize-terraform-code-for-aws-2f4162525a1a
https://medium.com/xebia-engineering/best-practices-to-create-organize-terraform-code-for-aws-2f4162525a1a
Medium
Best practices to create & organize Terraform code for AWS
Terraform best practices and how to adopt them