I came across of an interesting data quality measurement library from AWS for large datasets.
Բավականին հետաքրքիր գրադարան եմ գտել #AWSից մեծ ծավալի տվյալների որակի չափման համար։
https://github.com/awslabs/deequ
Բավականին հետաքրքիր գրադարան եմ գտել #AWSից մեծ ծավալի տվյալների որակի չափման համար։
https://github.com/awslabs/deequ
GitHub
GitHub - awslabs/deequ: Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data…
Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets. - awslabs/deequ
Here is a vocabulary for data engineers, it is a good one but not complete of course :)
Ահա #DataEngineer ների համար բառարան, լավն է,բայց իհարկե ոչ ամբողջական։
https://towardsdatascience.com/complete-data-engineers-vocabulary-87967e374fad
Ահա #DataEngineer ների համար բառարան, լավն է,բայց իհարկե ոչ ամբողջական։
https://towardsdatascience.com/complete-data-engineers-vocabulary-87967e374fad
Medium
Complete Data Engineer’s Vocabulary
Concepts that data engineers must know in 10 words or less
If you are using Redshift as your data warehouse than you probably often deal with these issues.
Եթե Դուք օգտագործում եք Redshift- ը որպես ձեր #datawarehouse, ապա հավանաբար հաճախ եք բախվում այս խնդիրներին։
https://aws.amazon.com/blogs/big-data/monitor-and-optimize-queries-on-the-new-amazon-redshift-console/
Եթե Դուք օգտագործում եք Redshift- ը որպես ձեր #datawarehouse, ապա հավանաբար հաճախ եք բախվում այս խնդիրներին։
https://aws.amazon.com/blogs/big-data/monitor-and-optimize-queries-on-the-new-amazon-redshift-console/
Amazon
Monitor and optimize queries on the new Amazon Redshift console | Amazon Web Services
Tens of thousands of customers use Amazon Redshift to power their workloads to enable modern analytics use cases, such as Business Intelligence, predictive analytics, and real-time streaming analytics. As an administrator or data engineer, it’s important…
Here another relevant and interesting post from author of spark-daria library. I always learn something from his posts.
Ահա ևս մի արդիական և հետաքրքիր գրառում spark-daria գրադարանի հեղինակի կողմից։ Ես միշտ մի նոր բան եմ սովորում նրա գրառումներից։
https://mungingdata.com/pyspark/poetry-dependency-management-wheel/
Ահա ևս մի արդիական և հետաքրքիր գրառում spark-daria գրադարանի հեղինակի կողմից։ Ես միշտ մի նոր բան եմ սովորում նրա գրառումներից։
https://mungingdata.com/pyspark/poetry-dependency-management-wheel/
MungingData
PySpark Dependency Management and Wheel Packaging with Poetry - MungingData
This blog post explains how to create a PySpark project with Poetry, the best Python dependency management system. It’ll also explain how to package PySpark projects as wheel files, so […]
@dataeng shared yet another interesting resource, this time about data engineering blog. I find particularly useful the recent post from that blog about getting data engineering job. The author also has YouTube channel.
@dataeng ալիքը հերթական անգամ շատ օգտակար ռեսուրս է գտել, այս անգամ #DataEngineering մասին բլոգ է, որից մասնավորապես հետաքրքիր է վերջին գրառումը. Հեղինակը ունի նաև YouTube ալիք.
@dataeng ալիքը հերթական անգամ շատ օգտակար ռեսուրս է գտել, այս անգամ #DataEngineering մասին բլոգ է, որից մասնավորապես հետաքրքիր է վերջին գրառումը. Հեղինակը ունի նաև YouTube ալիք.
Startdataengineering
A proven approach to land a Data Engineering job
Proven approach to get usable experience and land a data engineering job
If you have to write JavaScript but you don't know JS and you are familiar with #Scala then this is for you 😉
---
Եթե դուք պետք է JavaScript ով գրեք բայց չգիտեք այն և ծանոթ եք #Scala հետ ապա սա ձեզ համար է 😉
https://www.scala-js.org/
---
Եթե դուք պետք է JavaScript ով գրեք բայց չգիտեք այն և ծանոթ եք #Scala հետ ապա սա ձեզ համար է 😉
https://www.scala-js.org/
Scala.js
Harness the Scala and JavaScript ecosystems to develop robust apps for browsers, serverless, and Node.js.
Well this is really cool new feature for Redshift users.
---
Այ սա իսկապես հիանալի նոր հատկություն է #Redshift ից օգտվողների համար:
https://aws.amazon.com/about-aws/whats-new/2020/06/amazon-redshift-now-supports-writing-to-external-tables-in-amazon-s3/
---
Այ սա իսկապես հիանալի նոր հատկություն է #Redshift ից օգտվողների համար:
https://aws.amazon.com/about-aws/whats-new/2020/06/amazon-redshift-now-supports-writing-to-external-tables-in-amazon-s3/
Amazon
Amazon Redshift now supports writing to external tables in Amazon S3
This article about #Kafka and #Pulsar came across couple of times. Overall it is detailed comparison, even though there is a feeling that author is really inclined towards #Kafka
-------
#Kafka և #Pulsar մասին այս հոդվածը հանդիպել է մի քանի անգամ: Ընդհանուր առմամբ, դա մանրամասն համեմատություն է, չնայած կա այնպիսի տպավորություն, որ հեղինակը իսկապես հակված է դեպի #Kafka
https://www-kai--waehner-de.cdn.ampproject.org/c/s/www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/amp/
-------
#Kafka և #Pulsar մասին այս հոդվածը հանդիպել է մի քանի անգամ: Ընդհանուր առմամբ, դա մանրամասն համեմատություն է, չնայած կա այնպիսի տպավորություն, որ հեղինակը իսկապես հակված է դեպի #Kafka
https://www-kai--waehner-de.cdn.ampproject.org/c/s/www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/amp/
Kai Waehner
Pulsar vs Kafka - Comparison and Myths Explored - Kai Waehner
Apache Kafka versus Apache Pulsar - which one to choose? Pros and cons, popular myths, and non-technical criteria explained to solve your business problem.
I didn't post about #Rust for a while, but this is a great intro for those who don't know about it.
-----
Երկար ժամանակ է ինչ #Rust մասին չէի գրել, բայց սա շատ լավ ներածություն է նրանց համար ով չգիտի թե ինչ է #Rust.
https://stackoverflow.blog/2020/01/20/what-is-rust-and-why-is-it-so-popular/
-----
Երկար ժամանակ է ինչ #Rust մասին չէի գրել, բայց սա շատ լավ ներածություն է նրանց համար ով չգիտի թե ինչ է #Rust.
https://stackoverflow.blog/2020/01/20/what-is-rust-and-why-is-it-so-popular/
Stack Overflow Blog
What is Rust and why is it so popular?
Rust has been Stack Overflow's most loved language for four years in a row, indicating that many of those who have had the opportunity to use Rust have fallen in love with it. However, the roughly 97% of survey respondents who haven't used Rust may wonder…
Մի քիչ հանրամատչելի կոնտենտ #BigData մասին մեր հայրենակցի մասնակցությամբ #privacy
https://www.youtube.com/watch?v=frLydE1UCvA
https://www.youtube.com/watch?v=frLydE1UCvA
YouTube
Лучшие в своём деле: Артур Хачуян | Большие данные — Big Data | ЛСД #7
Разговоры про большие данные, защиту персональных данных и тревожное будущее с создателем главного российского BigData-алгоритма Артуром Хачуяном.
Система искусственного интеллекта, которая может анализировать открытые источники, вычленять из них знания…
Система искусственного интеллекта, которая может анализировать открытые источники, вычленять из них знания…
Today is AWS online web summit. You can still register.
----
Այսօր AWS online web summit է, դեռ կարող եք հասցնել գրանցվել։ Սկիզբը ժամը 12ին
https://aws.amazon.com/events/summits/online/emea/?trk=ep_card
----
Այսօր AWS online web summit է, դեռ կարող եք հասցնել գրանցվել։ Սկիզբը ժամը 12ին
https://aws.amazon.com/events/summits/online/emea/?trk=ep_card
Amazon
AWS Summit 2021 | AWS Summit EMEA
Amazon Web Services (AWS) Summit Online 2021 is a chance to learn more about cloud computing, machine learning and network with fellow technologists from Europe, Africa and Middle East.
Interesting review of modern tools and approaches to level up your #BI
Ձեր #BI մակարդակը բարձրացնելու ժամանակակից գործիքների և մոտեցումների հետաքրքիր դիտարկում
https://news.1rj.ru/str/dataeng/157
Ձեր #BI մակարդակը բարձրացնելու ժամանակակից գործիքների և մոտեցումների հետաքրքիր դիտարկում
https://news.1rj.ru/str/dataeng/157
Telegram
DataEng
https://www.linkedin.com/pulse/business-intelligence-meets-data-engineering-emerging-simon-sp%C3%A4ti/
Spark 3.0 is here !
#Spark 3.0 տարբերակը արդեն հասանելի է։
https://spark.apache.org/releases/spark-release-3-0-0.html
#Spark 3.0 տարբերակը արդեն հասանելի է։
https://spark.apache.org/releases/spark-release-3-0-0.html
I don't know if you know, but I am a big #remotework fan :) and even now I am working remotely. Here is a great list for remote work.
---
Չգիտեմ գիտե՞ք, բայց ես հեռակա աշխատանքի կողմնակից եմ :) և նույնիսկ հիմա ես աշխատում եմ հեռակա: Ահա ընդարձակ ցուցակ հեռակա աշխատանքի կազմակերպման գործիքների մասին։
https://medium.com/@ezelby/remote-work-market-map-58591966b0c2
---
Չգիտեմ գիտե՞ք, բայց ես հեռակա աշխատանքի կողմնակից եմ :) և նույնիսկ հիմա ես աշխատում եմ հեռակա: Ահա ընդարձակ ցուցակ հեռակա աշխատանքի կազմակերպման գործիքների մասին։
https://medium.com/@ezelby/remote-work-market-map-58591966b0c2
Recently I posted about Spark 3.0 updates. Here is a detailed article from creator for Spark about most important updates.
Վերջերս գրել էի #Spark 3.0 մասին։ Ահա նրա հեղինակի կողմից հոդվածը առավել կարևոր թարմացումների մասին։
https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html
Վերջերս գրել էի #Spark 3.0 մասին։ Ահա նրա հեղինակի կողմից հոդվածը առավել կարևոր թարմացումների մասին։
https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html
Databricks
Introducing Spark 3.0 - Now Available in Databricks Runtime 7.0
Learn more about the latest release of Apache Spark, version 3.0.0, including new features like AQE and how to begin using it through Databricks Runtime 7.0.
Kinesis Firehose received new interesting feature which can help with real time ETL.
#KinesisFirehose նոր ֆունկցիոնալ ունի որը հարմար է իրական ժամանակում #ETL ի համար։
https://youtu.be/MELPeni0p04?t=1179
#KinesisFirehose նոր ֆունկցիոնալ ունի որը հարմար է իրական ժամանակում #ETL ի համար։
https://youtu.be/MELPeni0p04?t=1179
YouTube
High Performance Data Streaming with Amazon Kinesis: Best Practices and Common Pitfalls
Amazon Kinesis makes it easy to collect, process, and analyze real-time, streaming data so you can get timely insights and react quickly to new information. With Amazon Kinesis, you can ingest real-time data such as video, audio, application logs, website…
Koalas 1.0 is here!
If you use Pandas and Spark it worth checking out.
-—
#Koalas 1.0 է դուրս եկել։ Եթե օգտվում եք #Pandas և #Spark արժե ծանոթանալ։
https://databricks.com/blog/2020/06/24/introducing-koalas-1-0.html
If you use Pandas and Spark it worth checking out.
-—
#Koalas 1.0 է դուրս եկել։ Եթե օգտվում եք #Pandas և #Spark արժե ծանոթանալ։
https://databricks.com/blog/2020/06/24/introducing-koalas-1-0.html
Databricks
Koalas 1.0 Introduction, Overview and Quick How-to Guide
Learn more about the latest release of Koalas, version 1.0.0, including new features, and how you begin using it.
Long read about deploying machine learning models to production.
#ML
https://link.oreilly.com/I0C0YFp0W7LLQr0Q0y0MS00
#ML
https://link.oreilly.com/I0C0YFp0W7LLQr0Q0y0MS00
Long awaited feature from Amazon EMR, similar to Google Dataproc.
---
Երկար սպասված թարմացում #AWS #EMR կողմից, որը առկա էր Google #Dataproc ում
https://aws.amazon.com/blogs/big-data/introducing-amazon-emr-managed-scaling-automatically-resize-clusters-to-lower-cost/
---
Երկար սպասված թարմացում #AWS #EMR կողմից, որը առկա էր Google #Dataproc ում
https://aws.amazon.com/blogs/big-data/introducing-amazon-emr-managed-scaling-automatically-resize-clusters-to-lower-cost/
Amazon
Introducing Amazon EMR Managed Scaling – Automatically Resize Clusters to Lower Cost | Amazon Web Services
AWS is happy to announce the release of Amazon EMR Managed Scaling—a new feature that automatically resizes your cluster for best performance at the lowest possible cost. With EMR Managed Scaling you specify the minimum and maximum compute limits for your…