Forwarded from Data1984
A comparison of data version control tools.
https://dagshub.com/blog/data-version-control-tools/
https://dagshub.com/blog/data-version-control-tools/
DagsHub Blog
Comparing Data Version Control Tools - 2020
Data versioning is one of the keys to automating a team's machine learning model development. While it can be very complicated if your team attempts to develop its own system to manage the process, this doesn’t need to be the case.
Forwarded from Data1984
Some important updates from #AWS :
✅ Amazon Kinesis Data Streams enables data stream retention up to one year.
✅ Now you can export your Amazon DynamoDB table data to your data lake in Amazon S3 to perform analytics at any scale.
✅ Amazon Redshift now supports modifying column compression encodings to optimize storage utilization and query performance
✅ Amazon Athena announces availability of engine version 2
✅ Amazon Kinesis Data Streams enables data stream retention up to one year.
✅ Now you can export your Amazon DynamoDB table data to your data lake in Amazon S3 to perform analytics at any scale.
✅ Amazon Redshift now supports modifying column compression encodings to optimize storage utilization and query performance
✅ Amazon Athena announces availability of engine version 2
Amazon
Amazon Kinesis Data Streams enables data stream retention up to one year
Нашел интересный проект от Apache (пока на стадии инкубатора) — Apache Liminal: http://liminal.incubator.apache.org/
Платформа для оркестрации машинного обучения. Насколько понял, под капотом используется Apache Airflow.
Платформа для оркестрации машинного обучения. Насколько понял, под капотом используется Apache Airflow.
liminal.incubator.apache.org
Apache Limial official site
Я чуть выше публиковал серию лекций про распределённые системы от Мартина Клепмана, а вот недавно появился пост у него в блоге: https://martin.kleppmann.com/2020/11/18/distributed-systems-and-elliptic-curves.html
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Netflix создал еще одно решение - Бульдозер, для экспорта данных из хранилища данных в NoSQL. https://netflixtechblog.com/bulldozer-batch-data-moving-from-data-warehouse-to-online-key-value-stores-41bac13863f8
Medium
Bulldozer: Batch Data Moving from Data Warehouse to Online Key-Value Stores
By Tianlong Chen and Ioannis Papapanagiotou
Серия видео про новшества в Airflow 2.0: https://bit.ly/395ib2C
YouTube
Airflow 2.0 - YouTube
А вот и Uber поделился своим инструментом Data Catalog — Databook: https://eng.uber.com/metadata-insights-databook/
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.
Forwarded from DevBrain
Всем привет! 👋
Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺
Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍
Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺
Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍
Khashtamov
Введение в logging на Python
В стандартной библиотеке Python есть замечательный пакет для логирования — logging. В сети бытует мнение, что он сложный и настраивать его сплошная боль. В этой статье я попробую убедить вас в о…
Интересное начинание, автор Олег Агапов решил написать учебник по data engineering: https://github.com/oleg-agapov/data-engineering-book
GitHub
GitHub - oleg-agapov/data-engineering-book: Accumulated knowledge and experience in the field of Data Engineering
Accumulated knowledge and experience in the field of Data Engineering - oleg-agapov/data-engineering-book
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Роман подготовил следующий вебинар для вас:
Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU
Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU
YouTube
КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
На YouTube канале Confluent появился плейлист с видео от легендарного Tim Berglund про введение в Apache Kafka: https://www.youtube.com/watch?v=qu96DFXtbG4&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH
YouTube
Apache Kafka 101: Introduction (2023)
► TRY THIS YOURSELF: https://cnfl.io/kafka-101-module-1
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Ура! На AWS появилась возможность запускать пайплайны на Airflow.
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Amazon
Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and…
Вчерашний вебинар от нашего подписчика @ds_im https://www.youtube.com/watch?v=mqE6Q3WmoCU
Было интересно и познавательно :)
Спасибо, Денис! 🤝
Было интересно и познавательно :)
Спасибо, Денис! 🤝
YouTube
КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling
Shopify
How to Build a Production Grade Workflow with SQL Modelling - Shopify
I’ll show you how we moved to a SQL modelling workflow by leveraging dbt (data build tool) and created tooling for testing and documentation on top of it.
Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8
YouTube
ksqlDB: A Stream-Relational Database System (Matthias J. Sax, Confluent)
CMU Database Group - Quarantine Tech Talks (2020)
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Amazon
Amazon S3 | Strong Consistency | Amazon Web Services
Amazon S3 delivers strong read-after-write consistency automatically for all applications for any storage request, without changes to performance or availability, without sacrificing regional isolation for applications, and at no additional cost.