А что у нас тут в пятницу произошло?
Релиз Apache Airflow 2.1. Ребята подвезли вагон интересных фич
Пакет уже доступен для установки через PyPI: apache airflow 2.1.0
Релиз Apache Airflow 2.1. Ребята подвезли вагон интересных фич
Пакет уже доступен для установки через PyPI: apache airflow 2.1.0
PyPI
apache-airflow
Programmatically author, schedule and monitor data pipelines
Ещё не читал, но решил всё таки поделиться с вами интересной статьёй: https://a16z.com/2021/05/27/cost-of-cloud-paradox-market-cap-cloud-lifecycle-scale-growth-repatriation-optimization/
Andreessen Horowitz
The Cost of Cloud, a Trillion Dollar Paradox
There is no doubt that the cloud is one of the most significant platform shifts in the history of computing. Not only has cloud already impacted hundreds of billions of dollars of IT spend, it’s still in early innings and …
Forwarded from There will be no singularity
Алибаба заопенсорсила PolarDB для посгреса. PolarDB это распределенная реляционная система управления БД, совместимая с pg, mysql и oracle. Аналог AWS Aurora.
https://github.com/alibaba/PolarDB-for-PostgreSQL
ру версия - https://www.opennet.ru/opennews/art.shtml?num=55233
по наводке @oleg_log
https://github.com/alibaba/PolarDB-for-PostgreSQL
ру версия - https://www.opennet.ru/opennews/art.shtml?num=55233
по наводке @oleg_log
GitHub
GitHub - ApsaraDB/PolarDB-for-PostgreSQL: A cloud-native database based on PostgreSQL developed by Alibaba Cloud.
A cloud-native database based on PostgreSQL developed by Alibaba Cloud. - ApsaraDB/PolarDB-for-PostgreSQL
Приглашаем на бесплатный закрытый мастер-класс "Быстрый старт в SQL" 3 июня в 19:00 от Онлайн Школы IQBI.
Мастер-класс будет полезен тем, кто создает отчетность или работает с анализом данных и статистикой, но все еще не изучил SQL.
🎓 SQL - это мощный инструмент для анализа и преобразования данных, который позволяет аналитикам, финансистам, биайщикам и даже маркетологам обращаться к различным базам данных.
У всех крупных компаний есть собственные базы данных, и чтобы создавать отчеты, дашборды и графики вам нужно правильно формулировать запросы к этим БД на языке SQL.
Сертифицированный тренер Microsoft Дмитрий Пилюгин ответит на популярные вопросы, которые возникают в начале изучения SQL:
🔹 Что такое SQL и РСУБД?
🔹 Почему знание SQL нужно аналитикам, финансистам и др.?
🔹 Какой карьерный путь открывается перед SQL-разработчиком?
🔹 Какие скрытые плюсы в том, чтобы знать SQL?
🔹 Для каких задач компании применяют SQL?
🔹 Как быстро и эффективно обучиться языку SQL
Регистрация: https://vk.cc/c2ppFx
Мастер-класс будет полезен тем, кто создает отчетность или работает с анализом данных и статистикой, но все еще не изучил SQL.
🎓 SQL - это мощный инструмент для анализа и преобразования данных, который позволяет аналитикам, финансистам, биайщикам и даже маркетологам обращаться к различным базам данных.
У всех крупных компаний есть собственные базы данных, и чтобы создавать отчеты, дашборды и графики вам нужно правильно формулировать запросы к этим БД на языке SQL.
Сертифицированный тренер Microsoft Дмитрий Пилюгин ответит на популярные вопросы, которые возникают в начале изучения SQL:
🔹 Что такое SQL и РСУБД?
🔹 Почему знание SQL нужно аналитикам, финансистам и др.?
🔹 Какой карьерный путь открывается перед SQL-разработчиком?
🔹 Какие скрытые плюсы в том, чтобы знать SQL?
🔹 Для каких задач компании применяют SQL?
🔹 Как быстро и эффективно обучиться языку SQL
Регистрация: https://vk.cc/c2ppFx
Забавное видео "Welcome to the world of Data Engineers at Netflix"
https://youtu.be/N8SJPb5JpOA
https://youtu.be/N8SJPb5JpOA
YouTube
Welcome to the world of Data Engineers at Netflix
Data-driven decision-making plays a critical role in supporting Product Innovation at Netflix. Data is at the heart of our Product Development Strategy - be it a product launch decision via rigorous experimentation or personalized recommendations with algorithms…
Онлайн конференция по разработке параллельных и распределенных систем — Hydra 2021
Несколько десятков докладов о распределенных базах данных, распределенной обработке потоков, блокчейне, отказоустойчивости распределенных систем, моделях памяти и многом другом, что относится к работе с подобными технологиями.
Среди докладов:
✔️ Маркус Куппе, «Workshop: TLA+»
Огромный воркшоп по работе с языком для дизайна распределенных систем под руководством основного разработчика среды TLA+ toolbox.
✔️ Энди Павло, «The Official Ten-Year Retrospective of NewSQL Databases»
Обзор десятилетней истории NewSQL от зарождения до современного состояния и попробует предсказать, как NewSQL изменится в будущем.
✔️ Нейтан ВанБеншотен, «Fearless Global Transactions with CockroachDB»
Доклад о том, как CockroachDB помогает работать приложениям с распределенной архитектурой.
Смотрите всю программу и покупайте билеты на https://bit.ly/2T9rVCP
👉 Если решили сходить, то используйте промокод на Personal-Standard билет: DataEng2021JRGpc
Несколько десятков докладов о распределенных базах данных, распределенной обработке потоков, блокчейне, отказоустойчивости распределенных систем, моделях памяти и многом другом, что относится к работе с подобными технологиями.
Среди докладов:
✔️ Маркус Куппе, «Workshop: TLA+»
Огромный воркшоп по работе с языком для дизайна распределенных систем под руководством основного разработчика среды TLA+ toolbox.
✔️ Энди Павло, «The Official Ten-Year Retrospective of NewSQL Databases»
Обзор десятилетней истории NewSQL от зарождения до современного состояния и попробует предсказать, как NewSQL изменится в будущем.
✔️ Нейтан ВанБеншотен, «Fearless Global Transactions with CockroachDB»
Доклад о том, как CockroachDB помогает работать приложениям с распределенной архитектурой.
Смотрите всю программу и покупайте билеты на https://bit.ly/2T9rVCP
👉 Если решили сходить, то используйте промокод на Personal-Standard билет: DataEng2021JRGpc
Forwarded from Kseniia Tomak
У нас готов новый выпуск того самого дайджеста, о котором мало кто слышал:
https://digest.deordie.org/04_A_spark_of_the_summer_sun/
_____
Напомню, что у нас есть issue tracker: https://github.com/deordie/deordie-digest/issues
https://digest.deordie.org/04_A_spark_of_the_summer_sun/
_____
Напомню, что у нас есть issue tracker: https://github.com/deordie/deordie-digest/issues
Интересные, на мой взгляд, доклады PyCON US 2021:
— Hacking Dask: Diving Into Dask Internals
— Dask-SQL: Empowering Pythonistas for Scalable End-to-End Data Engineering
— Event-driven applications: Apache Kafka and Python
— Python Performance at Scale - Making Python Faster at Instagram
— Data Processing on Ray
— Large Scale Data Validation with Spark and Dask
— Hacking Dask: Diving Into Dask Internals
— Dask-SQL: Empowering Pythonistas for Scalable End-to-End Data Engineering
— Event-driven applications: Apache Kafka and Python
— Python Performance at Scale - Making Python Faster at Instagram
— Data Processing on Ray
— Large Scale Data Validation with Spark and Dask
YouTube
TUTORIAL / James Bourbeau, Julia Signell / Hacking Dask: Diving Into Dask;s Internals
Dask is a popular Python library for scaling and parallelizing Python code on a single machine or across a cluster. It provides familiar, high-level interfaces to extend the PyData ecosystem (e.g. NumPy, Pandas, Scikit-Learn) to larger-than-memory or distributed…
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
Forwarded from Kseniia Tomak
DE or DIE #7
Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!
Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/
Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
Ребята, мы рады анонсировать митап #7 нашего сообщества DE or DIE!
Дата и время: 16 июня (среда) 18:00
Формат: Онлайн (трансляция на YouTube)
Регистрация по ссылке: https://deordie.timepad.ru/event/1669693/
Темы:
18:00-19:00. Handling late data. How to make the right choice? - Дарья Буланова
19:15-20:15. Ingestion and historization in the Data Lake? - Илья Тодор
20:15-20:45. After Show - организаторы DE or DIE и спикеры
(*): Несмотря на англоязычные названия доклады будут на русском языке.
Ждем вас в следующую среду. Ссылку на трансляцию опубликуем за час до мероприятия.
Про новую роль Analytics Engineer: https://youtu.be/C5UcxBwdCEg
YouTube
Analytics Engineer: New Role in a Data Team - Victoria Perez Mola
We talked about:
00:00 DataTalks.Club intro
02:45 Victoria’s background
04:05 A typical day as an Analytics Engineer
06:49 What is DBT?
10:04 Tools for Analytics Engineers
11:48 How Victoria became an Analytics Engineer
14:34 Difference between an analytics…
00:00 DataTalks.Club intro
02:45 Victoria’s background
04:05 A typical day as an Analytics Engineer
06:49 What is DBT?
10:04 Tools for Analytics Engineers
11:48 How Victoria became an Analytics Engineer
14:34 Difference between an analytics…
Нашел видео про Dagster от одного из его авторов: https://www.youtube.com/watch?v=MF5OaQEOF2E
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
Он у меня "на карандаше", хочу попробовать и написать небольшой туториал в блоге.
YouTube
An Introduction to Dagster: The orchestrator for the full data lifecycle - UDEM June 2021
Nick Schrock covers the principles and origin of Dagster. Dagster is a new type of workflow engine: a data orchestrator. Moving beyond just managing the ordering and physical execution of data computations, Dagster considers the entire data application lifecycle.…
Forwarded from How to DWH with Python
Подготовил конспект курса по Spark. Поможет освежить важное в памяти или сэкономить время на просмотре. Сам курс к изучению рекомендую.
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
#briefly #spark Spark Starter Kit
https://telegra.ph/Udemy-Spark-Starter-Kit-part-1-06-19
What's inside:
— Hadoop and Spark comparison: storage, MapReduce, speed, resources management.
— Challenges Spark tries to address.
— How Spark achieves high efficiency.
— How Spark achieves fault-tolerance.
— What is RDD.
Ссылка на курс: Spark Starter Kit
Telegraph
Udemy: Spark Starter Kit, part 1
Spark vs Hadoop: who wins? Link to lecture. Hadoop = HDFS + MapReduce. Spark is not a replacement for Hadoop. In particular, Spark does not come with its own storage: it leverages existing one like HDFS, S3, etc. Distributed filesystem are preferred to accelerate…
Forwarded from DE or DIE
Мы опубликовали материалы митапа DE or DIE #7: https://deordie.org/meetups/07/ (видео докладов + презентации в формате PDF).
DE or DIE
DE or DIE #7
DE or DIE – митап, сделанный дата инженерами для дата инженеров.