Серия видео про новшества в Airflow 2.0: https://bit.ly/395ib2C
YouTube
Airflow 2.0 - YouTube
А вот и Uber поделился своим инструментом Data Catalog — Databook: https://eng.uber.com/metadata-insights-databook/
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.
Forwarded from DevBrain
Всем привет! 👋
Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺
Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍
Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺
Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍
Khashtamov
Введение в logging на Python
В стандартной библиотеке Python есть замечательный пакет для логирования — logging. В сети бытует мнение, что он сложный и настраивать его сплошная боль. В этой статье я попробую убедить вас в о…
Интересное начинание, автор Олег Агапов решил написать учебник по data engineering: https://github.com/oleg-agapov/data-engineering-book
GitHub
GitHub - oleg-agapov/data-engineering-book: Accumulated knowledge and experience in the field of Data Engineering
Accumulated knowledge and experience in the field of Data Engineering - oleg-agapov/data-engineering-book
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Роман подготовил следующий вебинар для вас:
Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU
Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU
YouTube
КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
На YouTube канале Confluent появился плейлист с видео от легендарного Tim Berglund про введение в Apache Kafka: https://www.youtube.com/watch?v=qu96DFXtbG4&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH
YouTube
Apache Kafka 101: Introduction (2023)
► TRY THIS YOURSELF: https://cnfl.io/kafka-101-module-1
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Ура! На AWS появилась возможность запускать пайплайны на Airflow.
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Amazon
Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and…
Вчерашний вебинар от нашего подписчика @ds_im https://www.youtube.com/watch?v=mqE6Q3WmoCU
Было интересно и познавательно :)
Спасибо, Денис! 🤝
Было интересно и познавательно :)
Спасибо, Денис! 🤝
YouTube
КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling
Shopify
How to Build a Production Grade Workflow with SQL Modelling - Shopify
I’ll show you how we moved to a SQL modelling workflow by leveraging dbt (data build tool) and created tooling for testing and documentation on top of it.
Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8
YouTube
ksqlDB: A Stream-Relational Database System (Matthias J. Sax, Confluent)
CMU Database Group - Quarantine Tech Talks (2020)
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Amazon
Amazon S3 | Strong Consistency | Amazon Web Services
Amazon S3 delivers strong read-after-write consistency automatically for all applications for any storage request, without changes to performance or availability, without sacrificing regional isolation for applications, and at no additional cost.
Forwarded from Vasily Pantyukhin
Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)
Forwarded from Vasily Pantyukhin
Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started
Meeting ID: 5886 31 0272
https://chime.aws/5886310272
Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started
Meeting ID: 5886 31 0272
https://chime.aws/5886310272
Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/
Forwarded from Smart Data
Всем привет!
Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)
Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.
Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.
Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)
И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)
P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)
Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.
Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.
Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)
И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)
P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
www.promodo.ua
Digital агентство Promodo: Онлайн-маркетинг повного циклу
Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo
Forwarded from How to DWH with Python
Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!
Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.
Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.
В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉
Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de
Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.
Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.
В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉
Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de
Medium
Advanced Design Patterns for Amazon DynamoDB
Part two
Forwarded from Mikhail Kumachev
Друзья!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/
Datafold
Data Quality Meetup #2 Digest
Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.