На YouTube канале Confluent появился плейлист с видео от легендарного Tim Berglund про введение в Apache Kafka: https://www.youtube.com/watch?v=qu96DFXtbG4&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH
YouTube
Apache Kafka 101: Introduction (2023)
► TRY THIS YOURSELF: https://cnfl.io/kafka-101-module-1
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…
Ура! На AWS появилась возможность запускать пайплайны на Airflow.
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/
Amazon
Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and…
Вчерашний вебинар от нашего подписчика @ds_im https://www.youtube.com/watch?v=mqE6Q3WmoCU
Было интересно и познавательно :)
Спасибо, Денис! 🤝
Было интересно и познавательно :)
Спасибо, Денис! 🤝
YouTube
КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…
Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling
Shopify
How to Build a Production Grade Workflow with SQL Modelling - Shopify
I’ll show you how we moved to a SQL modelling workflow by leveraging dbt (data build tool) and created tooling for testing and documentation on top of it.
Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8
YouTube
ksqlDB: A Stream-Relational Database System (Matthias J. Sax, Confluent)
CMU Database Group - Quarantine Tech Talks (2020)
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System
November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28
Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…
В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Amazon
Amazon S3 | Strong Consistency | Amazon Web Services
Amazon S3 delivers strong read-after-write consistency automatically for all applications for any storage request, without changes to performance or availability, without sacrificing regional isolation for applications, and at no additional cost.
Forwarded from Vasily Pantyukhin
Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)
Forwarded from Vasily Pantyukhin
Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started
Meeting ID: 5886 31 0272
https://chime.aws/5886310272
Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started
Meeting ID: 5886 31 0272
https://chime.aws/5886310272
Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/
Forwarded from Smart Data
Всем привет!
Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)
Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.
Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.
Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)
И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)
P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)
Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.
Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.
Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)
И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)
P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
www.promodo.ua
Digital агентство Promodo: Онлайн-маркетинг повного циклу
Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo
Forwarded from How to DWH with Python
Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!
Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.
Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.
В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉
Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de
Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.
Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.
В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉
Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de
Medium
Advanced Design Patterns for Amazon DynamoDB
Part two
Forwarded from Mikhail Kumachev
Друзья!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/
Datafold
Data Quality Meetup #2 Digest
Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.
Минутка саморекламы 😎
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨🔧
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨🔧
Серия вебинаро про TimescaleDB: https://www.youtube.com/playlist?list=PLsceB9ac9MHT3D_2voE2DUUlHgG3yEUEw
YouTube
Timescale Webinars - YouTube
Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/
А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
Amazon
Using AWS Lambda for streaming analytics | Amazon Web Services
With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…