NEW BOT Телеграм, страница

DataEng

Серия видео про новшества в Airflow 2.0: https://bit.ly/395ib2C

YouTube

Airflow 2.0 - YouTube

888 views12:40

DataEng

https://eugeneyan.com/writing/data-discovery-platforms/

eugeneyan.com

Data Discovery Platforms and Their Open Source Solutions

What questions do they answer? How do they compare? What open-source solutions are available?

766 views17:58

DataEng

А вот и Uber поделился своим инструментом Data Catalog — Databook: https://eng.uber.com/metadata-insights-databook/
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.

797 views04:42

DataEng

Forwarded from DevBrain

Всем привет! 👋

Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺

Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍

Khashtamov

Введение в logging на Python

В стандартной библиотеке Python есть замечательный пакет для логирования — logging. В сети бытует мнение, что он сложный и настраивать его сплошная боль. В этой статье я попробую убедить вас в о…

673 views12:16

DataEng

Интересное начинание, автор Олег Агапов решил написать учебник по data engineering: https://github.com/oleg-agapov/data-engineering-book

GitHub

GitHub - oleg-agapov/data-engineering-book: Accumulated knowledge and experience in the field of Data Engineering

Accumulated knowledge and experience in the field of Data Engineering - oleg-agapov/data-engineering-book

898 views17:58

DataEng

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Роман подготовил следующий вебинар для вас:

Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU

YouTube

КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ

План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub…

620 views03:47

DataEng

На YouTube канале Confluent появился плейлист с видео от легендарного Tim Berglund про введение в Apache Kafka: https://www.youtube.com/watch?v=qu96DFXtbG4&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH

YouTube

Apache Kafka 101: Introduction (2023)

► TRY THIS YOURSELF: https://cnfl.io/kafka-101-module-1

Apache Kafka is used by over 80% of Fortune 100 companies to power real-time applications. Watch this video to understand what Kafka is, what an event is, and a basic introduction to key Kafka concepts.…

3.54K views08:48

DataEng

Ура! На AWS появилась возможность запускать пайплайны на Airflow.

Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/

Amazon

Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services

As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and…

3.22K views03:57

DataEng

Вчерашний вебинар от нашего подписчика @ds_im https://www.youtube.com/watch?v=mqE6Q3WmoCU
Было интересно и познавательно :)
Спасибо, Денис! 🤝

YouTube

КАК ПОСТРОИТЬ СИСТЕМУ МАРКЕТИНГОВОЙ АНАЛИТИКИ НА GOOGLE CLOUD / ДЕНИС СОЛОВЬЕВ

844 views11:00

DataEng

Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling

Shopify

How to Build a Production Grade Workflow with SQL Modelling - Shopify

I’ll show you how we moved to a SQL modelling workflow by leveraging dbt (data build tool) and created tooling for testing and documentation on top of it.

964 views06:04

DataEng

Дайджест по DataEng: https://dataengineeringweekly.substack.com/

Dataengineeringweekly

Data Engineering Weekly

Data Engineering Weekly Newsletter. Click to read Data Engineering Weekly, by Ananth Packkildurai, a Substack publication with tens of thousands of readers.

827 views02:52

DataEng

Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8

YouTube

ksqlDB: A Stream-Relational Database System (Matthias J. Sax, Confluent)

CMU Database Group - Quarantine Tech Talks (2020)
Speaker: Matthias J. Sax (Confluent)
ksqlDB: A Stream-Relational Database System

November 23, 2020
https://db.cs.cmu.edu/seminar2020/#db28

Sponsored by the Steven Moy Foundation for Keeping it Real™
htt…

902 views11:50

DataEng

В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.

Amazon

Amazon S3 | Strong Consistency | Amazon Web Services

Amazon S3 delivers strong read-after-write consistency automatically for all applications for any storage request, without changes to performance or availability, without sacrificing regional isolation for applications, and at no additional cost.

788 views08:38

DataEng

Forwarded from Vasily Pantyukhin

Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)

758 views10:19

DataEng

Forwarded from Vasily Pantyukhin

Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started

Meeting ID: 5886 31 0272
https://chime.aws/5886310272

Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/

856 views10:19

DataEng

Forwarded from Smart Data

Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.

www.promodo.ua

Digital агентство Promodo: Онлайн-маркетинг повного циклу

Надійний партнер з діджитал-маркетингу. Нам довіряють свій розвиток в онлайн сотні українських та світових компаній, серед яких Rozetka, monobank, Glovo

868 views17:17

DataEng

https://blog.getdbt.com/future-of-the-modern-data-stack/

dbt Labs

The Modern Data Stack: Past, Present, and Future | dbt Labs

My thoughts on where our space has been and where it might be going.

2.05K views12:11

DataEng

Forwarded from How to DWH with Python

Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!

Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.

Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.

В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉

Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de

Medium

Advanced Design Patterns for Amazon DynamoDB

Part two

1.11K views05:23

DataEng

https://coiled.io/blog/what-is-dask/

www.coiled.io

What is Dask?

Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that's just the beginning.

901 views04:50

DataEng

Forwarded from Mikhail Kumachev

Друзья!

В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.

Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн

В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.

2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.

Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/

Всех с Наступающим Новым Годом! Ждем вас на митапе!

1.07K views03:19

DataEng

В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/

Datafold

Data Quality Meetup #2 Digest

Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.

1.12K views05:54

About

Blog

Apps

Platform