DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from Data1984
Some important updates from #AWS :
Amazon Kinesis Data Streams enables data stream retention up to one year.
Now you can export your Amazon DynamoDB table data to your data lake in Amazon S3 to perform analytics at any scale.
Amazon Redshift now supports modifying column compression encodings to optimize storage utilization and query performance
Amazon Athena announces availability of engine version 2
Нашел интересный проект от Apache (пока на стадии инкубатора) — Apache Liminal: http://liminal.incubator.apache.org/
Платформа для оркестрации машинного обучения. Насколько понял, под капотом используется Apache Airflow.
Я чуть выше публиковал серию лекций про распределённые системы от Мартина Клепмана, а вот недавно появился пост у него в блоге: https://martin.kleppmann.com/2020/11/18/distributed-systems-and-elliptic-curves.html
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Netflix создал еще одно решение - Бульдозер, для экспорта данных из хранилища данных в NoSQL. https://netflixtechblog.com/bulldozer-batch-data-moving-from-data-warehouse-to-online-key-value-stores-41bac13863f8
Серия видео про новшества в Airflow 2.0: https://bit.ly/395ib2C
А вот и Uber поделился своим инструментом Data Catalog — Databook: https://eng.uber.com/metadata-insights-databook/
Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.
Forwarded from DevBrain
Всем привет! 👋

Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺

Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Роман подготовил следующий вебинар для вас:

Друзья, новая пушка для вас заряжена!
Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире!
Вы просили практики или реальных кейсов, да не вопрос:)
Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud"
План вебинара:
- Архитектура решения и её ключевые элементы;
- На что обратить внимание перед построением решения;
- Преимущества Google BigQuery при построении маркетинговой аналитики;
- Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt;
- Google Data Studio как средство визуализации данных;
- Пути масштабирования системы.
Спикер: Денис Соловьев.
Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике.
Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это.
Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂
Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face:
Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями
https://youtu.be/mqE6Q3WmoCU
Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling
В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/
Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.
Forwarded from Vasily Pantyukhin
Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)
Forwarded from Vasily Pantyukhin
Тема: S3 Dive deep
Когда: Понедельник 7 декабря 17:00-18:00 MSK
Где: https://chime.aws/5886310272
Как присоединиться:
Download Amazon Chime at https://aws.amazon.com/chime/download
For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started

Meeting ID: 5886 31 0272
https://chime.aws/5886310272

Call in using your phone:
Russia Toll-Free: +7 800 333-23-25
Meeting ID: 5886 31 0272
One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272#
Russia: +7 499 951-25-91
International: https://chime.aws/dialinnumbers/
Forwarded from Smart Data
Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.