Вебинар про Data Quality в Airflow: https://www.youtube.com/watch?v=6ib2gH4A0rI
YouTube
Iterative Data Quality in Airflow DAGs
Data quality is an often overlooked component of data pipelines. Learn why it is a valuable part of data systems and how to get started integrating data quality checks into existing pipelines with a variety of tools.
Учебник по машинному обучению от Школы Анализа Данных, Яндекс: https://ml-handbook.ru/
Хотел порекомендовать вам канал Олега (@oleg_agapov) — Папка "Избранное" https://news.1rj.ru/str/folder_favorites, сам также подписан на него.
Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.
Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.
👍1
Redshift диалект для SQLAlchemy: https://aws.amazon.com/ru/blogs/big-data/use-the-amazon-redshift-sqlalchemy-dialect-to-interact-with-amazon-redshift/
Amazon
Use the Amazon Redshift SQLAlchemy dialect to interact with Amazon Redshift | Amazon Web Services
Amazon Redshift is a fast, scalable, secure, and fully managed cloud data warehouse that enables you to analyze your data at scale. You can interact with an Amazon Redshift database in several different ways. One method is using an object-relational mapping…
Всем привет! 🫂
Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе:
— Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB
— Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе:
— Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB
— Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Startdatajourney
Введение в Data Engineering: дата-пайплайны
Построение масштабируемых дата-пайплайнов на Python и Luigi
Также решил сделать скидку в 35% на курс Apache Airflow 2.0: практический курс.
Промокод BLACKFRIDAY, действует до 28.11
Промокод BLACKFRIDAY, действует до 28.11
Приглашаем Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks и стать частью команды EPAM. Регистрация уже открыта: epa.ms/devops-hw-tg-17
⠀
Что дает участие в Hiring Weeks?
⠀
✅Оффер в течение 48 часов
✅Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней
✅Можно выбрать удобную дату выхода в EPAM
⠀
В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек.
Узнать более подробную информацию о проектах и вакансиях вы можете на сайте!
⠀
Что еще мы предлагаем?
📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент
📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы
📌Профессиональные комьюнити
📌Возможность релокации в 35+ стран
⠀
Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17
⠀
Что дает участие в Hiring Weeks?
⠀
✅Оффер в течение 48 часов
✅Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней
✅Можно выбрать удобную дату выхода в EPAM
⠀
В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек.
Узнать более подробную информацию о проектах и вакансиях вы можете на сайте!
⠀
Что еще мы предлагаем?
📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент
📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы
📌Профессиональные комьюнити
📌Возможность релокации в 35+ стран
⠀
Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17
👍1
🔥 Kubernetes отлично подойдет на роль центрального звена платформы для работы с данными. Не слышали о таком подходе?
На VK Kubernetes Conference мы покажем, что K8s - это технология, которая не только способна помирить Dev, Sec и Ops, но и может быть интересна Data Scientist и инженерам данных.
⏰ Когда: 9 декабря, 10:00 MSK
📍 Регистрация: https://cutt.ly/ST99xgZ
Из докладов вы узнаете:
🔹 Какие инструменты дата инженера можно запустить в K8s и какие тонкости стоит при этом учитывать.
🔹Сравнение классических и облачных архитектур при работе с данными.
🔹 Инструменты для построения DWH и Data Lake в облаках.
В программе — доклады, воркшопы и, конечно же, нетворкинг, во время которого у самых активных зрителей будет возможность поделиться собственным крутым опытом!
👉 Зарегистрироваться: https://cutt.ly/ST99xgZ
На VK Kubernetes Conference мы покажем, что K8s - это технология, которая не только способна помирить Dev, Sec и Ops, но и может быть интересна Data Scientist и инженерам данных.
⏰ Когда: 9 декабря, 10:00 MSK
📍 Регистрация: https://cutt.ly/ST99xgZ
Из докладов вы узнаете:
🔹 Какие инструменты дата инженера можно запустить в K8s и какие тонкости стоит при этом учитывать.
🔹Сравнение классических и облачных архитектур при работе с данными.
🔹 Инструменты для построения DWH и Data Lake в облаках.
В программе — доклады, воркшопы и, конечно же, нетворкинг, во время которого у самых активных зрителей будет возможность поделиться собственным крутым опытом!
👉 Зарегистрироваться: https://cutt.ly/ST99xgZ
Митап для сообщества MongoDB в России
9 декабря в 18:00 очно и онлайн
На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer.
📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код.
📡 Будет онлайн-трансляция, и для участия нужна регистрация.
🚀Программа и регистрация »
9 декабря в 18:00 очно и онлайн
На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer.
📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код.
📡 Будет онлайн-трансляция, и для участия нужна регистрация.
🚀Программа и регистрация »
Курс про построение дата-пайплайнов на основе Apache Kafka от Confluent: https://developer.confluent.io/learn-kafka/data-pipelines/intro/
Confluent
How to Build Streaming Data Pipelines with Apache Kafka
Build a scalable, streaming data pipeline in under 20 minutes using Kafka and Confluent. Learn how to leverage real-time data streams and CDC with tutorials and free online courses.
Прикольная визуализация работы pandas: https://pandastutor.com/index.html
Удобно при изучении этой крутой библиотеки.
Удобно при изучении этой крутой библиотеки.
Нашел интересную балалайку для потоковой репликации базы SQLite в другой файл или сразу на S3: https://github.com/benbjohnson/litestream
Документация: https://litestream.io/getting-started/
Проект написан на Go, запускается как отдельный демон без регистрации и смс.
Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍
Документация: https://litestream.io/getting-started/
Проект написан на Go, запускается как отдельный демон без регистрации и смс.
Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍
GitHub
GitHub - benbjohnson/litestream: Streaming replication for SQLite.
Streaming replication for SQLite. Contribute to benbjohnson/litestream development by creating an account on GitHub.
Раз уж заговорили про SQLite, то вот вам ещё одна батарейка — rqlite.
rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log.
Подробнее про дизайн системы можно почитать в блоге автора:
— RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API
— REPLICATING SQLITE USING RAFT CONSENSUS
Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM
rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log.
Подробнее про дизайн системы можно почитать в блоге автора:
— RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API
— REPLICATING SQLITE USING RAFT CONSENSUS
Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM
GitHub
GitHub - rqlite/rqlite: The lightweight, fault-tolerant database built on SQLite. Designed to keep your data highly available with…
The lightweight, fault-tolerant database built on SQLite. Designed to keep your data highly available with minimal effort. - rqlite/rqlite
Wes McKinney в рамках Database talks от CMU рассказывает про Apache Arrow: https://youtu.be/YhF8YR0OEFk
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
YouTube
Apache Arrow: High-Performance Columnar Data Framework (Wes McKinney)
CMU Database Group - Vaccination Database Tech Talks - Second Dose (2021)
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Вебинар от Astronomer про data lineage в Apache Airflow: https://www.youtube.com/watch?v=2s013GQy1Sw
YouTube
Data Lineage with OpenLineage and Airflow
If one out of your hundreds of DAGs fails, how do you know which downstream datasets have become out-of-date? The answer is data lineage. Data lineage is the complex set of relationships between your jobs and datasets. In this webinar, you'll learn how to…
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
YouTube
Naama Ben-David — Algorithms for practical distributed agreement
Hydra 2022 — June 2-3
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
💥 DWHard митап
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Интересная статья про то как в Великобритании строили COVID-дэшборд на PostgreSQL, Citus и Microsoft Azure. В статье речь идёт про этот дэшборд.
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
TECHCOMMUNITY.MICROSOFT.COM
UK COVID-19 dashboard built using Postgres and Citus for millions of users | Microsoft Community Hub
Why and how the UK Coronavirus Dashboard team built their analytics service on top of PostgreSQL & Citus on Azure.
👍1
#вакансия
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com