Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink
Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
YouTube
09 Barr Moses, Day 2 Keynote, DataEngBytes 2021
What is a Data Mesh - And How Not To Mesh it Up
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company
Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.
Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.
Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
Notion
Herding elephants: lessons learned from sharding Postgres at Notion
With an effort to make Notion faster and more reliable for years to come — we migrated Notion’s PostgreSQL monolith into a horizontally-partitioned database fleet.
Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.
Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.
✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
AIN.UA
Любить и понимать данные: кто такие дата инженеры и как им расти
Аналитика больших данных стала «новым черным» в бизнесе, а «дата пайплайн» в компаниях звучит чаще, чем «мы сломали прод». Так в чем же особенность и почему об этом все говорят?
LAST CALL 🛎
11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.
⠀
После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.
⠀
В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.
Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝
11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.
⠀
После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.
⠀
В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.
Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝
Неплохой гайд по подготовке к интервью по SQL с примерами от «Тамби Масаева»: https://www.youtube.com/watch?v=y6CWIBKEw_g
YouTube
Евгений Кудашев, ЦИАН Лондон - Cracking the SQL coding interview
Совсем скоро Матемаркетинг - 23, 9-10 ноября
Подробности: https://matemarketing.ru/
Евгений Кудашев , из ЦИАН хочет научить вас идеально проходить собеседования, на которых спрашивают знания SQL. В ходе выступления Женя предложит вам решить задачку с собеседования…
Подробности: https://matemarketing.ru/
Евгений Кудашев , из ЦИАН хочет научить вас идеально проходить собеседования, на которых спрашивают знания SQL. В ходе выступления Женя предложит вам решить задачку с собеседования…
Откопал свежее видео про Dagster от его автора на очередном митапе: https://www.youtube.com/watch?v=OYNPa_xxeho
У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?
У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?
YouTube
SFBigAnalytics_20211018: Dagster: The orchestrator for the full data lifecycle
Nick will cover the principles and origin of Dagster. Dagster is a new type of workflow engine: a data orchestrator. Moving beyond just managing the ordering and physical execution of data computations, Dagster considers the entire data application lifecycle.…
Компания Altinity (та, которая теперь активно развивает ClickHouse) 2 ноября провела конференцию под названием Open Source Analytics Conference, в качестве спикеров были такие звёзды как Maxime Beauchemin, Andy Pavlo, Пётр Зайцев. Доклады уже доступны в сети бесплатно и без смс.
Наиболее заметные:
— Analytic Trends & Data Engineering
— Do We Still Need People To Write Database Systems?
— Distributed Tracing Using ClickHouse at eBay
— Data Rivers — The New Analytics Architecture
— Managing Transactional and Analytical Workloads with Open Source Databases
— Effective Dashboard Design Using Apache Superset
— Succeeding with Apache Druid and Clickstream Data
Наиболее заметные:
— Analytic Trends & Data Engineering
— Do We Still Need People To Write Database Systems?
— Distributed Tracing Using ClickHouse at eBay
— Data Rivers — The New Analytics Architecture
— Managing Transactional and Analytical Workloads with Open Source Databases
— Effective Dashboard Design Using Apache Superset
— Succeeding with Apache Druid and Clickstream Data
Altinity | Run open source ClickHouse® better
OSA Con 2021
Join leading open source and analytic application developers on Nov. 2, 2021 in Altinity’s free, single-day virtual conference: OSA Con. Learn more!
Forwarded from DevBrain
В начале сентября прошел PyCon RU 2021, в сети стали доступны доклады: https://www.youtube.com/user/videoitpeople/videos
Среди них есть интересные презентации:
— Обработка ошибок в Python
— Pattern matching: польза или хайп?
— Построение мониторинга python-приложений с использованием opentelemetry
— Rефакторинг: Regулярный и ASTообразный
Среди них есть интересные презентации:
— Обработка ошибок в Python
— Pattern matching: польза или хайп?
— Построение мониторинга python-приложений с использованием opentelemetry
— Rефакторинг: Regулярный и ASTообразный
YouTube
Алексей Кузьмин. Обработка ошибок в Python
Алексей Кузьмин, ДомКлик, Москва
Обработка ошибок в Python
В нашем IT-мире есть только один достоверный источник информации — исходный код. Документация может быть не актуальной, книжка может устареть, статья может осветить только один аспект. А исходный…
Обработка ошибок в Python
В нашем IT-мире есть только один достоверный источник информации — исходный код. Документация может быть не актуальной, книжка может устареть, статья может осветить только один аспект. А исходный…
Amazon бесплатно курсы по AWS раздаёт: https://amzn.to/31XqYC8, правда для моей страны нет возможности посмотреть их. Пишет что только Kindle noscripts могу брать, но возможно для вас ситуация будет другой.
Нашел новый венчурный фонд, инвестирующий в инженеров-основателей в области данных: аналитика, инфраструктура, AI/DL.
Сайт фонда https://www.dcf1.vc/, если у вас есть идея или прототип, то можно попробовать подать заявку на получение инвестиций. Основатель фонда Pete Soderling, он же основатель Data Council. Насколько я понял, сейчас цель фонда это проинвестировать в 1 тысячу инженеров-основателей.
Сайт фонда https://www.dcf1.vc/, если у вас есть идея или прототип, то можно попробовать подать заявку на получение инвестиций. Основатель фонда Pete Soderling, он же основатель Data Council. Насколько я понял, сейчас цель фонда это проинвестировать в 1 тысячу инженеров-основателей.
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день
Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.
Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.
Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://u.tinkoff.ru/onedayoffer-dwh
Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.
Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.
Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://u.tinkoff.ru/onedayoffer-dwh
Фейсбук (а ныне Мета) провели интересный саммит на тему Data Observability, так и называется Data Observability Learning Summit 2021. Доклады уже доступны в сети без регистрации и смс: https://www.facebook.com/watch/9445547199/490224945331402
Список отдельных докладов:
- Data Quality at Uber
- Data and ML observability in the public cloud
- Data observability: Through a practitioner's lens
- Observability: How to eliminate data downtime and start trusting your data
- Defining reliability: SLAs for data platform teams
- Multi-dimensional DO for modern data infra: Why today's AI and analytics workloads require E2E DO
Тема интересная и актуальная, сегодня посмотрю парочку докладов.
Список отдельных докладов:
- Data Quality at Uber
- Data and ML observability in the public cloud
- Data observability: Through a practitioner's lens
- Observability: How to eliminate data downtime and start trusting your data
- Defining reliability: SLAs for data platform teams
- Multi-dimensional DO for modern data infra: Why today's AI and analytics workloads require E2E DO
Тема интересная и актуальная, сегодня посмотрю парочку докладов.
Facebook
Data Observability Learning Summit 2021 - Engineering at Meta | Facebook
At the first Data Observability Learning Summit, startup founders, senior executives, and engineering thought leaders shared challenges related to DataOps (Data Management, lineage, Data Quality,...
Вебинар про Data Quality в Airflow: https://www.youtube.com/watch?v=6ib2gH4A0rI
YouTube
Iterative Data Quality in Airflow DAGs
Data quality is an often overlooked component of data pipelines. Learn why it is a valuable part of data systems and how to get started integrating data quality checks into existing pipelines with a variety of tools.
Учебник по машинному обучению от Школы Анализа Данных, Яндекс: https://ml-handbook.ru/
Хотел порекомендовать вам канал Олега (@oleg_agapov) — Папка "Избранное" https://news.1rj.ru/str/folder_favorites, сам также подписан на него.
Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.
Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.
👍1
Redshift диалект для SQLAlchemy: https://aws.amazon.com/ru/blogs/big-data/use-the-amazon-redshift-sqlalchemy-dialect-to-interact-with-amazon-redshift/
Amazon
Use the Amazon Redshift SQLAlchemy dialect to interact with Amazon Redshift | Amazon Web Services
Amazon Redshift is a fast, scalable, secure, and fully managed cloud data warehouse that enables you to analyze your data at scale. You can interact with an Amazon Redshift database in several different ways. One method is using an object-relational mapping…
Всем привет! 🫂
Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе:
— Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB
— Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе:
— Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB
— Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB
Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Startdatajourney
Введение в Data Engineering: дата-пайплайны
Построение масштабируемых дата-пайплайнов на Python и Luigi
Также решил сделать скидку в 35% на курс Apache Airflow 2.0: практический курс.
Промокод BLACKFRIDAY, действует до 28.11
Промокод BLACKFRIDAY, действует до 28.11
Приглашаем Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks и стать частью команды EPAM. Регистрация уже открыта: epa.ms/devops-hw-tg-17
⠀
Что дает участие в Hiring Weeks?
⠀
✅Оффер в течение 48 часов
✅Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней
✅Можно выбрать удобную дату выхода в EPAM
⠀
В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек.
Узнать более подробную информацию о проектах и вакансиях вы можете на сайте!
⠀
Что еще мы предлагаем?
📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент
📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы
📌Профессиональные комьюнити
📌Возможность релокации в 35+ стран
⠀
Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17
⠀
Что дает участие в Hiring Weeks?
⠀
✅Оффер в течение 48 часов
✅Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней
✅Можно выбрать удобную дату выхода в EPAM
⠀
В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек.
Узнать более подробную информацию о проектах и вакансиях вы можете на сайте!
⠀
Что еще мы предлагаем?
📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент
📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы
📌Профессиональные комьюнити
📌Возможность релокации в 35+ стран
⠀
Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17
👍1