Митап для сообщества MongoDB в России
9 декабря в 18:00 очно и онлайн
На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer.
📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код.
📡 Будет онлайн-трансляция, и для участия нужна регистрация.
🚀Программа и регистрация »
9 декабря в 18:00 очно и онлайн
На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer.
📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код.
📡 Будет онлайн-трансляция, и для участия нужна регистрация.
🚀Программа и регистрация »
Курс про построение дата-пайплайнов на основе Apache Kafka от Confluent: https://developer.confluent.io/learn-kafka/data-pipelines/intro/
Confluent
How to Build Streaming Data Pipelines with Apache Kafka
Build a scalable, streaming data pipeline in under 20 minutes using Kafka and Confluent. Learn how to leverage real-time data streams and CDC with tutorials and free online courses.
Прикольная визуализация работы pandas: https://pandastutor.com/index.html
Удобно при изучении этой крутой библиотеки.
Удобно при изучении этой крутой библиотеки.
Нашел интересную балалайку для потоковой репликации базы SQLite в другой файл или сразу на S3: https://github.com/benbjohnson/litestream
Документация: https://litestream.io/getting-started/
Проект написан на Go, запускается как отдельный демон без регистрации и смс.
Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍
Документация: https://litestream.io/getting-started/
Проект написан на Go, запускается как отдельный демон без регистрации и смс.
Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍
GitHub
GitHub - benbjohnson/litestream: Streaming replication for SQLite.
Streaming replication for SQLite. Contribute to benbjohnson/litestream development by creating an account on GitHub.
Раз уж заговорили про SQLite, то вот вам ещё одна батарейка — rqlite.
rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log.
Подробнее про дизайн системы можно почитать в блоге автора:
— RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API
— REPLICATING SQLITE USING RAFT CONSENSUS
Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM
rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log.
Подробнее про дизайн системы можно почитать в блоге автора:
— RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API
— REPLICATING SQLITE USING RAFT CONSENSUS
Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM
GitHub
GitHub - rqlite/rqlite: The lightweight, fault-tolerant database built on SQLite. Designed to keep your data highly available with…
The lightweight, fault-tolerant database built on SQLite. Designed to keep your data highly available with minimal effort. - rqlite/rqlite
Wes McKinney в рамках Database talks от CMU рассказывает про Apache Arrow: https://youtu.be/YhF8YR0OEFk
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
YouTube
Apache Arrow: High-Performance Columnar Data Framework (Wes McKinney)
CMU Database Group - Vaccination Database Tech Talks - Second Dose (2021)
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Вебинар от Astronomer про data lineage в Apache Airflow: https://www.youtube.com/watch?v=2s013GQy1Sw
YouTube
Data Lineage with OpenLineage and Airflow
If one out of your hundreds of DAGs fails, how do you know which downstream datasets have become out-of-date? The answer is data lineage. Data lineage is the complex set of relationships between your jobs and datasets. In this webinar, you'll learn how to…
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
YouTube
Naama Ben-David — Algorithms for practical distributed agreement
Hydra 2022 — June 2-3
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
💥 DWHard митап
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Интересная статья про то как в Великобритании строили COVID-дэшборд на PostgreSQL, Citus и Microsoft Azure. В статье речь идёт про этот дэшборд.
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
TECHCOMMUNITY.MICROSOFT.COM
UK COVID-19 dashboard built using Postgres and Citus for millions of users | Microsoft Community Hub
Why and how the UK Coronavirus Dashboard team built their analytics service on top of PostgreSQL & Citus on Azure.
👍1
#вакансия
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Запись докладов ранее анонсированной конференции: https://youtu.be/WHN8bLSqebQ
YouTube
Sibur Digital Community DWHard Митап 21.12.2021
DataEng
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.…
Вышла первая лекция сего движа: https://www.youtube.com/watch?v=bkJZDmreIpA
YouTube
Data Engineering Zoomcamp 2022
Free data engineering course: https://github.com/DataTalksClub/data-engineering-zoomcamp
We talked about:
00:00 Introduction
00:27 Agenda
00:56 Ankush intro
01:56 Sejal intro
02:55 Victoria intro
03:41 Alexey intro
04:40 Is it for me?
06:17 Course GitHub…
We talked about:
00:00 Introduction
00:27 Agenda
00:56 Ankush intro
01:56 Sejal intro
02:55 Victoria intro
03:41 Alexey intro
04:40 Is it for me?
06:17 Course GitHub…
Нашел стандарт для описания метаданных Open Metadata: https://open-metadata.org/
open-metadata.org
OpenMetadata: #1 Open Source Metadata Platform
OpenMetadata is the #1 open source data catalog tool with the all-in-one platform for data discovery, quality, governance, collaboration & more. Join our community to stay updated.
Нашел крутой обзорный видос Big Data движа в Китае: https://youtu.be/5vjFzZimEns
Из видео узнал об инструментах с весьма забавными названиями:
- Apache SeaTunnel: https://seatunnel.apache.org/
- Apache DolphinScheduler: https://dolphinscheduler.apache.org/
Из видео узнал об инструментах с весьма забавными названиями:
- Apache SeaTunnel: https://seatunnel.apache.org/
- Apache DolphinScheduler: https://dolphinscheduler.apache.org/
YouTube
New Trends of DataOps -- Perspectives from China
There are many new data technologies in 2021: more hot data engines such as ClickHouse, Iceberg, Delta Lake; more data pipeline tools: Apache DolphinScheduler, Apache SeaTunnel, more datamining libs: Ray, Orange and Hugging Face etc.
Today I would like to…
Today I would like to…
Отличный доклад про настоящее и будущее JSON/JSONB в PostgreSQL от Олега Бартунова: https://www.youtube.com/watch?v=CPoNZRpcHf4
YouTube
SQL/JSON в PostgreSQL: настоящее и будущее / Олег Бартунов (Postgres Professional)
HighLoad++ Весна 2021
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
17 и 18 мая 2021. Москва, Крокус-Экспо
Тезисы и презентация:
https://www.highload.ru/spring/2021/abstracts/6721
Реляционные СУБД нанесли очередной…
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
17 и 18 мая 2021. Москва, Крокус-Экспо
Тезисы и презентация:
https://www.highload.ru/spring/2021/abstracts/6721
Реляционные СУБД нанесли очередной…