Wes McKinney в рамках Database talks от CMU рассказывает про Apache Arrow: https://youtu.be/YhF8YR0OEFk
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
YouTube
Apache Arrow: High-Performance Columnar Data Framework (Wes McKinney)
CMU Database Group - Vaccination Database Tech Talks - Second Dose (2021)
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Speakers: Wes McKinney (Apache Arrow / Voltron Data)
December 06, 2021
https://db.cs.cmu.edu/seminar2021-dose2#db13
Sponsors:
OtterTune (https://ottertune.com)
Steven Moy Foundation…
Вебинар от Astronomer про data lineage в Apache Airflow: https://www.youtube.com/watch?v=2s013GQy1Sw
YouTube
Data Lineage with OpenLineage and Airflow
If one out of your hundreds of DAGs fails, how do you know which downstream datasets have become out-of-date? The answer is data lineage. Data lineage is the complex set of relationships between your jobs and datasets. In this webinar, you'll learn how to…
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".
Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
YouTube
Naama Ben-David — Algorithms for practical distributed agreement
Hydra 2022 — June 2-3
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
Info and tickets: https://bit.ly/3ni5Hem
— —
Agreement algorithms form the underpinning of many reliable services; they provide a consistent state among several machines despite asynchrony, crash failures, and malicious attacks. In this…
💥 DWHard митап
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
21 декабря / вторник
17:00 - 20:00 (мск)
Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?
👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.
Больше информации по ссылке внизу
📌 Подробности и регистрация
Регистрируйся и уже сейчас задай вопросы спикерам митапа!
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.
У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения.
Старт намечен на 17 января 2022 года
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Интересная статья про то как в Великобритании строили COVID-дэшборд на PostgreSQL, Citus и Microsoft Azure. В статье речь идёт про этот дэшборд.
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент.
Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏
TECHCOMMUNITY.MICROSOFT.COM
UK COVID-19 dashboard built using Postgres and Citus for millions of users | Microsoft Community Hub
Why and how the UK Coronavirus Dashboard team built their analytics service on top of PostgreSQL & Citus on Azure.
👍1
#вакансия
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Аналитик DWH (от Junior до Senior)
Москва
Accenture
В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH.
Обязанности:
— выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями;
— проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками;
— анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных;
— проводить тестирование и приемку готового функционала;
— реализовывать проверки качества данных, организовывать их исправление.
Требования:
— опыт работы в проектах по DWH;
— уверенные знания SQL;
— понимание теории баз данных;
— навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов.
Условия:
— регулярное повышение дохода и достойный годовой бонус;
— уникальная команда из лучших экспертов на рынке;
— лучшая страховка для тебя и семьи с 1 рабочего дня;
— 33 дня отпуска в году;
— обучение, сертификации, международные тренинги за счет компании;
— новый iPhone как часть welcome pack.
Оплата: 130–250 тысяч рублей (Gross)
Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com
Запись докладов ранее анонсированной конференции: https://youtu.be/WHN8bLSqebQ
YouTube
Sibur Digital Community DWHard Митап 21.12.2021
DataEng
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке.…
Вышла первая лекция сего движа: https://www.youtube.com/watch?v=bkJZDmreIpA
YouTube
Data Engineering Zoomcamp 2022
Free data engineering course: https://github.com/DataTalksClub/data-engineering-zoomcamp
We talked about:
00:00 Introduction
00:27 Agenda
00:56 Ankush intro
01:56 Sejal intro
02:55 Victoria intro
03:41 Alexey intro
04:40 Is it for me?
06:17 Course GitHub…
We talked about:
00:00 Introduction
00:27 Agenda
00:56 Ankush intro
01:56 Sejal intro
02:55 Victoria intro
03:41 Alexey intro
04:40 Is it for me?
06:17 Course GitHub…
Нашел стандарт для описания метаданных Open Metadata: https://open-metadata.org/
open-metadata.org
OpenMetadata: #1 Open Source Metadata Platform
OpenMetadata is the #1 open source data catalog tool with the all-in-one platform for data discovery, quality, governance, collaboration & more. Join our community to stay updated.
Нашел крутой обзорный видос Big Data движа в Китае: https://youtu.be/5vjFzZimEns
Из видео узнал об инструментах с весьма забавными названиями:
- Apache SeaTunnel: https://seatunnel.apache.org/
- Apache DolphinScheduler: https://dolphinscheduler.apache.org/
Из видео узнал об инструментах с весьма забавными названиями:
- Apache SeaTunnel: https://seatunnel.apache.org/
- Apache DolphinScheduler: https://dolphinscheduler.apache.org/
YouTube
New Trends of DataOps -- Perspectives from China
There are many new data technologies in 2021: more hot data engines such as ClickHouse, Iceberg, Delta Lake; more data pipeline tools: Apache DolphinScheduler, Apache SeaTunnel, more datamining libs: Ray, Orange and Hugging Face etc.
Today I would like to…
Today I would like to…
Отличный доклад про настоящее и будущее JSON/JSONB в PostgreSQL от Олега Бартунова: https://www.youtube.com/watch?v=CPoNZRpcHf4
YouTube
SQL/JSON в PostgreSQL: настоящее и будущее / Олег Бартунов (Postgres Professional)
HighLoad++ Весна 2021
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
17 и 18 мая 2021. Москва, Крокус-Экспо
Тезисы и презентация:
https://www.highload.ru/spring/2021/abstracts/6721
Реляционные СУБД нанесли очередной…
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем
17 и 18 мая 2021. Москва, Крокус-Экспо
Тезисы и презентация:
https://www.highload.ru/spring/2021/abstracts/6721
Реляционные СУБД нанесли очередной…
Отличный обзор storage layers: Apache Hudi/Iceberg и Delta Lake от AWS https://www.youtube.com/watch?v=fryfx0Zg7KA
YouTube
Modern Data Lake Storage Layers
An overview of Apache Hudi, Apache Iceberg, and Delta Lake.
In this video, we talk about the basics of how Hudi, Iceberg, and Delta Lake work. You'll see how to insert, update, and delete data in your data lake and how each of these frameworks work behind…
In this video, we talk about the basics of how Hudi, Iceberg, and Delta Lake work. You'll see how to insert, update, and delete data in your data lake and how each of these frameworks work behind…
Отличный ресурс про внутреннее устройство PostgreSQL: https://www.interdb.jp/pg/index.html
Wes McKinney, автор pandas, пишет 3-е издание своей книги Python for Data Analysis в рамках Open Edition: https://wesmckinney.com/book/
Мой опыт работы с pandas начинался именно с этой книги, хотя тогда она мне казалась далеко не дружелюбной для новичков.
Мой опыт работы с pandas начинался именно с этой книги, хотя тогда она мне казалась далеко не дружелюбной для новичков.
Wesmckinney
Python for Data Analysis, 3E
Исследование data engineering позиций внутри биг-техов
Наткнулся на небольшое исследование рынка dataeng позиций среди биг-тех компаний: Amazon, Google, Facebook (ой, Meta) и т.д. Автор вручную проанализировал 1К вакансий и выяснил некоторые инсайты:
- основное требование это знать Python и SQL
- чтобы расти дальше по технической части необходимо помимо Python/SQL иметь знания Java/Scala/C++
- биг-техи предпочитают code-heavy решения вместо новомодных low/no-code перделок
- почему то автор в статье упоминает Airflow как
- доля Amazon среди открытых вакансий по dataeng 65%
- Tableau в 2 раза популярнее Power BI
- Доли среди клауд провайдеров: AWS 53% (но стоит учесть, что 65% всех вакансий от Amazon), у Azure и GCP доли примерно одинаковые
- стриминг становится всё популярнее (spark streaming, flink, kafka)
- автор не забыл и про софт-скиллы, как ни крути, а работаем мы прежде всего с людьми
У меня была идея сделать анализ dataeng вакансий среди популярных площадок для понимания наиболее актуальных требований и не ограничиваться только FAANG. Ждите в ближайшее время (это, кстати, также может стать неплохим data engineering проектом в копилку).
Наткнулся на небольшое исследование рынка dataeng позиций среди биг-тех компаний: Amazon, Google, Facebook (ой, Meta) и т.д. Автор вручную проанализировал 1К вакансий и выяснил некоторые инсайты:
- основное требование это знать Python и SQL
- чтобы расти дальше по технической части необходимо помимо Python/SQL иметь знания Java/Scala/C++
- биг-техи предпочитают code-heavy решения вместо новомодных low/no-code перделок
- почему то автор в статье упоминает Airflow как
low-code pipeline solution, думаю это опечатка- доля Amazon среди открытых вакансий по dataeng 65%
- Tableau в 2 раза популярнее Power BI
- Доли среди клауд провайдеров: AWS 53% (но стоит учесть, что 65% всех вакансий от Amazon), у Azure и GCP доли примерно одинаковые
- стриминг становится всё популярнее (spark streaming, flink, kafka)
- автор не забыл и про софт-скиллы, как ни крути, а работаем мы прежде всего с людьми
У меня была идея сделать анализ dataeng вакансий среди популярных площадок для понимания наиболее актуальных требований и не ограничиваться только FAANG. Ждите в ближайшее время (это, кстати, также может стать неплохим data engineering проектом в копилку).
Medium
2022 Data Engineering Job Market: Analysis of 1,000 FAANG Job Postings
Recently, I was strongly considering the prospect of switching careers, so I set out to answer the question “What skills are in-demand for…
🔥4👍1
У ребят из Astronomer прошел очередной вебинар, на этот раз тема вебинара — Масштабирование Airflow
Посмотреть можно в ютубе: https://www.youtube.com/watch?v=i9F0LFobejc
Основной фокус сделали на двух самых популярных Executors: CeleryExecutor и KubernetesExecutor. Рассказали про нюансы и подводные камни каждого, в целом получилось полезно!
Посмотреть можно в ютубе: https://www.youtube.com/watch?v=i9F0LFobejc
Основной фокус сделали на двух самых популярных Executors: CeleryExecutor и KubernetesExecutor. Рассказали про нюансы и подводные камни каждого, в целом получилось полезно!
YouTube
Scaling Out Airflow
Airflow is purpose-built for high-scale workloads and high availability on a distributed platform. Since the advent of Airflow 2.0, there are even more tools and features to ensure that Airflow can be scaled to accommodate high-throughput, data-intensive…
👍9