DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
юмор дата инженеров 😁
SQLpedia - канал про SQL и базы данных, в котором вы найдете:

— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @sql_wiki
Forwarded from DE or DIE
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/

Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»
6 октября 2021 года
 
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
 
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь! 
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
 
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
Forwarded from DevBrain
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/

В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.

Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw
Также Макс вскользь упоминает 2 своих статьи:

The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b

Смотреть удобно на скорости ×1.25, ×1.5
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:

- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink

Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion

Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.

Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.

Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
​​Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет.

Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.

Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.

✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
LAST CALL 🛎

11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.

После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.

В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.

Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝
Откопал свежее видео про Dagster от его автора на очередном митапе: https://www.youtube.com/watch?v=OYNPa_xxeho
У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?
Компания Altinity (та, которая теперь активно развивает ClickHouse) 2 ноября провела конференцию под названием Open Source Analytics Conference, в качестве спикеров были такие звёзды как Maxime Beauchemin, Andy Pavlo, Пётр Зайцев. Доклады уже доступны в сети бесплатно и без смс.

Наиболее заметные:

Analytic Trends & Data Engineering
Do We Still Need People To Write Database Systems?
Distributed Tracing Using ClickHouse at eBay
Data Rivers — The New Analytics Architecture
Managing Transactional and Analytical Workloads with Open Source Databases
Effective Dashboard Design Using Apache Superset
Succeeding with Apache Druid and Clickstream Data
Amazon бесплатно курсы по AWS раздаёт: https://amzn.to/31XqYC8, правда для моей страны нет возможности посмотреть их. Пишет что только Kindle noscripts могу брать, но возможно для вас ситуация будет другой.
Нашел новый венчурный фонд, инвестирующий в инженеров-основателей в области данных: аналитика, инфраструктура, AI/DL.
Сайт фонда https://www.dcf1.vc/, если у вас есть идея или прототип, то можно попробовать подать заявку на получение инвестиций. Основатель фонда Pete Soderling, он же основатель Data Council. Насколько я понял, сейчас цель фонда это проинвестировать в 1 тысячу инженеров-основателей.