DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Ребята из #CloudMTS предлагают облачные сервисы для быстрого запуска новых ИТ-продуктов. Актуально для разработчиков, кто хочет выйти на рынок раньше остальных. Сервисами можно пользоваться бесплатно 30 дней!

Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.

Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!

Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2
Маленькая балалайка для анализа метаданных в базе данных PostgreSQL: https://github.com/marklit/datafluent_pg
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖

Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html
юмор дата инженеров 😁
SQLpedia - канал про SQL и базы данных, в котором вы найдете:

— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @sql_wiki
Forwarded from DE or DIE
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/

Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»
6 октября 2021 года
 
Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.
 
🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь! 
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.
 
▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS
Forwarded from DevBrain
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/

В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.

Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw
Также Макс вскользь упоминает 2 своих статьи:

The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b

Смотреть удобно на скорости ×1.25, ×1.5
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:

- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink

Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion

Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.

Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.

Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.
​​Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет.

Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером.

Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых.

✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3
В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗
LAST CALL 🛎

11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики.

После курса вы:
▪️ пишете и оптимизируете SQL-запросы;
▪️ проектируете хранилища данных разных типов в зависимости от задач;
▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов;
▪️ визуализируете результаты анализа и собираете данные в понятные дашборды;
▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса.

В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке.

Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму
🔝 https://bit.ly/2ZwUUUN 🔝