NEW BOT Телеграм, страница

DataEng

Свет увидела новая распределенная SQL база данных на Rust (учебная): https://github.com/erikgrinaker/toydb
Автор также подробно описал её архитектуру: https://github.com/erikgrinaker/toydb/blob/master/docs/architecture.md

GitHub

GitHub - erikgrinaker/toydb: Distributed SQL database in Rust, written as an educational project

Distributed SQL database in Rust, written as an educational project - erikgrinaker/toydb

2.24K viewsedited 13:35

DataEng

Я сейчас изучаю как можно больше информации по теме качества данных (Data quality), и наткнулся на парочку статей от Airbnb:

- Data Quality at Airbnb: Part 1 — Rebuilding at Scale
- Data Quality at Airbnb: Part 2 — A New Gold Standard

Если вам также есть чем поделиться по теме, то накидайте, пожалуйста, ссылок в комментариях.

Medium

Data Quality at Airbnb

Part 1 — Rebuilding at Scale

2.28K views14:42

DataEng

Всем привет! 🤝
Наверняка среди моих подписчиков есть люди, увлеченные темой Data Science. Мой товарищ Ренат Алимбеков (@alimbekovkz) недавно выпустил мануал по подготовке к интервью на роль data scientist. Ренат неоднократный призёр соревнований на Kaggle, а ныне data scientist в Beeline, где занимается задачами в области компьютерного зрения.

Наверняка многие из вас помнят, что Ренат выпускал бесплатный курс на моей образовательной платформе: Анализ медицинских изображений в Python, также он ведёт свой блог и канал.

Приобрести его руководство Data Science Interview Guide можно по ссылке на платформе Gumroad.

Используйте промокод DATAENG, чтобы получить скидку 2$.

Kaggle

Alimbekov Renat [dsmlkz]

Data scientist/IT manager/IT Auditor from Almaty Kazakhstan

[dsmlkz]: Kazakhstan Data Science Community

2.03K viewsedited 15:04

DataEng

Про полнотекстовый поиск в PostgreSQL, если вы о нём не знали: https://blog.crunchydata.com/blog/postgres-full-text-search-a-search-engine-in-a-database
К слову, у меня в блоге khashtamov.com как раз используется Full-Text Search от Postgres средствами Django.

Crunchy Data

Postgres Full-Text Search: A Search Engine in a Database | Crunchy Data Blog

With Postgres, you don't need to immediately look farther than your own database management system for a full-text search solution. If you haven't yet given Postgres' built-in full-text search a try, read on for a simple intro.

2.12K viewsedited 17:19

DataEng

Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:

- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow

И многие другие. Бегом изучать на канале Apache Airflow.

YouTube

The new modern data stack Airbyte Airflow DBT

Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…

8.47K views05:59

DataEng

https://developer.confluent.io/learn-kafka/kafka-connect/intro/

Confluent

Kafka Connect Tutorial: How Connectors, Sinks & Sources Work

Kafka Connect is a component of Apache Kafka® that’s used to perform streaming integration between Kafka and other systems such as databases, cloud services, and more.

2.09K views16:41

DataEng

У ребят из dbt есть гайд про Analytics Engineer: https://www.getdbt.com/analytics-engineering/

dbt Labs

What is analytics engineering? | dbt Labs

Learn what analytics engineering is, how it bridges data and business teams, and why it’s essential for modern data workflows.

2.29K views06:00

DataEng

Ребята из #CloudMTS предлагают облачные сервисы для быстрого запуска новых ИТ-продуктов. Актуально для разработчиков, кто хочет выйти на рынок раньше остальных. Сервисами можно пользоваться бесплатно 30 дней!

Реализуйте ваши проекты на готовой облачной IT инфраструктуре:
✔️ Получите всё, что нужно для разработки цифрового продукта: IaaS, облачный суперкомпьютер на GPU, резервное копирование, хранилище S3, CDN, WAF, сервисы Azure и многое другое.
✔️ Используйте любое количество сервисов одновременно.
✔️ Никаких ограничений по функционалу и скрытых платежей.

Выведите свой продукт на рынок в рекордные сроки с #CloudMTS!

Узнать подробности можно по ссылке: https://bit.ly/2VhG1U2

2.35K views15:00

DataEng

Маленькая балалайка для анализа метаданных в базе данных PostgreSQL: https://github.com/marklit/datafluent_pg
Написана на питоне, удобно запускать из консоли. В результате формирует отчёт в Excel 🤖

Пост в блоге автора: https://tech.marksblogg.com/data-fluent-for-postgresql.html

GitHub

GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.

Build a better understanding of your data in PostgreSQL. - GitHub - marklit/datafluent_pg: Build a better understanding of your data in PostgreSQL.

2.5K viewsedited 06:48

DataEng

Обзор Open Source решений из мира данных: https://www.datafold.com/blog/the-modern-data-stack-open-source-edition

Datafold

The modern data stack: Open-source edition

If you're looking to build the ideal modern data stack for analytics using only open-source tools, we cover the top alternatives to your favorite paid solutions.

👍1

2.9K views16:29

DataEng

юмор дата инженеров 😁

6.97K views03:28

DataEng

Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html

Marksblogg

Building PostgreSQL Extensions with Rust

Benchmarks & Tips for Big Data, Hadoop, AWS, Google Cloud, PostgreSQL, Spark, Python & More...

2.35K views11:46

DataEng

Ещё раз про data mesh: https://www.montecarlodata.com/decoding-the-data-mesh/

Monte Carlo Data

Decoding The Data Mesh

Building a data mesh? Avoid these 7 common mesh-conceptions.

2.39K views07:50

DataEng

Forwarded from Pasha Finkelshteyn

Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/

The JetBrains Blog

Data Engineering Annotated Monthly – August 2021 | The Big Data Tools Blog

August is usually a quiet month, with vacations taking their toll. But data engineering never stops. I’m Pasha Finkelshteyn and I will be your guide through this month’s news, my impressions of the de

2.39K views08:53

DataEng

SQLpedia - канал про SQL и базы данных, в котором вы найдете:

— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @sql_wiki

2.79K views09:27

DataEng

Forwarded from DE or DIE

Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/

Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.

DE or DIE

DE or DIE #8

DE or DIE – митап, сделанный дата инженерами для дата инженеров.

1.75K views03:42

DataEng

Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»
⏰ 6 октября 2021 года

Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:
📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);
📌 поддержка сложных типов данных в JDBC-клиенте;
📌 партиционированные проекции;
📌 резервное копирование и восстановление в Azure;
📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;
📌 множество улучшений в части шифрования подключений и соединений;
📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes.

🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
🤝 Присоединяйтесь!
💡 Это будет полезно для расширения профессионального кругозора или углубления знаний в области #BigData #аналитика #хранилищеданных.

▶️ Зарегистрироваться
🔎 Другой полезный контент на канале Micro Focus Russia & CIS

2.22K views08:00

DataEng

Forwarded from DevBrain

Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/

В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.

Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0

Python.org

Python Release Python 3.10.0

The official home of the Python Programming Language

1.39K views06:18

DataEng

Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw
Также Макс вскользь упоминает 2 своих статьи:

— The Rise of the Data Engineer
https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/
— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b

Смотреть удобно на скорости ×1.25, ×1.5

YouTube

01 Maxime Beauchemin, Day1 Keynote, DataEngBytes 2021

The Rise & Downfall of the Data Engineer REVISITED

Maxime Beauchemin
Founder & CEO Preset. Original creator of Apache Superset and Apache Airflow.

In 2017, I wrote two blog posts about data engineering: "The Rise of the Data Engineer" was an attempt at…

1.89K views07:58

DataEng

Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:

- What is a Data Mesh - And How Not To Mesh it Up
- Data Quality with Great Expectations and Airflow in a Reverse-ETL World
- Shift-left testing : Building reliable Data Pipelines
- Data quality: the key to long term happiness
- Reliable data engineering made easy
- Gone Streaming: dbt+Materialize
- Streaming data analytics with Apache Flink

Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔

YouTube

09 Barr Moses, Day 2 Keynote, DataEngBytes 2021

What is a Data Mesh - And How Not To Mesh it Up

Barr Moses
CEO and co-founder of Monte Carlo, the data reliability company

Barr Moses is CEO & Co-Founder of Monte Carlo, a data reliability company and creator of the industry’s first Data Observability Platform…

1.83K viewsedited 14:16

DataEng

Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion

Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.

Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз.

Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.

Notion

Herding elephants: lessons learned from sharding Postgres at Notion

With an effort to make Notion faster and more reliable for years to come — we migrated Notion’s PostgreSQL monolith into a horizontally-partitioned database fleet.

2.31K viewsedited 10:42

About

Blog

Apps

Platform