DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.34K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Мониторинг PostgreSQL. Новые возможности анализа производительности 1С и других систем. Часть 2: Трассировка

Продолжаем обсуждать инструменты анализа производительности систем на PostgreSQL.

В прошлой статье я начал рассказывать о расширении SP_TRACE, устанавливаемого на любые сборки PostgreSQL, и являющегося неотъемлемой частью мониторинга PerfExpert.

SP_TRACE предоставляет новые сведения в виде счетчиков и трасс, которых нет в других известных инструментах.


Читать: https://habr.com/ru/companies/softpoint/articles/759286/
S3-FIFO: новый эффективный алгоритм вытеснения из кэша на основе очередей FIFO

Введение

В этой статье я расскажу о простом и масштабируемом (Simple, Scalable) алгоритме вытеснения данных из кэша на основе трёх статических (Static) очередей FIFO (S3-FIFO). После проверки на 6594 трассировках кэшей 14 компаний мы показали, что S3-FIFO имеет меньшую частоту промахов, чем 12 лучших алгоритмов, разработанных в прошлые десятилетия. Более того, эффективность S3-FIFO устойчива — он имеет наименьший средний показатель промахов для 10 из 14 датасетов. Использование очередей FIFO позволяет S3-FIFO достичь хорошей масштабируемости с пропускной способностью в шесть раз больше по сравнению с оптимизированным LRU в cachelib на 16 потоках.

Мы пришли к выводу, что доступ к большинству объектов в смещённых нагрузках кэша выполняется только за короткий промежуток времени, поэтому критически важно быстро вытеснять их из кэша. А главная особенность S3-FIFO — это небольшая очередь FIFO, отфильтровывающая большинство объектов, не давая им попасть в основной кэш.
Иллюстрация работы S3-FIFO (с использованием порогового значения перехода из маленького в основной кэш, равного 1)


Читать: https://habr.com/ru/companies/ruvds/articles/759270/
Как работать эффективно с распределенными таблицами в ClickHouse

Приветствуем!

На связи Глеб Кононенко и Алексей Диков, мы разработчики из Лиги Цифровой Экономики. Год назад на одном большом проекте мы с коллегами начали работать с ClickHouse и сразу столкнулись с кучей проблем и недостатком информации по их преодолению.

ClickHouse — это специфичная, очень быстрая база данных. Особенность заключается в том, как хранятся и обрабатываются данные. Для каждой таблицы указывается Engine, движок, который обрабатывает данные после загрузки в асинхронном режиме. Обработка позволяет удалять дубликаты, сортировать данные, реплицировать и т. д. Более подробно с разными движками можно ознакомиться здесь.

Продукт — с открытым исходным кодом, русскоязычной документацией и возможной поддержкой. Поэтому растущая популярность неудивительна.

Мы набрались опыта, «набив шишки» на практике, и готовы им поделиться — запускаем цикл статей о том, как правильно «готовить» ClickHouse. И начнем с того, как эффективно создавать и использовать распределенные таблицы.

Немного о проекте:


Читать: https://habr.com/ru/companies/digitalleague/articles/759316/
Как работать эффективно с распределенными таблицами в ClickHouse

Приветствуем!

На связи Глеб Кононенко и Алексей Диков, мы разработчики из Лиги Цифровой Экономики. Год назад на одном большом проекте мы с коллегами начали работать с ClickHouse и сразу столкнулись с кучей проблем и недостатком информации по их преодолению.

ClickHouse — это специфичная, очень быстрая база данных. Особенность заключается в том, как хранятся и обрабатываются данные. Для каждой таблицы указывается Engine, движок, который обрабатывает данные после загрузки в асинхронном режиме. Обработка позволяет удалять дубликаты, сортировать данные, реплицировать и т. д. Более подробно с разными движками можно ознакомиться здесь.

Продукт — с открытым исходным кодом, русскоязычной документацией и возможной поддержкой. Поэтому растущая популярность неудивительна.

Мы набрались опыта, «набив шишки» на практике, и готовы им поделиться — запускаем цикл статей о том, как правильно «готовить» ClickHouse. И начнем с того, как эффективно создавать и использовать распределенные таблицы.

Немного о проекте:


Читать: https://habr.com/ru/companies/digitalleague/articles/759316/
Chicago Event Marks General Availability of MongoDB Version 7.0

The text discusses the general availability of MongoDB Version 7.0, which was announced at the MongoDB.local event in Chicago. The new version focuses on scalability and includes features such as Queryable Encryption, optimized query execution logic, new aggregation operators, and cluster-to-cluster sync capabilities. The text also mentions upcoming MongoDB.local events in London and lists the challenges of processing streaming data. Furthermore, it highlights the role of stream processing in addressing these challenges and mentions MongoDB Atlas Stream Processing as a solution. The text then transitions to discussing VISO TRUST, an AI-powered cyber risk intelligence platform that uses MongoDB Atlas for vector search and retrieval. The platform automates vendor due diligence and risk assessment, providing fast and accurate security intelligence. The text concludes with details about VISO TRUST's use of AI/ML techniques, the benefits of using MongoDB, and future plans for the application. This text is about an online search engine that allows users to explore the capabilities of vector embeddings and RAG (Retrieve and Generate). The creators of the search engine are looking forward to seeing what users create and welcome feedback to improve the product in the future. The message is dated September 5, 2023.

Read: https://www.mongodb.com/blog/post/chicago-event-marks-general-availability-mongodb-version-7-0
Руководство по масштабированию MLOps

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.


Читать: https://habr.com/ru/articles/749178/
Сага распределенных транзакций

В своем проекте мы столкнулись с необходимостью осуществить определенные действия с заявкой в нашей микросервисной архитектуре между несколькими сервисами. Причем если одно или несколько действий завершаются неудачно, то все следующие действия должны быть отменены, оставив состояние сущностей неизменным. Также в случае получения нефинальной ошибки мы хотели бы попробовать довести процесс до финала, не откатывая предыдущие шаги.

В монолитном приложении это было бы сделать легко, опираясь на гарантии удовлетворяющей требования ACID базы данных. В нашем же случае такой фокус не пройдет, наш бизнес-процесс затрагивает сразу несколько баз данных и брокеров сообщений, следовательно, решить эту задачу, запустив одну транзакцию, невозможно.

Поскольку наверняка не мы первые столкнулись с такой проблемой, то решили изучить существующие способы решения этой задачи.

У некоторых в команде уже был опыт работы с xa-транзакциями.
Довольно удобный способ, когда у вас есть несколько ACID СУБД. Процесс состоит из двух фаз.


Читать: https://habr.com/ru/companies/qiwi/articles/759474/
Сага распределенных транзакций

В своем проекте мы столкнулись с необходимостью осуществить определенные действия с заявкой в нашей микросервисной архитектуре между несколькими сервисами. Причем если одно или несколько действий завершаются неудачно, то все следующие действия должны быть отменены, оставив состояние сущностей неизменным. Также в случае получения нефинальной ошибки мы хотели бы попробовать довести процесс до финала, не откатывая предыдущие шаги.

В монолитном приложении это было бы сделать легко, опираясь на гарантии удовлетворяющей требования ACID базы данных. В нашем же случае такой фокус не пройдет, наш бизнес-процесс затрагивает сразу несколько баз данных и брокеров сообщений, следовательно, решить эту задачу, запустив одну транзакцию, невозможно.

Поскольку наверняка не мы первые столкнулись с такой проблемой, то решили изучить существующие способы решения этой задачи.

У некоторых в команде уже был опыт работы с xa-транзакциями.
Довольно удобный способ, когда у вас есть несколько ACID СУБД. Процесс состоит из двух фаз.


Читать: https://habr.com/ru/companies/qiwi/articles/759474/
Deployment Tags in Billing Invoices Now Generally Available



Read: https://www.mongodb.com/blog/post/deployment-tags-billing-invoices-now-generally-available
Sagas Are Great. What’s the Problem?

Sagas are promoted as a solution to ensuring data consistency across microservices. The solution sounds simple and conceptually it is. It's in the details where things get difficult. This post looks at sagas in a bit more detail and shows some of the problems that can be encountered.

Read: https://blogs.oracle.com/database/post/sagas-are-great-whats-the-problem
MariaDB ColumnStore Quick Start Guide

Read: https://mariadb.com/?p=37553
A Powerful Platform for Parents and Educators



Read: https://www.mongodb.com/blog/post/powerful-platform-parents-educators
Распределённые снапшоты: определение глобального состояния распределённых систем

Наша команда продолжает развивать Platform V DataGrid — распределенную базу данных в оперативной памяти для высокопроизводительных вычислений. В последнем релизе мы реализовали инкрементальные снапшоты, которые быстро снимаются, сохраняют транзакционную целостность и почти не влияют на общую производительность системы.

В рамках работы над этой фичей мы изучили несколько классических статей по распределённым системам, перевода которых на русский кажется не существует. Всех, кому интересна тема распределённых систем, приглашаю под кат.


Читать: https://habr.com/ru/companies/sberbank/articles/753404/
Какую базу данных выбрать бизнесу в 2023 году

Перед бизнесом достаточно часто встают вопросы: какую СУБД выбрать, если до сих пор в топах держатся Oracle, MS SQL и PostgreSQL, в чем их отличия, преимущества и недостатки, и как сейчас обстоит дело на рынке. Выбор из трех наиболее популярных баз данных в конечном итоге сводится к сравнению функциональности, вариантов использования и экосистемам. Компании, которые отдают предпочтение гибкости, экономической эффективности и инновациям, обычно выбирают решения с открытым исходным кодом. Они могут быть интегрированы с несколькими бесплатными дополнениями, иметь активные сообщества пользователей и постоянно обновляться. Крупные компании предпочитают консервативные варианты.

Меня зовут Анастасия, я ведущий разработчик баз данных в SimbirSoft. В этой статье постараюсь наиболее подробно и понятно сравнить возможности, плюсы и минусы топовых СУБД, расскажу про их экосистемы и попробую ответить на вопрос — какую базу данных лучше выбрать бизнесу в 2023 году.
🔀 Итак, приступим

Читать: https://habr.com/ru/companies/simbirsoft/articles/759706/
Нагрузочный поединок между Tarantool 2.10 и Hazelcast 4.5.4

В прошлый раз мы сравнили Tarantool с Redis, а в этой статье решили провести тесты с Hazelcast.

Так же, как в прошлой статье, мы рассматриваем вариант Tarantool как замены: берём типичные кейсы работы с Hazelcast и реализуем такие же механики на Tarantool, начиная от простых K-V операций и заканчивая вторичными ключами.


Читать: https://habr.com/ru/companies/kts/articles/759526/
Бесплатное ПО VS. ежегодная подписка

Любое ПО делится на платное и бесплатное. И в том, и в другом есть свои плюсы и минусы. Жирный минус бесплатного ПО я испытала на своем опыте.
Интересно

Читать: https://habr.com/ru/articles/760142/
Модели данных в NoSQL

Автор статьи: Артем Михайлов

NoSQL (от «Not Only SQL») представляют собой семейство баз данных, разработанных для решения проблем, связанных с хранением, извлечением и обработкой больших объемов разнообразных данных. Они отличаются от традиционных реляционных баз данных, таких как MySQL или PostgreSQL, тем, что не требуют жесткой схемы данных и предоставляют более гибкую структуру хранения.

Преимущества NoSQL баз данных включают в себя горизонтальное масштабирование, высокую производительность при больших нагрузках, способность обрабатывать полуструктурированные и неструктурированные данные, а также поддержку распределенных вычислений. Они широко используются в веб-разработке, анализе больших данных, интернете вещей и других областях, где требуется обработка и хранение данных большого объема и разнообразной структуры.

Читать: https://habr.com/ru/companies/otus/articles/760226/
Building AI with MongoDB: Unlocking Value from Multimodal Data



Read: https://www.mongodb.com/blog/post/building-ai-mongodb-unlocking-value-from-multimodal-data
New Backported Features Available in MariaDB Enterprise Server Releases 10.3-10.6

Read: https://mariadb.com/?p=37597