DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.33K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Путь 11 страданий: это не ДЗЕН и не ДАО — это выбор российского BI

Привет, Хабр! Мне, наконец, есть чем поделиться с вами. И это результаты практически годового процесса выбора BI-системы из числа российских разработок на замену одной из западных платформ. За это время мне стало очевидно, что примерно 50% действий, которые мы сделали, можно было и не делать, а 20% не стоило делать вовсе. В итоге получилась практически инструкция “как не надо” выбирать себе BI-систему, если вы хотите, чтобы она действительно начала приносить вам пользу ASAP. Под катом — также мои мысли о том, как надо было бы. Желающих обсудить, прошу присоединяться.
Хочу научиться на чужих ошибках...

Читать: https://habr.com/ru/articles/757954/
The Challenges and Opportunities of Processing Streaming Data

This text discusses the challenges and opportunities of processing streaming data. It uses the example of a fictitious bank that faces difficulties managing the volume of transactions as their customer usage grows. To address this, the bank adopts an event streaming platform like Apache Kafka, which allows them to scale and support more customers and product offerings. However, they start facing issues with unrecognized transactions and fraudulent charges. To solve this, the bank realizes the importance of querying the transactional event data in real-time to determine suspicious transactions. The text also highlights the challenges faced by developers in building applications that work with streaming data, such as different serialization formats, schemas, late arriving data, operational complexity, and security. Stream processing is identified as a solution to address these challenges and enable real-time use cases. Lastly, the text mentions upcoming MongoDB events, including MongoDB.local Taipei 2023 and MongoDB.local Hong Kong, where attendees can learn about MongoDB's latest features and updates.

Read: https://www.mongodb.com/blog/post/challenges-opportunities-processing-streaming-data
New MariaDB Enterprise Server 23 Release, Now Available as a Second Technical Preview

Read: https://mariadb.com/?p=37543
7 петабайт логов в Elastic

Всем привет, меня зовут Роман. В ИТ я больше 15 лет — начинал как системный администратор, сейчас SRE-инженер. Расскажу, как мы дошли до семи петабайт логов в Elastic и как он устроен.

Поделюсь некоторыми архитектурными принципами для нашего большого хранилища, когда мы его создавали. Какие принципы и как мы ими руководствовались. Расскажу, почему нас перестали устраивать стандартные компоненты.


Читать: https://habr.com/ru/companies/tinkoff/articles/757958/
7 петабайт логов в Elastic

Всем привет, меня зовут Роман. В ИТ я больше 15 лет — начинал как системный администратор, сейчас SRE-инженер. Расскажу, как мы дошли до семи петабайт логов в Elastic и как он устроен.

Поделюсь некоторыми архитектурными принципами для нашего большого хранилища, когда мы его создавали. Какие принципы и как мы ими руководствовались. Расскажу, почему нас перестали устраивать стандартные компоненты.


Читать: https://habr.com/ru/companies/tinkoff/articles/757958/
LVM+QCOW2, или Попытка создать идеальный CSI-драйвер для shared SAN в Kubernetes

Несколько месяцев назад у нас появилась необходимость разработать CSI-драйвер для Kubernetes, который в первую очередь использовался бы для хранения дисков виртуальных машин в Deckhouse Virtualization, но также мог бы использоваться и со стандартными контейнерами в Kubernetes. У оборудования наших заказчиков, как правило, есть определенная специфика — чаще всего это классическая SAN (Storage Area Network) с внешним хранилищем и общим shared LUN, который выделяется на несколько узлов. На одном LUN одновременно работает несколько виртуальных машин или контейнеров.

Помимо всего прочего, от драйвера нам требовалась поддержка различных CoW-фичей, таких как снапшоты, thin provisioning и возможность выполнять live-миграцию виртуальных машин в Kubernetes. Из существующих решений можно было бы отметить некоторые свободные проекты, однако ни один из них не реализует все желаемые фичи. Кроме того, у них есть явные проблемы с масштабированием.


Читать: https://habr.com/ru/companies/flant/articles/757864/
Покупаем BI: как сформировать оптимальный пакет и сэкономить на бизнес-пользователях

Покупка BI-решения для компании всегда была дорогостоящим предприятием, занимающим уйму времени у всех департаментов. А с момента ухода иностранных поставщиков с рынка России, когда особенно остро встал вопрос перехода на отечественные аналоги, этот процесс еще больше осложнился. Компании стали урезать затраты на новые проекты, а цены на отечественные BI-решения повысились.

В данной статье я расскажу о том, каких затрат стоит ожидать компаниям при развертывании BI-инструментов, а также представлю разработанное нами альтернативное решение, которое поможет сократить затраты на владение BI и упростить процесс доставки отчетов сотрудникам.
Читать статью

Читать: https://habr.com/ru/companies/sapiens_solutions/articles/758294/
Как работает миграция между базами данных в реальном мире?

Недавно по основной работе у меня появилась задача по изучению процесса миграции данных между базами. Решил поделиться с сообществом своими исследованиями в сфере миграции, полученными в рамках этой задачи.

В статье я рассмотрю: с чего начать миграцию, зачем нужна миграция, подход PoC и парадигмы баз данных, тестирование и стратегии миграции.
Подробнее о миграции

Читать: https://habr.com/ru/articles/758868/
Как профилировать, когда perf видит не все

В современных системах интерпретаторы используются повсеместно. Для проверки на соответствие ожиданиям по производительности их необходимо профилировать. Но когда значительная часть логики исполняется встроенным интерпретатором, окинуть взглядом общую картину при профилировании становится крайне затруднительно, потому что существующие инструменты не способны отражать переходы между интерпретируемой и нативной частями системы.


Читать: https://habr.com/ru/companies/vk/articles/758128/
Картина ясная: как мы визуализируем метрики Platform V DataGrid в Grafana

Привет, Хабр! Меня зовут Илья Степанов, я работаю в СберТехе в команде продукта Platform V DataGrid — распределённой базы данных, основанной на Apache Ignite и доработанной до enterprise-уровня надёжности и безопасности. В статье расскажу, как мы обеспечиваем промышленный мониторинг критических систем и визуализируем метрики наших кластеров.

Периодически к нам обращаются пользователи и клиенты с вопросом: «Как лучше визуализировать то или иное состояние кластера?» В нашем продукте есть несколько способов получения метрик из кластера. В том числе «классические» для Java-приложений: можно прочитать метрики через JMX, экспортировать в формате Prometheus, сбрасывать в log-файл, получать в результате SQL-запроса или через вызов управляющего скрипта. То есть, с метриками может работать практически любая система мониторинга.


Читать: https://habr.com/ru/companies/sberbank/articles/759014/
Building AI with MongoDB: How VISO TRUST is Transforming Cyber Risk Intelligence

This text discusses how VISO TRUST is using MongoDB to build AI and transform cyber risk intelligence. VISO TRUST is an AI-powered platform that provides vendor security information to decision-makers. They use models from various AI organizations and combine it with vector search and retrieval from MongoDB Atlas. VISO TRUST automates vendor due diligence and reduces third-party risk. They use various AI techniques, algorithms, and models in their application stack. They chose MongoDB because of its document database capabilities and features such as Atlas Vector Search. They have achieved benefits such as improved metadata storage and easy database management. In the future, they plan to continue using retrieval-augmented generation and expanding their ML footprint with MongoDB. The text also includes information about an upcoming MongoDB event in Hong Kong and introduces MongoDB Atlas Stream Processing for real-time use cases.

Read: https://www.mongodb.com/blog/post/building-ai-how-viso-trust-transforming-cyber-risk-intelligence
Организация миграции схем баз данных на основе Nasgrate

В процессе работы над приложением, команда разработчиков часто сталкивается с необходимостью версионирования и трансляции изменений в структуре базы данных между различными машинами. Для этих целей сообществом были разработаны различные системы, отличающиеся функциональными возможностями, ценой (включая бесплатные решения) и технологиями организации процесса.

В этой статье я бы хотел подробнее остановиться на Nasgrate

Основные преимущества Nasgrate

- в качестве хранилища SQL-запросов используются обычные текстовые файлы без привязки к какому либо языку программирования. Это упрощает процесс взаимодействия между командами, работающими с разными технологиями (например Node и Python), не приходится разбираться в особенностях язковых конструкций

- возможность автоматического создания миграции на основе анализа изменений в двух базах данных (пока поддерживается только MySQL, но в планах другие базы данных) или между двумя состояниями миграций одной базы данных

- наличие визуального интерфейса (а не только консольного клиента) позволяющего организовать просмотр изменений в наглядном виде


Читать: https://habr.com/ru/articles/759096/
Как скачать весь интернет? Становимся датахордерами. Начинаем с SingleFileZ и yt-dlp

У тебя часто было такое, что хочешь посмотреть какой-нибудь старый контент, но не можешь вспомнить где он находится или не можешь его найти? Возможно, автор просто удалил контент или его заставили удалить неугодное.

Со времен появления Интернета уже потеряно более 75% информации, то есть современный интернет представляет собой то ещё дырявое ведро, коллапса спасает эмиссия тиктоков.

На самом деле, большинство потерянного контента представляло интерес в основном только для нетсталкеров. Однако нельзя угадать какая информация станет критически важна ретроспективно.

Во времена цензуры и самоцензуры, а также постоянных кибератак мы начинаем наш путь добычи и защиты чужой информации.
Сохраниться

Читать: https://habr.com/ru/articles/759164/
Зачем устанавливать в компьютер 2 SSD-накопителя и что от этого меняется

Привет, Хабр! Мы продолжаем цикл статей, посвященных сборке игрового ПК. Даже если вы планируете поручить это профессиональным сборщикам как в XCOM-SHOP.RU, есть ряд факторов, о которых лучше всего узнать самостоятельно, чтобы будущая сборка радовала вас как можно дольше.

Сегодня мы поговорим о твердотельных накопителях. Несмотря на то что нередко их выбор оставляют напоследок, при ответственном подходе имеет смысл заранее определиться с тем, какие SSD вы будете использовать в своей сборке и в каком количестве.


Читать: https://habr.com/ru/companies/x-com/articles/759274/
Мониторинг PostgreSQL. Новые возможности анализа производительности 1С и других систем. Часть 2: Трассировка

Продолжаем обсуждать инструменты анализа производительности систем на PostgreSQL.

В прошлой статье я начал рассказывать о расширении SP_TRACE, устанавливаемого на любые сборки PostgreSQL, и являющегося неотъемлемой частью мониторинга PerfExpert.

SP_TRACE предоставляет новые сведения в виде счетчиков и трасс, которых нет в других известных инструментах.


Читать: https://habr.com/ru/companies/softpoint/articles/759286/
S3-FIFO: новый эффективный алгоритм вытеснения из кэша на основе очередей FIFO

Введение

В этой статье я расскажу о простом и масштабируемом (Simple, Scalable) алгоритме вытеснения данных из кэша на основе трёх статических (Static) очередей FIFO (S3-FIFO). После проверки на 6594 трассировках кэшей 14 компаний мы показали, что S3-FIFO имеет меньшую частоту промахов, чем 12 лучших алгоритмов, разработанных в прошлые десятилетия. Более того, эффективность S3-FIFO устойчива — он имеет наименьший средний показатель промахов для 10 из 14 датасетов. Использование очередей FIFO позволяет S3-FIFO достичь хорошей масштабируемости с пропускной способностью в шесть раз больше по сравнению с оптимизированным LRU в cachelib на 16 потоках.

Мы пришли к выводу, что доступ к большинству объектов в смещённых нагрузках кэша выполняется только за короткий промежуток времени, поэтому критически важно быстро вытеснять их из кэша. А главная особенность S3-FIFO — это небольшая очередь FIFO, отфильтровывающая большинство объектов, не давая им попасть в основной кэш.
Иллюстрация работы S3-FIFO (с использованием порогового значения перехода из маленького в основной кэш, равного 1)


Читать: https://habr.com/ru/companies/ruvds/articles/759270/
Как работать эффективно с распределенными таблицами в ClickHouse

Приветствуем!

На связи Глеб Кононенко и Алексей Диков, мы разработчики из Лиги Цифровой Экономики. Год назад на одном большом проекте мы с коллегами начали работать с ClickHouse и сразу столкнулись с кучей проблем и недостатком информации по их преодолению.

ClickHouse — это специфичная, очень быстрая база данных. Особенность заключается в том, как хранятся и обрабатываются данные. Для каждой таблицы указывается Engine, движок, который обрабатывает данные после загрузки в асинхронном режиме. Обработка позволяет удалять дубликаты, сортировать данные, реплицировать и т. д. Более подробно с разными движками можно ознакомиться здесь.

Продукт — с открытым исходным кодом, русскоязычной документацией и возможной поддержкой. Поэтому растущая популярность неудивительна.

Мы набрались опыта, «набив шишки» на практике, и готовы им поделиться — запускаем цикл статей о том, как правильно «готовить» ClickHouse. И начнем с того, как эффективно создавать и использовать распределенные таблицы.

Немного о проекте:


Читать: https://habr.com/ru/companies/digitalleague/articles/759316/
Как работать эффективно с распределенными таблицами в ClickHouse

Приветствуем!

На связи Глеб Кононенко и Алексей Диков, мы разработчики из Лиги Цифровой Экономики. Год назад на одном большом проекте мы с коллегами начали работать с ClickHouse и сразу столкнулись с кучей проблем и недостатком информации по их преодолению.

ClickHouse — это специфичная, очень быстрая база данных. Особенность заключается в том, как хранятся и обрабатываются данные. Для каждой таблицы указывается Engine, движок, который обрабатывает данные после загрузки в асинхронном режиме. Обработка позволяет удалять дубликаты, сортировать данные, реплицировать и т. д. Более подробно с разными движками можно ознакомиться здесь.

Продукт — с открытым исходным кодом, русскоязычной документацией и возможной поддержкой. Поэтому растущая популярность неудивительна.

Мы набрались опыта, «набив шишки» на практике, и готовы им поделиться — запускаем цикл статей о том, как правильно «готовить» ClickHouse. И начнем с того, как эффективно создавать и использовать распределенные таблицы.

Немного о проекте:


Читать: https://habr.com/ru/companies/digitalleague/articles/759316/
Chicago Event Marks General Availability of MongoDB Version 7.0

The text discusses the general availability of MongoDB Version 7.0, which was announced at the MongoDB.local event in Chicago. The new version focuses on scalability and includes features such as Queryable Encryption, optimized query execution logic, new aggregation operators, and cluster-to-cluster sync capabilities. The text also mentions upcoming MongoDB.local events in London and lists the challenges of processing streaming data. Furthermore, it highlights the role of stream processing in addressing these challenges and mentions MongoDB Atlas Stream Processing as a solution. The text then transitions to discussing VISO TRUST, an AI-powered cyber risk intelligence platform that uses MongoDB Atlas for vector search and retrieval. The platform automates vendor due diligence and risk assessment, providing fast and accurate security intelligence. The text concludes with details about VISO TRUST's use of AI/ML techniques, the benefits of using MongoDB, and future plans for the application. This text is about an online search engine that allows users to explore the capabilities of vector embeddings and RAG (Retrieve and Generate). The creators of the search engine are looking forward to seeing what users create and welcome feedback to improve the product in the future. The message is dated September 5, 2023.

Read: https://www.mongodb.com/blog/post/chicago-event-marks-general-availability-mongodb-version-7-0
Руководство по масштабированию MLOps

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.


Читать: https://habr.com/ru/articles/749178/