DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
4 Key Considerations for Unlocking the Power of GenAI



Read: https://www.mongodb.com/blog/post/4-key-considerations-unlocking-power-gen-ai
Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.
Разобраться в алгоритмах маскирования

Читать: https://habr.com/ru/companies/hflabs/articles/769928/
Берегите платье снову, а персональные данные смолоду. Рассуждения и советы по цифровой гигиене

Всем привет! Меня зовут Андрей, я специалист по информационной безопасности в Selectel. За время своей работы я понял, что часто люди используют правила цифровой гигиены в профессиональной деятельности, но совсем забывают про них в обычной жизни. По данным компании RTM Group, за 2021 год в России зарегистрировано более 249 тыс киберпреступлений, связанных с мошенническими схемами, — и это только известные правоохранительным органам инциденты.

Не хотите подкрепить эту статистику? Тогда давайте вспомним, почему важно соблюдать правила цифровой гигиены, и найдем тот самый «баланс» между комфортом и шапочкой из фольги. Подробности под катом!

Читать: https://habr.com/ru/companies/selectel/articles/762212/
Настройка NVMe over TCP — для тех, кому надо подключить больше 1 диска единственной конфигурации из всех примеров в Сети

Технология NVMe через различные фабрики (далее NVMeOF) оформлена в качестве стандарта летом 2016 года, она была встроена в пятую ветку ядра Linux.

Поэтому, когда было решено мигрировать объемные базы данных с легаси-решений на общедоступные платформы, возник вопрос — можно ли применить эту технологию для увеличения дискового пространства для создания зеркал локальных дисков?

Чтобы все зеркала не вышли из строя сразу, принимать такие диски надо бы небольшими группами с нескольких машин из разных стоек. Идея показалась достойной рассмотрения, поэтому создали небольшой стенд.

Меня зовут Алексей Дрожжов, я старший инженер в билайне, и в этом посте расскажу, как мы решали эту задачу.

Задача: подключить много дисков с нескольких серверов


Читать: https://habr.com/ru/companies/beeline_tech/articles/770174/
Retrieval Augmented Generation (RAG): The Open-Book Test for GenAI



Read: https://www.mongodb.com/blog/post/retrieval-augmented-generation-rag-open-book-test-gen-ai
История одной Real-Time-рекомендательной системы: пример построения решения от нуля до реализации

Real-Time-рекомендательные системы — сложный с точки зрения реализации и поддержания продукт. Его разработка требует тщательной проработки архитектуры и этапов, качественной работы с данными и обеспечения возможности масштабирования решения. Причём большинство подобных задач приходится решать уже в процессе, с учётом реалий и возникающих подводных камней.


Читать: https://habr.com/ru/companies/vk/articles/769508/
Цифровой паспорт оборудования промышленного производства

Привет, привет!

Представлюсь: меня зовут Тамара, и я являюсь ведущим инженером по нормативно-справочной информации в компании Bimeister.

Начну с того, что это лишь малая часть той большой истории, которую я хочу вам рассказать.

Будет много вопросов типа «Что это?», «Для чего нужен?» и тд. Ищите ответы на эти вопросы ниже, я вам все объясню)

Чем же занимаемся мы, ребята из отдела разработки НСИ? Давайте попробую вам кратко рассказать:

Промышленные предприятия сталкиваются с проблемой создания единой системы нормативно-справочной информации. Возникают трудности с созданием и внедрением общих правил именования оборудования, систем, материалов, товаров, контрагентов, и пр. Предприятиям необходим единый инструмент и общая методология ведения НСИ.

Нормативно-справочная информация – условно постоянный компонент корпоративной информации, являющийся основой для унификации и нормализации данных, сопровождающих протекающие бизнес-процессы, а также регламентацию деятельности организации.

Качественная база данных оборудования (БДО) является основой для построения системы автоматизации/цифровизации процессов Управления техническим обслуживанием и ремонтами (ТОиР). В процессе эксплуатации системы Управления ТОиР предприятиям постоянно требуется актуализация существующих аналитических справочников, составляющих БДО. Чтобы иметь возможность планировать ремонт или техническое обслуживание (ТО) любой конкретной обслуживаемой единицы оборудования, а также вести учет истории ремонтов и отказов (дефекты, параметры состояния, наработка, отказы), необходимо, чтобы эта единица была описана в информационной системе (паспортизирована).


Читать: https://habr.com/ru/companies/bimeister/articles/770368/
Установка и безопасная настройка Redis

Сегодня мы поговорим о СУБД Redis, рассмотрим процесс установки и настройки. В отличие от реляционных систем управления базами данных, Redis является СУБД класса NoSQL с открытым исходным кодом, работающей  со структурами данных типа «ключ — значение».

Разберемся для начала с тем, что такое NoSQL. Представим, что у нас есть приложение, которому необходимо быстро и без задержек обрабатывать разные по структуре данные, не имеющие определенной структуры. В таком случае использование “классических”, реляционных баз данных будет не самым лучшим решением, так как нам необходимо будет сначала каким-то образом структурировать эти данные, а уже потом с ними работать. При использовании NoSQL мы можем использовать структуру “ключ-значение” и иметь возможность быстро обрабатывать неструктурированные данные. NoSQL используются как для баз данных, так и для реализации кэшей, брокеров сообщений. При этом, NoSQL стала популярным решением из-за простоты разработки, функционала, высокой производительности и возможности горизонтального масштабирования.

Но, вернемся к СУБД Redis. Redis - это хранилище значений ключей в памяти, известное своей гибкостью, производительностью и широкой языковой поддержкой. Данная система ориентирована на достижение максимальной производительности на атомарных операциях (заявляется о приблизительно 100 тыс. SET- и GET-запросов в секунду на Linux-сервере начального уровня). Написана на Си, интерфейсы доступа созданы для большинства основных языков программирования. Далее мы поговорим о том, как установить и безопасно настроить Redis на сервере Ubuntu 22.04.


Читать: https://habr.com/ru/companies/otus/articles/770364/
Fourth Quarterly Update on Oracle Graph (2023)

Oracle Graph Server and Client 23.4 is now available. This release includes a PGQL function to validate the vertices and edges of a graph a PGQL function to aggregate values into a JSON array, the ability to create a new graph from an existing one, and more.

Read: https://blogs.oracle.com/database/post/fourth-quarterly-update-on-oracle-graph-2023
Обзор популярных файловых систем в системах виртуализации. Часть 2: BTRFS

В прошлом материале мы рассказали о типах файловых систем и подробно остановились на системе ZFS. В второй части подробно разберем BTRFS — файловую систему для Unix-подобных ОС.


Читать: https://habr.com/ru/companies/vstack/articles/770662/
Переизобретаем файловую систему: (Open)ZFS

Хранение данных — это всегда боль, у которой может быть больше 50 оттенков: железо, кэш, гарантии, производительность, скорость восстановления при проблемах, удобство и прочее. Как решить большинство из них, при этом получив что-то легко обслуживаемое, да ещё бесплатно? Сегодня поговорим про файловые системы на примере не совсем дефолтной OpenZFS.


Читать: https://habr.com/ru/companies/vk/articles/770300/
Чек-лист: как правильно выбрать поставщика СХД

Выбор надежного поставщика систем хранения данных (СХД) является важным шагом для организации, которая стремится обеспечить успешную работу своих инфраструктурных решений. В мире информационных технологий, где объемы данных растут экспоненциально, а потребности клиентов постоянно меняются, надежный поставщик оборудования играет важную роль в обеспечении стабильного функционирования системы.


Читать: https://habr.com/ru/companies/itglobalcom/articles/770678/
Powering Network Topology Planning and Administration with Oracle Graph

Modeling network topologies as a graph enhances performance and enable many different kinds of applications.

Read: https://blogs.oracle.com/database/post/powering-network-topology-planning-and-administration-with-oracle-graph
NoSQL Protocol and Caching in MariaDB MaxScale

Read: https://mariadb.com/?p=38227
Apono Streamlines Data Access with MongoDB Atlas

The article discusses Apono, a platform that offers centralized access management for organizations struggling with data access. Apono provides cloud-based access management and allows organizations to manage access to individual databases or collections. It offers a simplified user experience and supports various methods of interaction. Apono also enables access reviews and simplifies access management for multi-cloud environments. The article also introduces the concept of retrieval-augmented generation (RAG), which combines information retrieval and text generation to enhance the capabilities of generative AI models. Databases play a crucial role in RAG by providing relevant data to augment prompts. The article highlights the importance of queryability, flexible data models, integrated vector search, and scalability as key considerations for databases in GenAI applications. MongoDB Atlas is presented as an ideal database solution for GenAI, offering powerful capabilities and support for multi-modal data. The article concludes by emphasizing the potential of GenAI and the impact it can have on various industries. Retrieval-augmented generation (RAG) enhances the quality of text generation by incorporating relevant real-world knowledge. It is particularly useful when AI models need to access information that was not included in their training data, making it valuable for tasks that require factual accuracy. Unlike fine-tuning, which involves customizing AI models with new data but is time-consuming and not suitable for time-sensitive and personal information, RAG provides a more efficient and effective approach. By utilizing RAG with proprietary data, organizations can provide reliable and accurate AI-generated output, giving them a competitive advantage. The Atlas platform helps integrate and operationalize generative AI and language model (LLM) data, and organizations interested in leveraging generative AI can reach out to them for assistance with their digital transformation.

Read: https://www.mongodb.com/blog/post/apono-streamlines-data-access-mongodb-atlas
AntDB: Answer to Database Evolution - Hyperconverged All-in-One Streaming Engine

In the overall architecture, a new "hyper-convergence" concept was proposed, which integrated multiple engines and capabilities to meet the increasingly complex mixed load scenarios and business needs of mixed data type for enterprises.

At the mean time, to support subscribers’ increasingly demanding requirements, through the cloud-native "streaming processing engine", streaming computing and database are integrated and innovated from the kernel level, meeting the needs of real-time business analysis, real-time reporting and other types of asynchronous transaction scenarios such as Internet+.

Read: https://db-engines.com/en/blog_post/105
Производительность блочного хранилища на основе софт рейдов (mdadm, LVM и ZFS) при использовании iSER и NVMe-oF

Смысл данной статьи показать максимальную производительность, когда вопрос сохранности данных решается репликами или бэкапами.

Цель - протестировать производительность трёх систем объединения физических устройств в одно логическое систем при использовании iSER и NVMe-oF.

И сравниваться будет три системы, которые показали самые высокие показатели по результатам тестов из первой части статьи.


Читать: https://habr.com/ru/articles/763040/
Картина ясная: как мы визуализируем метрики Platform V DataGrid в Grafana

Привет, Хабр! Меня зовут Илья Степанов, я работаю в СберТехе в команде продукта Platform V DataGrid — распределённой базы данных, основанной на Apache Ignite и доработанной до enterprise-уровня надёжности и безопасности. В статье расскажу, как мы обеспечиваем промышленный мониторинг критических систем и визуализируем метрики наших кластеров.

Периодически к нам обращаются пользователи и клиенты с вопросом: «Как лучше визуализировать то или иное состояние кластера?» В нашем продукте есть несколько способов получения метрик из кластера. В том числе «классические» для Java-приложений: можно прочитать метрики через JMX, экспортировать в формате Prometheus, сбрасывать в log-файл, получать в результате SQL-запроса или через вызов управляющего скрипта. То есть, с метриками может работать практически любая система мониторинга.


Читать: https://habr.com/ru/companies/sberbank/articles/759014/
Vector databases

We have added Vector DBMSs as a new DBMS category.

Read: https://db-engines.com/en/blog_post/104
Samsung SDS Cuts Database Costs in Half by Moving from Oracle to MariaDB

Read: https://mariadb.com/?p=37695
Noticias de MongoDB.local NYC: herramienta de migración revolucionaria ya disponible



Read: https://www.mongodb.com/blog/post/news-from-mongodb-local-nyc-game-changing-migration-tool-now-available-es