DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.08K photos
3 videos
5.32K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Векторный поиск в Elasticsearch: dense_vector, HNSW и фильтрация по атрибутам

Привет, Хабр!

В современном поиске всё чаще используется поиск «по смыслу» с помощью векторных эмбеддингов. Вместо привычного анализа текста по словам мы представляем документы и запросы в виде многомерных векторов и ищем ближайших соседей по евклидовому или косинусному расстоянию. Это позволяет, например, находить документы, схожие по смыслу, а не только по точному совпадению слов. В Elasticsearch поддержка такого поиска реализована через поле dense_vector и алгоритм HNSW (Hierarchical Navigable Small World) для быстрого приближённого поиска ближайших соседей.

В этой статье разберём, как настроить индекс с векторным полем, добавить документы с векторами и выполнять запросы kNN с возможностью фильтрации по дополнительным атрибутам.


Читать: https://habr.com/ru/companies/otus/articles/946162/

#ru

@database_design | Другие наши каналы
Очередной бенчмарк VictoriaMetrics против Prometheus

Дело в том, что в какой-то момент, выбирая между Викторией и Прометеусом, я прочитал несколько статей на Хабре. В них речь шла о плюсах Виктории — о том, что она лучше сжимает и хранит данные. Тогда я поверил, однако во время эксплуатации у меня возник ряд вопросов, и я решил провести собственное исследование.


Читать: https://habr.com/ru/companies/cinimex/articles/943772/

#ru

@database_design | Другие наши каналы
Очередной бенчмарк VictoriaMetrics против Prometheus

Дело в том, что в какой-то момент, выбирая между Викторией и Прометеусом, я прочитал несколько статей на Хабре. В них речь шла о плюсах Виктории — о том, что она лучше сжимает и хранит данные. Тогда я поверил, однако во время эксплуатации у меня возник ряд вопросов, и я решил провести собственное исследование.


Читать: https://habr.com/ru/companies/cinimex/articles/943772/

#ru

@database_design | Другие наши каналы
Postgres Pro TDE — security and performance

TDE comes in many flavors — from encryption at the TAM level to full-cluster encryption and tablespace markers. We take a close look at Percona, Cybertec/EDB, Pangolin/Fujitsu, and show where you lose performance and reliability, and where you gain flexibility.

On top of that, Vasily Bernstein, Deputy head of product development, and Vladimir Abramov, senior security engineer, will share how Postgres Pro Enterprise implements key rotation without rewriting entire tables — and why AES-GCM was the clear choice.


Читать: https://habr.com/ru/companies/postgrespro/articles/943590/

#ru

@database_design | Другие наши каналы
Защита чувствительных данных становится приоритетом для компаний. Технология Data Redaction позволяет скрывать персональную и финансовую информацию в результатах запросов без изменения исходных данных и необходимости менять приложения. Узнайте, как это работает.

Читать подробнее

#en

@database_design | Другие наши каналы
Как MongoDB и LTIMindtree ускоряют внедрение AI в бизнесе
Платформа BlueVerse Foundry на базе MongoDB Atlas помогает компаниям быстро масштабировать AI-решения без кода, обеспечивая гибкость, безопасность и производительность. Ген AI перестает быть экспериментом и становится реальным инструментом для роста. MongoDB Atlas и Stagehand: новая эра автоматизации и ИИ
Традиционные инструменты автоматизации часто ломаются при изменениях сайтов. Stagehand с использованием ИИ и MongoDB Atlas позволяют надежно собирать данные и быстро запускать проекты, облегчая создание масштабируемых AI-приложений.

Читать подробнее

#en

@database_design | Другие наши каналы
Новые идеи для эффективного моделирования данных в MongoDB. В статье рассказывают про три ключевых подхода: контроль схемы с версиифкацией, использование агрегационных конвейеров и паттерн единой коллекции. Эти методы помогают строить быстрые и масштабируемые приложения. Новая эра AI: как MongoDB и LTIMindtree ускоряют внедрение

Партнёрство LTIMindtree и MongoDB создало платформу BlueVerse Foundry — no-code решение для быстрого масштабирования AI в бизнесе. Гибкая база данных и готовые инструменты помогают уйти от затяжных экспериментов к реальным результатам.

Читать подробнее

#en

@database_design | Другие наши каналы
Облачные вычисления в 2025 году: рост ИИ приводит к революции на рынке объемом $723 млрд

Перевод статьи Патрика Косса о том, как ИИ, edge-компьютинг, serverless и мультиоблачные стратегии меняют облачную инфраструктуру. Автор подчеркивает, что речь идет не о постепенной эволюции, а о настоящей трансформации, которая уже влияет на стратегию крупнейших компаний и задаёт новые правила игры.

Индустрия облачных вычислений переживает свой самый трансформационный период: интеграция искусственного интеллекта стимулирует беспрецедентный рост и меняет то, как компании подходят к цифровой инфраструктуре.

Новые данные показывают, что глобальные расходы на публичные облачные сервисы достигнут $723,4 млрд в 2025 году, что составляет рост на 21% по сравнению с $595,7 млрд в 2024 году.

Этот всплеск связан с тем, что всё больше организаций обращаются к облачным сервисам с поддержкой ИИ: уже 72% компаний используют платформы генеративного ИИ, и эта тенденция кардинально меняет распределение ресурсов и стратегические приоритеты в разных отраслях.


Читать: https://habr.com/ru/companies/hstx/articles/947190/

#ru

@database_design | Другие наши каналы
Логирование (аудит) соединений в PostgreSQL

В статье рассматривается логирование соединений с базами данных кластера PostgreSQL. Системы мониторинга создают сессии для сбора метрик и проверки доступности экземпляра. Это создаёт большое число записей в диагностическом журнале кластера, затрудняя его анализ. Администраторы ищут возможность отключения логирования для сессий мониторинга. Такая возможность есть только у параметра log_disconnections. Приводится пример, как с его помощью отключить логирование при создании сессии. Также рассматриваются особенности использования расширений pgaudit и pgaudittofile, которые позволяют выводить логирование соединений в отдельный файл аудита.


Читать: https://habr.com/ru/companies/tantor/articles/946916/

#ru

@database_design | Другие наши каналы
Проактивное обслуживание для OceanStor Dorado: решаем проблему старения системных SSD

Привет! Я руковожу группой технической поддержки и сопровождения в компании «Онланта». Наша команда заметила, что в процессе эксплуатации All-Flash систем хранения данных OceanStor Dorado 5000 V6 примерно после двух и более лет в работе начинают проявляться дефекты, которые потенциально могут повлиять на доступность данных и работу СХД в целом.

Одна из таких проблем – встроенные M2 SATA SSD накопители. Они используются и как системные, храня на себе ОС контроллера, и как конфигурационные базы данных, и как Coffer – диски, куда сбрасывается Write-cache при аварийном отключении системы, пока BBU (модуль резервного питания) обеспечивает работу оборудования.

В этой статье - рассказ о том, как мы анализировали, решали и предотвращали подобные неприятности.


Читать: https://habr.com/ru/companies/lanit/articles/945062/

#ru

@database_design | Другие наши каналы
Из режима выживания к управляемой системе: трансформация ИБ в банке

Предисловие

Семь специалистов, семь Excel-таблиц, и десятки требований регуляторов, которые обновляются со скоростью света.Каждая проверка — это гонка с дедлайном, хаос в переписках и отчаяние в глазах команды. Дошло до того, что отпуск одного сотрудника мог парализовать работу всей службы ИБ. Перемены не приходят в одночасье, обычно осознание того, что нужно что-то менять приходит слишком поздно - а именно, после первого серьезного инцидента, когда урон уже нанесен.

Когда мы думаем об информационной безопасности в банках, чаще всего представляется гигантская организация с отдельным ситуационным центром, огромным штатом SOC-аналитиков, миллионами в бюджете, заложенными на киберзащиту и командой проектных менеджеров, которые годами тестируют и внедряют системы и подходы. Но реальность не всегда является такой.

Сотни небольших банков в России и странах СНГ работают в совершенно иных условиях: команда ИБ — это несколько специалистов, бюджет — строго ограничен, а требования регуляторов — те же самые, что и для топ-10 игроков рынка.

Наш кейс — про один такой небольшой банк в России. Всего семь сотрудников в службе ИБ. И при этом — ГОСТ 57580, методические рекомендации 3/8/12, 72 форма отчетности и десятки других обязательных требований, которым нужно соответствовать.


Читать: https://habr.com/ru/companies/securitm/articles/946452/

#ru

@database_design | Другие наши каналы
GPU, диски, серверы — что еще анонсировали вендоры в августе. Железный дайджест Selectel

Надела осень свой наряд, а у нас железный дайджест за прошлый месяц. Какие новинки серверного железа вышли на рынке расскажу я, Сергей Ковалёв, менеджер выделенных серверов в Selectel. Подробности в дайджесте, приятного чтения.


Читать: https://habr.com/ru/companies/selectel/articles/946940/

#ru

@database_design | Другие наши каналы
7 SQL-запросов, которые решают 90% всех задач на работе

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.


Читать: https://habr.com/ru/companies/timeweb/articles/943298/

#ru

@database_design | Другие наши каналы
MongoDB AMP ускоряет модернизацию устаревших приложений с помощью агентного ИИ. Новый инструмент позволяет преобразовывать сложный код в современные масштабируемые сервисы в 2-3 раза быстрее, снижая риски и повышая эффективность цифровой трансформации. Как повысить производительность MongoDB? В статье объясняют важность правильного моделирования данных, включая проверку схем, использование агрегационных пайплайнов и паттерн Single Collection. Эти подходы помогают создавать быстрые и масштабируемые приложения без потери гибкости. Бесплатный часовой курс по оптимизации схемы MongoDB

В статье рассказывается о бесплатном часовом курсе по оптимизации схемы данных в MongoDB. Также предлагается начать работу с MongoDB Atlas бесплатно и развивать навыки через образовательный центр MongoDB Atlas Learning Hub.

Читать подробнее

#en

@database_design | Другие наши каналы
MariaDB Enterprise Kubernetes Operator упрощает развертывание и управление базами данных MariaDB в Kubernetes. В статье подробно показан процесс установки оператора на Ubuntu VM, что удобно для тестирования перед продакшеном. подключайтесь к новым возможностям MariaDB.

Читать подробнее

#en

@database_design | Другие наши каналы
Тыкаю палкой XWiki что лежат в сети

В этой статье вы увидите вики, открытые для сети (намеренно или нет неважно). Заглянем в чужие вики, чтобы посмотреть как они устроены, какие у них есть фишки, и как люди упорядочивают информацию
Погружаемся

Читать: https://habr.com/ru/articles/947566/

#ru

@database_design | Другие наши каналы
Китайский интернет куда-то исчезает

Когда я писал статью про китайских шагающих роботов, переносящих целый квартал, то обратил внимание на то, как сложно искать информацию по китайским компаниям. Понятно, что для внешних поисковых систем ссылки на китайские источники крайне ограничены, но внутренний поиск по тому же Baidu также выглядит скупым и как будто цензурированным. Позже мне попалась статья о массовом исчезновении китайских ссылок периода 1998-2005 года, что только укрепило желание покопаться в этом феномене поподробнее.

Итак, предыстория: китайский блоггер Хэ Цзяянь решил написать статью, посвященную Джеку Ма - опальному основателю Алибаба и Алипэй. Он задал временные рамки 1998-2005 годов и получил ровно один результат, и то отнесенный к этому периоду ошибочно. Изумленный (давайте использовать это слово) Хэ лезет в Google и получает чуть больше результатов, но все равно их катастрофически мало (важное уточнение: поиск идет по иероглифам 马云, тогда как английское написание дает кратно большую выдачу). Хэ Цзяянь пишет об этом целое эссе, которое исчезает через 20 часов.
Последуем за китайскими лангольерами?

Читать: https://habr.com/ru/companies/beget/articles/945228/

#ru

@database_design | Другие наши каналы
Почему плохой бэкап — это фатально и как это предовтратить?

Сделать бэкап легко. Вспомнить, где он, когда всё рухнуло — уже сложнее. А понять, что он битый, — это вообще отдельный вид боли. Разбираемся, почему «у нас же всё сохранено» — это не стратегия, а иллюзия, и как облако может всё упростить.


Читать: https://habr.com/ru/companies/timeweb/articles/947334/

#ru

@database_design | Другие наши каналы
Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/921246/

#ru

@database_design | Другие наши каналы
Подключаем Claude по MCP к базе данных на домашнем компьютере

Про протокол MCP (Model Context Protocol) сейчас говорят всё чаще. Этот протокол позволяет нейросетям общаться с внешним миром. С его помощью к LLM можно подключать любые источники данных или системы управления, и всё это через один универсальный стандарт. MCP часто сравнивают с USB - устройство одно, протокол один, а число сценариев применения практически бесконечно.

В статье расскажу про практический сценарий "как связать LLM и базу данных". Это может сделать любой на своём компьютере.

Протокол MCP придумали ребята из Anthropic. Далее будем использовать нейросети Claudе Sonnet и Claude Opus - это LLM от Anthropic.

Зачем это нужно? Такая связка позволит промтами вытаскивать инсайты из данных, создавать отчёты в PDF и строить интерактивные отчёты в HTML. Это работает на моём компьютере последние два месяца и результаты очень обнадёживающие.

Чтобы было интереснее, в качестве данных возьмём все вакансии Habr Career c описаниями.


Читать: https://habr.com/ru/articles/947818/

#ru

@database_design | Другие наши каналы
История создания Tarantool DB: реальные проблемы, удачные решения и превращение проекта в продукт

Два года назад все началось с первого коммита и туманного понимания, что мы вообще хотим сделать. Сегодня — два мажорных релиза, собственный модуль миграций, документация, тренинги и пользователи, которые безболезненно перешли на новую версию по нашим инструкциям. Но путь от «кучи кода для внутреннего использования» до полноценной коробочной In-memory-базы оказался совсем не прямым.

Меня зовут Александр Кленов, я тимлид разработки Tarantool DB в команде Tarantool. Я расскажу историю о том, как мы брали зрелый, но очень гибкий Tarantool Enterprise и превращали его в решение, которое можно установить из коробки.


Читать: https://habr.com/ru/companies/vktech/articles/947714/

#ru

@database_design | Другие наши каналы