DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.08K photos
3 videos
5.32K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Многофакторное сравнение пяти популярных вычислительных движков для больших данных

Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.

Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»

#ru

@database_design | Другие наши каналы
Многофакторное сравнение пяти популярных вычислительных движков для больших данных

Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.

Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»

#ru

@database_design | Другие наши каналы
64-битный счётчик транзакций в PostgreSQL

На конференции PgBootcamp 2025 был доклад Евгения Воропаева "Разработка и отладка 64-битного счётчика транзакций". В докладе рассматривались проблемы, которые встретились при переносе патча, который добавляет поддержку 64-битного счетчика, с 16 на 18 версию PostgreSQL. В статье описывается история создания патча и почему он есть только в коммерческих форках.

В PostgreSQL используется 32-битные идентификаторы транзакций. У каждой версии строки в блоке таблицы есть идентификатор транзакции, которая создала эту версию. Если номер транзакции, меняющей строку, будет отстоять от номера транзакции, которая создала строку больше, чем на 2 миллиарда, то нельзя определить сравнив номера, какая из транзакций старше. Чтобы такого не произошло, в PostgreSQL есть функционал "заморозки" версий строк в блоках таблиц.


Читать: https://habr.com/ru/companies/tantor/articles/937992/

#ru

@database_design | Другие наши каналы
Гонка за дата-центры: новая энергетика цифрового мира

Ещё лет десять назад мало кого интересовали дата-центры — они воспринимались скорее как техническая «кухня» цифровой экосистемы. Но ситуация в корне изменилась. ЦОДы стали горячей темой для всей мировой экономики. Они влияют на IT-ландшафт, сырьевой рынок, энергетику и даже на геополитику. Подробнее об этом читайте далее.


Читать: https://habr.com/ru/companies/cloud4y/articles/939102/

#ru

@database_design | Другие наши каналы
На что способны новые SSD с PCIe 6.0 и когда они появятся на десктопах

Рынок SSD-накопителей прямо сейчас переживает непростое время. С одной стороны, далеко не все еще поняли, есть ли смысл переходить с PCIe 4.0 на PCIe 5.0. А с другой, производители уже демонстрируют твердотельники следующего поколения с еще более высокой пропускной способностью. Получается парадокс: технология развивается быстрее, чем у массового потребителя появляется реальная потребность в ней. Но это не значит, что PCIe 6.0 не нужна никому. Напротив, очень даже нужна.


Читать: https://habr.com/ru/companies/x-com/articles/939324/

#ru

@database_design | Другие наши каналы
Новый бенчмарк MongoDB Atlas Vector Search показывает, как улучшить поиск по векторным данным с оптимальной точностью, скоростью и затратами. Интеграция с LangGraph добавляет ИИ-агентам долгосрочную память, повышая их адаптивность и эффективность.

Читать подробнее

#en

@database_design | Другие наши каналы
Shardman. Краткое пособие архитектора

Миф о волшебном параметре fast=true жив и здоров, но в распределённых СУБД появляется ещё один — distributed=true. Ни тот, ни другой не спасут, если не пересобрать схему, ключи шардирования, последовательности, запросы и процесс миграции. Мы трезво проходим по всем углам: от выбора ключей и colocated-таблиц до CDC, топологий и ограничений внешних ключей; показываем, где действительно ускорится, а где станет дороже — и что с этим делать.


Читать: https://habr.com/ru/companies/postgrespro/articles/939396/

#ru

@database_design | Другие наши каналы
Не лает, не кусает, в 1С не пускает. Что поможет спасти ваши базы 1С от критической уязвимости BDU:2025-07182

17.06.2025 г. ФСТЭК России зафиксирована критическая уязвимость в платформе 1С:Предприятие 8 под номером BDU-2025-07182. Этот дефект позволяет злоумышленникам, действующим удаленно, получить несанкционированный доступ к системе от имени произвольного пользователя, что создает серьезные риски для компаний, использующих решения 1С в своих бизнес-процессах.

Что грозит в связи с этим малому и среднему бизнесу? И как защититься? Подробно рассказываю далее.


Читать: https://habr.com/ru/articles/939488/

#ru

@database_design | Другие наши каналы
Новая эпоха ИИ требует инноваций в работе с данными. В статье рассказано о возможностях MongoDB Atlas: объединённые хранилища, долговременная память ИИ-агентов и эффективный векторный поиск на примере Amazon Reviews. Узнайте подробнее!

Читать подробнее

#en

@database_design | Другие наши каналы
От реляционных СУБД к экосистеме Hadoop

Привет, хабр!

Недавно я понял, что не знаю, что такое Hadoop.

(На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop)

Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop.

В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют.


Читать: https://habr.com/ru/articles/939520/

#ru

@database_design | Другие наши каналы
Обновление MariaDB Connector/C 3.4.7 и 3.3.17 уже доступно для загрузки. В новых версиях исправлены ошибки и улучшена совместимость. Подробности в официальных заметках к релизу на сайте MariaDB.

Читать подробнее

#en

@database_design | Другие наши каналы
Как выстроить процессы управления документацией в компании на примере АХО

В организациях зачастую можно наблюдать картину, когда разные отделы используют разные системы создания и ведения документации. Это ведет к нескольким проблемам:

— Отсутствие контроля структуры и содержания документа.

— Проблема совместимости файлов и форматов.

— Отсутствие единого хранилища и версионированию.

— Замедление согласования из‑за отсутствия интеграции с системами электронного — документооборота.

— Дублирование документов.

— Сложность с отчетностью и аудиторскими проверками — документы, в т.ч. архивные, не хранятся централизованно.

— Дополнительные затраты для обучения персонала и поддержке нескольких систем.

Как можно решить всю совокупность этих проблем? Лучшим вариантом является гибкая система документооборота с возможностью согласования документов прямо в системе, единым хранилищем документов (в том числе архивных) и возможностью отслеживания версий документов, которая может быть использована во всех отделах компании, чтобы не увеличивать количество используемых инструментов и затраты на поддержку систем в компании. И на рынке есть система, удовлетворяющая всем этим запросам — это Сфера.Документы.

Рассмотрим конкретный бизнес‑сценарий, когда административно‑хозяйственному отделу (АХО) нужно закупить мелкое оборудование для ремонта офиса.


Читать: https://habr.com/ru/companies/T1Holding/articles/936044/

#ru

@database_design | Другие наши каналы
Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics

В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов.

Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей.

Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения.

Как появилась задача

Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе.

Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы.

Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды.


Читать: https://habr.com/ru/companies/sportmaster_lab/articles/939296/

#ru

@database_design | Другие наши каналы
Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics

В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов.

Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей.

Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения.

Как появилась задача

Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе.

Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы.

Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды.


Читать: https://habr.com/ru/companies/sportmaster_lab/articles/939296/

#ru

@database_design | Другие наши каналы
Как работать с OpenSearch: обзор полнотекстового поиска и пример использования

В этой статье мы подробно рассмотрим все ключевые параметры OpenSearch, включая дашборды, документы, индексы, узлы, кластеры, шардирование, инвертированные индексы и сам процесс индексации. Понимание этих аспектов позволит максимально эффективно использовать OpenSearch для решения задач поиска и анализа данных в любых проектах.

Привет, Хабр! Меня зовут Евгений Ляшенко, я старший разработчик IBS. В эпоху, когда объемы данных растут с каждым днем, эффективный поиск информации становится критически важным для бизнеса и разработчиков. OpenSearch как мощный инструмент для полнотекстового поиска и аналитики предлагает гибкие решения для работы с большими массивами данных. Чтобы наглядно продемонстрировать его работу, я создал pet-проект с поиском по библиотеке книг и фильмов. Но сначала немного теории.


Читать: https://habr.com/ru/companies/ibs/articles/939780/

#ru

@database_design | Другие наши каналы
Алгоритм как писатель: можно ли написать рассказ на чистом SQL?

Обычно SQL используют ради отчётов, аналитики и унылого «выгрузить за вчера». Но у языка запросов есть и другая, неожиданная сторона: если относиться к нему как к инструменту для сочинительства, можно попробовать написать рассказ. Сюжет, герои, диалоги — всё это вполне собирается на голом SQL. В статье я делюсь экспериментом, который начался ради шутки, а закончился странным ощущением, что база данных умеет рассказывать истории.

SQL я впервые выучил не ради красоты — нужен был для работы. Тогда казалось: язык скучный, служебный, без «души». SELECT, WHERE, JOIN… будто молоток или отвёртка. Но однажды, копаясь в старой демо-базе, я обратил внимание на то, что данные сами по себе напоминали короткие предложения. И пришла мысль: а что, если воспринимать таблицу не как набор строк, а как страницу романа?

Сначала это выглядело как дурацкая затея, но чем дальше я шёл, тем больше SQL переставал быть «сухим инструментом» и начинал вести себя как настоящий рассказчик.


Читать: https://habr.com/ru/articles/939882/

#ru

@database_design | Другие наши каналы
Сравнительный анализ баз данных для хранения миллиардов записей логов

В современную эпоху больших данных выбор оптимальной системы управления базами данных для работы с миллиардами записей становится критически важным. В данной статье проводится детальный анализ четырех популярных СУБД (MySQL, PostgreSQL, Redis и ClickHouse) с точки зрения их эффективности при работе с большими объемами данных журналирования, с постоянной записью новых данных и необходимостью выполнения сложных поисковых запросов через веб-интерфейс.


Читать: https://habr.com/ru/articles/939912/

#ru

@database_design | Другие наши каналы
Карта размером с SIM, а скорость как у NVMe — что такое Mini SSD

Гаджеты становятся всё меньше, а вот требования к памяти только растут. Смартфоны, консоли, ноутбуки, дроны и даже AR-гарнитуры нуждаются в хранилищах, которые одновременно компактные и быстрые. Китайская компания Biwin представила новый формат — Mini SSD. Он чуть больше microSD-карты, но по скорости близок к настольным NVMe-дискам. Идея быстро привлекла внимание: быстрый накопитель в формате, похожем на SIM-карту, звучит как настоящий прорыв. Попробуем разобраться, что это за технология, как она устроена и есть ли у неё шанс стать новым стандартом.


Читать: https://habr.com/ru/companies/selectel/articles/939910/

#ru

@database_design | Другие наши каналы
Развёртывание боевого кластера Cassandra. Часть 3

Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой и второй частях мы продвинулись вперед вот по такому плану:

1. Анализ рабочей нагрузки и требований
2.Разработка схемы данных
3. Настройка хостовых машин
4. Настройка конфигурации Cassandra
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
5. Настройка топологии кластера
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

Двинемся дальше?


Читать: https://habr.com/ru/articles/940268/

#ru

@database_design | Другие наши каналы
Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает

PostgreSQL известна как надежная и универсальная СУБД. Но если нужно хранить координаты, строить маршруты или анализировать границы районов, ее базовых возможностей уже не хватает. Здесь на помощь приходит PostGIS. Под катом разберемся, что умеет расширение и как его использовать.


Читать: https://habr.com/ru/companies/selectel/articles/939804/

#ru

@database_design | Другие наши каналы
Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает

PostgreSQL известна как надежная и универсальная СУБД. Но если нужно хранить координаты, строить маршруты или анализировать границы районов, ее базовых возможностей уже не хватает. Здесь на помощь приходит PostGIS. Под катом разберемся, что умеет расширение и как его использовать.


Читать: https://habr.com/ru/companies/selectel/articles/939804/

#ru

@database_design | Другие наши каналы