Как я распилил 1,1 ТБ default-партиции и не уронил прод
Мы забыли вовремя создать партиции, и все новые данные полетели в
Default-партиция — это не озеро Байкал. Если туда всё сливать, экосистема потом мстит.
44 секунды блокировки: план операции
Читать: https://habr.com/ru/articles/977528/
#ru
@database_design | Другие наши каналы
Мы забыли вовремя создать партиции, и все новые данные полетели в
events_default_partition. Default дорос до ~1.1 ТБ, а простое «ATTACH PARTITION» требовало часов сканирования и долгой блокировки. В статье — почему «быстрые» рецепты оказываются медленными, как я перенёс данные в нужные диапазоны, и как мы уложили критическую блокировку в 44 с.Default-партиция — это не озеро Байкал. Если туда всё сливать, экосистема потом мстит.
44 секунды блокировки: план операции
Читать: https://habr.com/ru/articles/977528/
#ru
@database_design | Другие наши каналы
Что делать, если нужно одно решение, чтобы править всеми СХД? Выбираем CSI-драйвер: от вендора или универсальный
Команда Deckhouse Storage рассказала о поддерживаемых в наших платформах CSI с использованием реализаций от вендора (для платформ Huawei, HPE, NetApp и Yadro), а также о собственном универсальном CSI-драйвере csi-scsi-generic, который поддерживает интеграцию с любыми системами хранения данных.
Читать: https://habr.com/ru/companies/flant/articles/967318/
#ru
@database_design | Другие наши каналы
Команда Deckhouse Storage рассказала о поддерживаемых в наших платформах CSI с использованием реализаций от вендора (для платформ Huawei, HPE, NetApp и Yadro), а также о собственном универсальном CSI-драйвере csi-scsi-generic, который поддерживает интеграцию с любыми системами хранения данных.
Читать: https://habr.com/ru/companies/flant/articles/967318/
#ru
@database_design | Другие наши каналы
Большой разворот: как изменился стек технологий в российском IT после 2022 года
Если оглянуться на последние три года в российской IT-индустрии, становится ясно: мы пережили полноценную трансформацию. Процесс, который в обычных условиях занял бы лет пять-семь, сжался в 2-3 раза. Для многих это был болезненный, но продуктивный стресс-тест для всей экосистемы.
В этой статье я постараюсь глубже раскрыть тему, не буду останавливаться на банальных «было-стало». Сразу хочу попросить написать в комментариях: с какими трудностями вы столкнулись? Что было сложнее всего? Что далось проще? Какие неожиданные проблемы выскакивали и как вы с ними боролись? Думаю всем будет интересно почитать о вашем опыте.
И так, начнём!
Читать: https://habr.com/ru/companies/timeweb/articles/971778/
#ru
@database_design | Другие наши каналы
Если оглянуться на последние три года в российской IT-индустрии, становится ясно: мы пережили полноценную трансформацию. Процесс, который в обычных условиях занял бы лет пять-семь, сжался в 2-3 раза. Для многих это был болезненный, но продуктивный стресс-тест для всей экосистемы.
В этой статье я постараюсь глубже раскрыть тему, не буду останавливаться на банальных «было-стало». Сразу хочу попросить написать в комментариях: с какими трудностями вы столкнулись? Что было сложнее всего? Что далось проще? Какие неожиданные проблемы выскакивали и как вы с ними боролись? Думаю всем будет интересно почитать о вашем опыте.
И так, начнём!
Читать: https://habr.com/ru/companies/timeweb/articles/971778/
#ru
@database_design | Другие наши каналы
MariaDB Connector/J 3.5.7 и 2.7.13 — новые релизы
MariaDB выпустила Connector/J 3.5.7 и 2.7.13: в 3.5.7 добавлена поддержка TLS SNI и исключение MariaDbDataTruncation, исправлены разные баги. Подробности в release notes и на сайте MariaDB.
Читать подробнее
#en
@database_design | Другие наши каналы
MariaDB выпустила Connector/J 3.5.7 и 2.7.13: в 3.5.7 добавлена поддержка TLS SNI и исключение MariaDbDataTruncation, исправлены разные баги. Подробности в release notes и на сайте MariaDB.
Читать подробнее
#en
@database_design | Другие наши каналы
Запись на проволоку или… как собрать Бумажный Жёсткий Диск?
Если попробовать выбрать наиболее технологичный и, в то же время, интересный, а также существенно повлиявший на историю цивилизации способ сохранения информации, то, среди таковых, несомненно, особняком будет стоять магнитная запись на проволоку!
Появившись достаточно давно, она положила начало целым направлениям в науке и технике и, любопытным следствиям из этого, которые сулят интересные перспективы!
Читать: https://habr.com/ru/companies/beget/articles/976388/
#ru
@database_design | Другие наши каналы
Если попробовать выбрать наиболее технологичный и, в то же время, интересный, а также существенно повлиявший на историю цивилизации способ сохранения информации, то, среди таковых, несомненно, особняком будет стоять магнитная запись на проволоку!
Появившись достаточно давно, она положила начало целым направлениям в науке и технике и, любопытным следствиям из этого, которые сулят интересные перспективы!
Читать: https://habr.com/ru/companies/beget/articles/976388/
#ru
@database_design | Другие наши каналы
Как перенести свои данные в Digital Q.DataBase из других СУБД
Привет, Хабр!
В предыдущей статье мы рассказали, как установить Digital Q.DataBase на Astra Linux 1.8 и начать работу с этой российской СУБД, которая поддерживает нативную работу с диалектами MS SQL, PostgreSQL и Oracle. Сегодня мы поговорим о том, как перенести уже существующие данные в Digital Q.DataBase из других систем управления базами данных.
Эта задача актуальна для организаций, которые теперь обязаны по закону использовать отечественное ПО, но не могут позволить себе полную переработку приложений (в части «Приложение — новая СУБД»). Мастер переноса БД создан для решения этой проблемы — он позволяет мигрировать базы данных вообще без переписывания кода приложений в отличие от любых других миграторов-конверторов.
Читать: https://habr.com/ru/companies/diasoft_company/articles/978158/
#ru
@database_design | Другие наши каналы
Привет, Хабр!
В предыдущей статье мы рассказали, как установить Digital Q.DataBase на Astra Linux 1.8 и начать работу с этой российской СУБД, которая поддерживает нативную работу с диалектами MS SQL, PostgreSQL и Oracle. Сегодня мы поговорим о том, как перенести уже существующие данные в Digital Q.DataBase из других систем управления базами данных.
Эта задача актуальна для организаций, которые теперь обязаны по закону использовать отечественное ПО, но не могут позволить себе полную переработку приложений (в части «Приложение — новая СУБД»). Мастер переноса БД создан для решения этой проблемы — он позволяет мигрировать базы данных вообще без переписывания кода приложений в отличие от любых других миграторов-конверторов.
Читать: https://habr.com/ru/companies/diasoft_company/articles/978158/
#ru
@database_design | Другие наши каналы
Кастомные свойства объектов БД PostgreSQL без патчей в ядро
В статье речь пойдёт о методике разработки в Postgres, которую можно использовать для лучшей интеграции вашего расширения с базой данных. А конкретно - о том, как реализовать кастомные свойства объектов БД (или custom reloptions), которые можно было бы назначать разным типам объектов БД и таким образом управлять поведением расширения.
Читать: https://habr.com/ru/companies/tantor/articles/976508/
#ru
@database_design | Другие наши каналы
В статье речь пойдёт о методике разработки в Postgres, которую можно использовать для лучшей интеграции вашего расширения с базой данных. А конкретно - о том, как реализовать кастомные свойства объектов БД (или custom reloptions), которые можно было бы назначать разным типам объектов БД и таким образом управлять поведением расширения.
Читать: https://habr.com/ru/companies/tantor/articles/976508/
#ru
@database_design | Другие наши каналы
Ключи в базах данных: больше чем просто идентификатор
Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.
Читать: https://habr.com/ru/articles/978212/
#ru
@database_design | Другие наши каналы
Начиная с первых курсов университета, первой ассоциацией у студентов ИТ специальностей со словом «ключ» в базах данных является идентификатор. В принципе это верно, однако следует это понятие расширить – связать его с целостностью данных и производительностью. Рассмотрим эволюцию подходов к работе с ключами на примере роста выдуманной компании NeoCat.
Читать: https://habr.com/ru/articles/978212/
#ru
@database_design | Другие наши каналы
Когда бизнесу нужно заключать соглашения о поручении обработки ПД
ПД — персональные данные.
Одни бизнесы пользуются услугами других бизнесов или частных исполнителей. Это база.
Пример: обучающий центр хранит данные работников и учащихся в CRM.
Другой пример: флористическая студия пользуется услугами курьерской компании (или самозанятого курьера) для доставки букетов.
В этих и подобных случаях организации, ИП или самозанятые, исполняющие поручения компании — это третьи лица, обрабатывающие ПД.
Разобраться, с кем заключать соглашения
Читать: https://habr.com/ru/articles/972070/
#ru
@database_design | Другие наши каналы
ПД — персональные данные.
Одни бизнесы пользуются услугами других бизнесов или частных исполнителей. Это база.
Пример: обучающий центр хранит данные работников и учащихся в CRM.
Другой пример: флористическая студия пользуется услугами курьерской компании (или самозанятого курьера) для доставки букетов.
В этих и подобных случаях организации, ИП или самозанятые, исполняющие поручения компании — это третьи лица, обрабатывающие ПД.
Разобраться, с кем заключать соглашения
Читать: https://habr.com/ru/articles/972070/
#ru
@database_design | Другие наши каналы
Когда бизнесу нужно заключать соглашения о поручении обработки ПД
ПД — персональные данные.
Одни бизнесы пользуются услугами других бизнесов или частных исполнителей. Это база.
Пример: обучающий центр хранит данные работников и учащихся в CRM.
Другой пример: флористическая студия пользуется услугами курьерской компании (или самозанятого курьера) для доставки букетов.
В этих и подобных случаях организации, ИП или самозанятые, исполняющие поручения компании — это третьи лица, обрабатывающие ПД.
Разобраться, с кем заключать соглашения
Читать: https://habr.com/ru/articles/972070/
#ru
@database_design | Другие наши каналы
ПД — персональные данные.
Одни бизнесы пользуются услугами других бизнесов или частных исполнителей. Это база.
Пример: обучающий центр хранит данные работников и учащихся в CRM.
Другой пример: флористическая студия пользуется услугами курьерской компании (или самозанятого курьера) для доставки букетов.
В этих и подобных случаях организации, ИП или самозанятые, исполняющие поручения компании — это третьи лица, обрабатывающие ПД.
Разобраться, с кем заключать соглашения
Читать: https://habr.com/ru/articles/972070/
#ru
@database_design | Другие наши каналы
Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench
В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench.
ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.
Читать: https://habr.com/ru/companies/datasapience/articles/978430/
#ru
@database_design | Другие наши каналы
В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench.
ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.
Читать: https://habr.com/ru/companies/datasapience/articles/978430/
#ru
@database_design | Другие наши каналы
Почему ночных загрузок стало недостаточно: опыт внедрения CDC в М2
Всем привет, меня зовут Игорь Горбенко, и я системный аналитик в компании М2.
Отчёты, которые обновляются раз в сутки, хорошо подходят для стратегической аналитики. Но в какой-то момент бизнесу становится важно понимать, что происходит в течение дня, а не только по итогам ночной загрузки.
В М2 мы столкнулись с этим, когда от продуктовых команд и службы поддержки начали приходить запросы на внутридневную отчётность и почти real-time метрики. Наш основной подход — ежедневная батчевая загрузка данных — перестал закрывать такие сценарии, и нам понадобился другой способ работы с изменениями в продуктовых базах.
В этой статье я расскажу, как мы внедряли Change Data Capture (CDC) с использованием Apache Flink, какие задачи это помогло решить, с какими ограничениями мы столкнулись и почему CDC — полезный, но не универсальный инструмент.
CDC и Apache Flink: кратко о технологии и нашем подходе
Давайте начнем разбираться. Некоторые из вас наверняка знакомы с понятием CDC, Change Data Capture — техника захвата изменений в базах данных.
Для контекста стоит отметить Apache Flink — движок для загрузки и обработки батчей и стриминговых данных в реальном времени. В статье речь пойдет про Flink CDC — фреймворк с открытым исходным кодом для отслеживания изменений данных в базах данных в реальном времени.
В проектах нашего отдела в М2 основной метод загрузки — это ежедневное ночное
копирование продуктовых баз данных (PostgreSQL, MongoDB) в аналитическое хранилище на базе Apache Iceberg и последующая их обработка с помощью движка Trino.
Читать: https://habr.com/ru/companies/m2tech/articles/978258/
#ru
@database_design | Другие наши каналы
Всем привет, меня зовут Игорь Горбенко, и я системный аналитик в компании М2.
Отчёты, которые обновляются раз в сутки, хорошо подходят для стратегической аналитики. Но в какой-то момент бизнесу становится важно понимать, что происходит в течение дня, а не только по итогам ночной загрузки.
В М2 мы столкнулись с этим, когда от продуктовых команд и службы поддержки начали приходить запросы на внутридневную отчётность и почти real-time метрики. Наш основной подход — ежедневная батчевая загрузка данных — перестал закрывать такие сценарии, и нам понадобился другой способ работы с изменениями в продуктовых базах.
В этой статье я расскажу, как мы внедряли Change Data Capture (CDC) с использованием Apache Flink, какие задачи это помогло решить, с какими ограничениями мы столкнулись и почему CDC — полезный, но не универсальный инструмент.
CDC и Apache Flink: кратко о технологии и нашем подходе
Давайте начнем разбираться. Некоторые из вас наверняка знакомы с понятием CDC, Change Data Capture — техника захвата изменений в базах данных.
Для контекста стоит отметить Apache Flink — движок для загрузки и обработки батчей и стриминговых данных в реальном времени. В статье речь пойдет про Flink CDC — фреймворк с открытым исходным кодом для отслеживания изменений данных в базах данных в реальном времени.
В проектах нашего отдела в М2 основной метод загрузки — это ежедневное ночное
копирование продуктовых баз данных (PostgreSQL, MongoDB) в аналитическое хранилище на базе Apache Iceberg и последующая их обработка с помощью движка Trino.
Читать: https://habr.com/ru/companies/m2tech/articles/978258/
#ru
@database_design | Другие наши каналы
Retention в Kafka: Почему сообщения живут дольше, чем вы думаете?
Вы настроили
Читать: https://habr.com/ru/articles/979026/
#ru
@database_design | Другие наши каналы
Вы настроили
retention.ms = 86400000 (24 часа) и отправили тестовое сообщение. Через сколько времени реально удалится сообщение?Читать: https://habr.com/ru/articles/979026/
#ru
@database_design | Другие наши каналы
✍1
Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли
Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru. Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.
Читать: https://habr.com/ru/articles/979118/
#ru
@database_design | Другие наши каналы
Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru. Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.
Читать: https://habr.com/ru/articles/979118/
#ru
@database_design | Другие наши каналы
Более глубокий взгляд на старый UUIDv4 и новый UUIDv7 в PostgreSQL 18
UUIDv4 как первичный ключ в PostgreSQL обычно ругают за «случайность» — но за этим словом прячется конкретная физика: сплиты страниц B-дерева, рыхлый листовой уровень, фрагментация и лишний случайный I/O при чтении. В PostgreSQL 18 появился UUIDv7 — и это хороший повод посмотреть на проблему не на уровне вкусов, а на уровне того, как реально устроены индекс и heap: от корреляции и
Читать: https://habr.com/ru/companies/otus/articles/979212/
#ru
@database_design | Другие наши каналы
UUIDv4 как первичный ключ в PostgreSQL обычно ругают за «случайность» — но за этим словом прячется конкретная физика: сплиты страниц B-дерева, рыхлый листовой уровень, фрагментация и лишний случайный I/O при чтении. В PostgreSQL 18 появился UUIDv7 — и это хороший повод посмотреть на проблему не на уровне вкусов, а на уровне того, как реально устроены индекс и heap: от корреляции и
ctid до статистики страниц и плотности листьев.Читать: https://habr.com/ru/companies/otus/articles/979212/
#ru
@database_design | Другие наши каналы
🔥1
Охота за недостающим типом данных: история о графах
(Ориентированный) граф — это набор узлов, соединённых стрелками (рёбрами). В узлах и рёбрах могут содержаться данные. Вот примеры графов:
Читать: https://habr.com/ru/articles/979220/
#ru
@database_design | Другие наши каналы
(Ориентированный) граф — это набор узлов, соединённых стрелками (рёбрами). В узлах и рёбрах могут содержаться данные. Вот примеры графов:
Читать: https://habr.com/ru/articles/979220/
#ru
@database_design | Другие наши каналы
Система мониторинга ML-моделей: превращаем данные в полезный инструмент
В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов.
В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.
Читать: https://habr.com/ru/companies/tochka/articles/976892/
#ru
@database_design | Другие наши каналы
В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов.
В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.
Читать: https://habr.com/ru/companies/tochka/articles/976892/
#ru
@database_design | Другие наши каналы
Система мониторинга ML-моделей: превращаем данные в полезный инструмент
В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов.
В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.
Читать: https://habr.com/ru/companies/tochka/articles/976892/
#ru
@database_design | Другие наши каналы
В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов.
В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.
Читать: https://habr.com/ru/companies/tochka/articles/976892/
#ru
@database_design | Другие наши каналы
Как это сделано: объектное хранилище в MWS Cloud Platform
Всем привет. Я — Дмитрий Шапошников, Tech Lead в команде Object Storage в MWS Cloud Platform. Сегодня мы поговорим о том, как устроено наше объектное хранилище.
В этой статье я объясню, что такое Object Storage, и поделюсь нашим опытом создания сервиса. Расскажу о преимуществах и недостатках работы с Ceph, на котором базировалась предыдущая версия нашего объектника, и подробно опишу архитектуру нового сервиса Object Storage, его масштабируемость и надёжность.
Читать: https://habr.com/ru/companies/mws/articles/979254/
#ru
@database_design | Другие наши каналы
Всем привет. Я — Дмитрий Шапошников, Tech Lead в команде Object Storage в MWS Cloud Platform. Сегодня мы поговорим о том, как устроено наше объектное хранилище.
В этой статье я объясню, что такое Object Storage, и поделюсь нашим опытом создания сервиса. Расскажу о преимуществах и недостатках работы с Ceph, на котором базировалась предыдущая версия нашего объектника, и подробно опишу архитектуру нового сервиса Object Storage, его масштабируемость и надёжность.
Читать: https://habr.com/ru/companies/mws/articles/979254/
#ru
@database_design | Другие наши каналы
Итоги 2025: как MongoDB строит платформу для эпохи ИИ
В статье подводятся итоги года: приобретение Voyage AI, запуск AMP для модернизации приложений, добавление поиска и векторного поиска в Community/Enterprise, истории клиентов (Factory, McKesson), смена руководства и прогнозы на 2026.
Читать подробнее
#en
@database_design | Другие наши каналы
В статье подводятся итоги года: приобретение Voyage AI, запуск AMP для модернизации приложений, добавление поиска и векторного поиска в Community/Enterprise, истории клиентов (Factory, McKesson), смена руководства и прогнозы на 2026.
Читать подробнее
#en
@database_design | Другие наши каналы
MariaDB Connector/ODBC 3.2.8 — стабильный релиз с исправлениями
MariaDB объявила о выпуске Connector/ODBC 3.2.8 (Stable/GA): в релизе устранены различные проблемы. Подробности в заметках о выпуске на сайте MariaDB, доступна загрузка с официального портала.
Читать подробнее
#en
@database_design | Другие наши каналы
MariaDB объявила о выпуске Connector/ODBC 3.2.8 (Stable/GA): в релизе устранены различные проблемы. Подробности в заметках о выпуске на сайте MariaDB, доступна загрузка с официального портала.
Читать подробнее
#en
@database_design | Другие наши каналы