DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.31K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.


Читать: https://habr.com/ru/companies/datasapience/articles/959496/

#ru

@database_design | Другие наши каналы
5 ключевых улучшений нового поколения однофазных ИБП Systeme Electric

Недавно мы анонсировали выход на российский рынок нового поколения однофазных источников бесперебойного питания серии Smart-Save Online SRT G2. Да, звучит, вероятно, достаточно длинно, но данное название лучше всего отражает саму суть новинки – это следующее поколение уже давно представленной на рынке линейки SRT и, как полагается, улучшенное поколение! В рамках данного обзора постараемся сформулировать ключевые улучшения, которых нам удалось добиться, а также пояснить, как это может помочь нашим клиентам и партнерам.

Предлагаем посмотреть на сами ИБП – в линейке доступны две серии, соответствующие мощностным диапазонам 1-3 кВА и 5-10 кВА. На текущий момент это устоявшаяся традиция делить однофазные ИБП именно так, то есть на те, которые можно воткнуть в обычную розетку 16 А, и на более мощные устройства, требующие уже клеммного подключения входного питания.

Начнем с меньшей мощности 1-3 кВА.


Читать: https://habr.com/ru/companies/se_blog/articles/959526/

#ru

@database_design | Другие наши каналы
HTTP и HTTPS: Разница

Очень часто на собеседованиях кандидаты слышат вопрос: «В чем разница между HTTP и HTTPS?» И так же часто делают задумчивое лицо, не зная, что ответить. Мы даже как-то писали об этом пост.

Сегодня пришло время рассказать, в чем же разница между HTTP и HTTPS, а также разобрать механику HTTP-запроса и ответа и ключевые принципы работы обоих протоколов. В общем, прочитав эту статью, вы точно сможете дать правильный ответ на собеседовании.


Читать: https://habr.com/ru/articles/959544/

#ru

@database_design | Другие наши каналы
Dumper: единый инструмент для резервного копирования баз данных

Когда в инфраструктуре десятки сервисов и баз данных разных типов, ручное резервное копирование превращается в кошмар.

Один сервер использует PostgreSQL, другой — MySQL, третий — MongoDB, и для каждого нужны свои команды (pg_dump, mysqldump, mongodump) и свои скрипты.

Проект Dumper решает эту проблему он объединяет все типы баз в один универсальный инструмент.

Dumper написан на Go и работает через CLI, конфигурация задаётся в YAML — поэтому его легко встроить в cron, CI/CD pipelines, GitHub Actions или Docker-окружение.


Читать: https://habr.com/ru/articles/959572/

#ru

@database_design | Другие наши каналы
Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними.

Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark и Jupyter‑ноутбуков в Yandex DataSphere.


Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/957470/

#ru

@database_design | Другие наши каналы
dbt 101: что нужно знать на старте и лучшие практики

dbt — это фреймворк для трансформации данных внутри хранилища и отличный инструмент для аналитиков и дата-инженеров на больших проектах, где число SQL-скриптов может переваливать за сотни. Мы с командой много работаем с dbt, и в этой статье хочу поделиться своим опытом: расскажу о его ключевых элементах и некоторых лучших практиках на примере одного кейса.

Это не гайд, как развернуть dbt и создать проект, а знакомство с тулом для тех, кто пока с ним не работал и хочет разобраться, что это вообще такое.


Читать: https://habr.com/ru/articles/959846/

#ru

@database_design | Другие наши каналы
Становятся ли жёсткие диски лучше? Спросим кривую отказов

Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье «Drive Failure Over Time: The Bathtub Curve Is Leaking» мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временного графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны».

Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную.

И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Складная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах.

Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа.

Если коротко, то жёсткие диски становятся лучше.


Читать: https://habr.com/ru/companies/ruvds/articles/958920/

#ru

@database_design | Другие наши каналы
Эвристика: OR в SQL — это дорого

Один запрос выполняется 100 мс, другой — меньше 1 мс. Оба делают одно и то же, но второй написан на странном, почти алхимическом SQL. В чём подвох? Первый использует OR, а второй — хитрую комбинацию AND. Этот перевод — расследование того, почему условие OR так дорого обходится вашей базе данных, и практическое руководство по тому, как проектировать схемы, чтобы избежать этой ловушки производительности.


Читать: https://habr.com/ru/companies/postgrespro/articles/953506/

#ru

@database_design | Другие наши каналы
Вертикальное шардирование базы данных: проблемы, решения, практические рекомендации

База данных — это сердце системы. И в какой-то момент это сердце начинает давать сбои. Не от объема данных, а от их разнородности. Таблица users разрастается до 200 колонок. Одни нужны для логина каждую секунду, другие — для годового отчета раз в год. В итоге, чтобы прочитать два "горячих" поля, база тащит с диска целый блок с "холодными" данными. Это неэффективно.


Читать: https://habr.com/ru/articles/959748/

#ru

@database_design | Другие наши каналы
1
Какие приложения установить на Windows и macOS

Список разбит по категориям: от браузеров и гейминга до утилит безопасности и инструментов для продуктивности.

Читать: «Какие приложения установить на Windows и macOS»

#ru

@database_design | Другие наши каналы
Enterprise Manager 24ai: переработанный Oracle Data Masking

Enterprise Manager 24ai получил полностью обновлённый Oracle Data Masking and Subsetting: новый интерфейс и упрощённые рабочие процессы ускоряют обнаружение и маскирование конфиденциальных данных.

Читать подробнее

#en

@database_design | Другие наши каналы
Как порядок в CRM повышает эффективность клиентских процессов

Привет, Хабр!

Меня зовут Сергей Соловьёв, я руководитель отдела методологии в компании BPMSoft. Мы являемся разработчиком одноименной CRM-системы на базе low-code платформы со встроенными ИИ-инструментами. По версии Фонда Сколково и аналитического центра TAdviser, а также консалтинговой компании «Технологии доверия» – лучшей на российском рынке в 2024 году. В этой статье я расскажу, как мы управляем данными в собственной CRM и как это повышает эффективность бизнес-процессов.

Как появляется хаос

Разные подразделения компании работают с разными данными. Бухгалтерии важны название юридического лица и банковские реквизиты, отделу продаж — история взаимодействия с ним и потенциал кросс-продаж. При этом информация в CRM не всегда вносится корректно, что затрудняет поиск и работу с карточками клиентов. В результате данные оказываются фрагментированными и разрозненными: одному контрагенту нередко могут соответствовать две разные карточки.

Дубли контрагентов приводят к организационным проблемам. Если в CRM заведены две карточки одного клиента, разные менеджеры могут вести с ним параллельные переговоры, даже не подозревая об этом.

Проблема становится критичной по мере роста бизнеса и увеличения числа ошибок, связанных с некорректным ведением данных. Когда такие ситуации приобретают массовый характер, компании осознают необходимость системного управления. Однако на ранних этапах этому, как правило, не придают значения — в фокусе остается выбор и использование решений для автоматизации продаж и маркетинга. Чтобы эти процессы автоматизации работали точно, как швейцарские часы, нужно уделить внимание порядку в данных, от которого напрямую зависит эффективность использования новых систем и решений.


Читать: https://habr.com/ru/companies/bpmsoft/articles/960486/

#ru

@database_design | Другие наши каналы
Полезные фишки iCloud, Google Drive и Яндекс Диска, о которых многие не знают

Облачные хранилища стали настолько привычными, что большинство из нас использует их тупо на автопилоте – для хранения фотографий или бэкапов. Из-за этого, кстати, часть функций, которые есть в облаках, для многих остаются в тайне. А ведь внутри этих сервисов спрятаны возможности, способные реально изменить подход к работе с данными.


Читать: https://habr.com/ru/companies/finops_ru/articles/960518/

#ru

@database_design | Другие наши каналы
SFP не определяется системой: как мы решали проблему

Всем привет! Я руковожу группой технической поддержки и сопровождения в компании «Онланта». Мы занимаемся поддержкой оборудования различных вендоров. Сегодня расскажу о кейсе по решению проблемы с СХД Dell: система не определяет SFP.


Читать: https://habr.com/ru/companies/lanit/articles/958612/

#ru

@database_design | Другие наши каналы
Гайд по здравому смыслу: Как защитить корпоративные данные в эпоху нейросетей

Привет, Хабр! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и СЕО онлайн-университета «Зерокодер». Обычно я пишу о том, что нейросети — это круто, но было бы нечестно не говорить и об обратной стороне монеты.

Сегодня я хочу порассуждать о том, как нечистые на руки люди могут использовать ИИ для манипуляции с данными, и о том, какие способы защиты от потенциальных уязвимостей я смог для себя выделить.

Если есть что добавить — пишите в комменты!


Читать: https://habr.com/ru/articles/957282/

#ru

@database_design | Другие наши каналы
Книга: «Потоковые базы данных»

Привет, Хаброжители! В наши дни приложения реального времени стали нормой. Но для построения корректно работающей модели требуется, чтобы данные обрабатывались на лету и анализировались с низкой задержкой. Из этой практической книги инженеры, архитекторы и аналитики данных узнают, как использовать потоковые базы данных для создания решений, действующих в режиме реального времени.


Читать: https://habr.com/ru/companies/piter/articles/960806/

#ru

@database_design | Другие наши каналы
MariaDB 11.8 ускоряет OLTP в 2,5×

По данным MariaDB, Enterprise Server 11.8 показал до 2,5× большую пропускную способность транзакций по сравнению с LTS 10.6 в бенчмарке HammerDB TPROC‑C на серверах Dell PowerEdge R7715 с процессорами AMD EPYC. Источник: mariadb.com

Читать подробнее

#en

@database_design | Другие наши каналы
Как мы перестали хранить Pydantic в JSON и в 7 раз сократили расход памяти в Redis

У нас был большой продакшен-сервис с ~10M MAU, где Redis использовался как основное хранилище состояния пользователей. Все данные лежали в нём в виде JSON-сериализованных Pydantic-моделей. Это выглядело удобно, пока не стало больно.

На определённом этапе мы выросли до Redis Cluster из пяти нод – и он всё равно задыхался по памяти. JSON-объекты раздувались в разы относительно полезных данных, и мы платили за тонны пустоты — буквально деньгами и деградацией.

Я посчитал сколько весят реально полезные данные и получил цифру, от которой понял, что так жить больше нельзя.


Читать: https://habr.com/ru/articles/961082/

#ru

@database_design | Другие наши каналы
Когда база устала искать: архитектура OpenSearch для больших данных

БигДата всегда звучит красиво — пока не нужно по ним искать и за нее платить.

Когда данные перестают влезать в индекс, а поиск тормозит — дело не в БД, а в архитектуре.Рассказываю, как мы перестроили систему на связке PostGIS + OpenSearch и добились отклика в десятки миллисекунд.


Читать: https://habr.com/ru/articles/961114/

#ru

@database_design | Другие наши каналы
Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.


Читать: https://habr.com/ru/articles/961088/

#ru

@database_design | Другие наши каналы
Один Swagger вместо сотни страниц Confluence: как в Рунити навели порядок в API-документации

Привет, Хабр!
На связи Маргарита Сорочинская, технический писатель отдела архитектуры в Рунити. Хочу рассказать, как мы в компании подошли к описанию API в Swagger — и почему решили перенести туда всё, что раньше жило в Confluence. А еще поделюсь с вами стартерпаком для описания API в Swagger, пошаговой инструкцией и всеми ссылками, чтобы для вас этот путь был уже более простым :)

Навигация по тексту:


Читать: https://habr.com/ru/companies/runity/articles/961156/

#ru

@database_design | Другие наши каналы