DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
🚀 BI для современных предприятий: Новый подход от DataGenie и MongoDB

Бизнес-аналитика сталкивается с вызовами обработки больших объемов данных. DataGenie в сочетании с MongoDB предлагает интеллектуальный анализ, упрощая работу с данными. MongoDB значительно ускоряет запросы и снижает затраты, позволяя предприятиям принимать уверенные решения. Эра повсеместного распространения данных: Будущее уже здесь

В статье рассматривается развитие эпохи "вездесущих данных" и роль современных баз данных, таких как MongoDB, в этом процессе. Компании, обновляющие свои системы, не только снижают расходы, но и закладывают основу для инноваций, интеграции ИИ и роста.

Читать подробнее

#en

@database_design | Другие наши каналы
Аналитические запросы теста TPC-H в PostgreSQL

В статье рассматривается использование теста TPC-H с PostgreSQL и проблемы, связанные с запросами Q17-Q20 теста.

Введение

Вместе с PostgreSQL поставляется утилит pg_bench с "TPC-B like" тестом. Кроме этого теста были созданы тесты TPC-R для отчётов, TPC-D для OLAP, TPC-W для заказов в веб-магазине, которые не получили распространения. На основе TPC-D был создан более удачный тест TPC-H для хранилищ данных и аналитических запросов ("OLAP нагрузка"). В тесте используется 8 таблиц и 17 ограничений целостности. В TPC-H выделены номинации по размерам обрабатываемых данных от "до 100Гб" до  30-100Тб. Тест TPC-H предназначен для хранилищ данных, включает в себя 22 запроса, которые называют Q1 ... Q22.

Запросы теста TPC-H не меняют данные в таблицах, а значит, для повторных тестирований не нужно пересоздавать или вакуумировать таблицы. В тестах TPC-B, TPC-C, TPC-E запросы довольно простые. В реальных приложениях запросы более сложные, чем в этих тестах. Поэтому для тестирования того, как СУБД выполняет запросы, которые могут встретиться в реальных приложениях, можно использовать все или отдельные запросы из теста TPC-H. Для быстрого аудита производительности различных СУБД используют вариант с 1Гб данных. В этом варианте запросы выполняются быстро, не нужно много памяти под экземпляр СУБД и много места на диске. Можно найти программы или скрипты для большинства СУБД, например, для PostgreSQL, Oracle Database, MySQL. После теста TPC-H появился тест TPC-DS с 99 запросами, но он менее популярен.


Читать: https://habr.com/ru/articles/901528/

#ru

@database_design | Другие наши каналы
Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.


Читать: https://habr.com/ru/articles/901778/

#ru

@database_design | Другие наши каналы
Как сделать компьютерную память из ржавых гвоздей и нейросети — из медных проволок?


Картинка — Kaboompics, Flatart, Freepik

Сегодня мы поговорим о таком интересном классе электронных компонентов, который носит название «мемристоры» и позволяет даже строить на их основе нейросети.

Их привлекательность заключается в том, что их вполне можно делать даже самостоятельно, из подручных компонентов.

В последнее время мы привыкли, что под понятием нейросетей подразумеваются определённые программные структуры. Однако мемристоры позволяют строить нейросети на физической основе! О_о

Аппаратные физические нейросети… Как вам такое? :-) Весьма близко к тому, что мы видим в природе, кстати говоря…

Читать: https://habr.com/ru/companies/ruvds/articles/900360/

#ru

@database_design | Другие наши каналы
Баланс работы и личной жизни: советы от инженера MongoDB

В интервью с Кайлом Лаем, инженером MongoDB, обсуждаются его профессиональные задачи и подход к работе. Кайл делится своим опытом, как сохранять баланс между работой и личной жизнью, выделяет важность установления границ и преимущества офисного режима. Как MongoDB Преобразовал DataGenie

DataGenie, используя MongoDB, улучшил скорость и эффективность обработки данных. Переход помог сократить время выполнения запросов с 3 секунд до 350 мс, снизить затраты на обработку Spark на 90%, и упростить управление данными. Теперь DataGenie готов к амбициозным функциям и интеграциям.

Читать подробнее

#en

@database_design | Другие наши каналы
Делиться информацией = расти вместе. 4 шага для построения хранилища данных — фундамент базы знаний

Этот текст — эссенция практического опыта креативного специалиста, который помогает бизнесу находить технические решения в области построения базы знаний. Решил поделиться своими заметками об архитектуре хранилища данных (DWH) и написать, почему важно хранить корпоративные данные в едином хранилище, как преодолеть внутренние барьеры (вроде страха критики и синдрома самозванца) для начала обмена знаниями и какими техническими и организационными решениями можно сделать этот процесс удобным и полезным. В статье — живой опыт, конкретные советы и немного вдохновения для тех, кто только начинает делиться знаниями внутри команды.


Читать: https://habr.com/ru/articles/901544/

#ru

@database_design | Другие наши каналы
(Почти) идеальный мини-NAS для мини-стойки

Мини-ПК GMKtec G9  N150 с четырьмя  отсеками NVMe стоит 240  долларов — практически идеальное NAS-устройство для домашней мини-стойки. Он оснащен четырехядерным процессором Intel N150  с интегрированной графикой Intel UHD среднего уровня, 12  ГБ оперативной памяти LPDDR5, двумя портами Ethernet 2,5  Гбит/с, WiFi  6  и, что самое приятное, четырьмя  встроенными слотами M.2  NVMe.

Казалось бы, что не так?

Читать: https://habr.com/ru/companies/selectel/articles/902140/

#ru

@database_design | Другие наши каналы
Стоимостной оптимизатор: сердце гибридной базы данных YDB

Я занимаюсь разработкой баз данных с 1999 года и сейчас работаю над YDB — базой данных, которую мы в Яндексе недавно выложили в опенсорс. Это моя шестая база данных и четвертая — массивно-параллельная. И каждый раз, когда основные задачи решены, я сажусь разрабатывать оптимизатор запросов. Под катом я кратко расскажу о том, что такое оптимизаторы запросов в базах данных и почему их непросто делать.


Читать: https://habr.com/ru/companies/ydb/articles/901816/

#ru

@database_design | Другие наши каналы
JDBC: Как Java научилась дружить с Базами Данных

Представьте, что вы — гид в огромном городе под названием «Базы Данных». Ваша задача — помочь Java-приложениям найти нужную информацию, обновить данные или создать новые таблицы. Но как «разговаривать» с разными СУБД, если у каждой свой язык? Здесь на помощь приходит JDBC — универсальный переводчик, который знает все диалекты.


Читать: https://habr.com/ru/companies/otus/articles/902240/

#ru

@database_design | Другие наши каналы
Создаем картотеку людей в Obsidian максимально лениво или «Тронул мышку — проиграл»

Я уже писал на Хабре статью, что такое СДВГ и как она влияет на жизнь. Жизнь с этим синдромом создаёт свои трудности и я (как имеющий этот синдром) ненавижу и максимально стараюсь избегать любую рутину.

Иногда это доходит до крайности — мне необходимо заполнить какие-то заметки, но они все одинаковые. Ты их копируешь, вставляешь, опять поднимаешь руку к мышке, пытаешься попасть в нужную строку иии... глючит при прокрутке ролик, ты промазываешь и эмоции такие, что хочется выкинуть всю технику в окно.

Поэтому я сделал для себя кучу шаблонов заметок, которые очень быстро заполняются по правилу игры "Тронул мышку — проиграл". Эти шаблоны сильно облегчили мою жизнь и одним таким шаблоном я и хочу поделиться.


Читать: https://habr.com/ru/articles/902656/

#ru

@database_design | Другие наши каналы
Почему COUNT(*) быстрее, чем COUNT(col) — и когда это не так

Привет, Хабр!

Сегодня поговорим про одну из тех тем, что вроде бы тривиальна, но до последней капли грязи тащит за собой внушительный пласт вопросов. Речь пойдёт про COUNT(*) и COUNT(col) в PostgreSQL.


Читать: https://habr.com/ru/companies/otus/articles/901922/

#ru

@database_design | Другие наши каналы
Измерение аудитории блога с помощью OpenTelemetry

Мне интересно следить, какие статьи в моём блоге наиболее популярны, и сколько людей заглядывает в блог каждый день. Этот блог прошел через несколько этапов, позволяющих оценить эти показатели. Сначала это была Google Аналитика, но делиться всей этой информацией с Google не очень комфортно. Поэтому я перешёл на Matomo, развернутый на сервере CHATON: Libréon.

TL;DR

Хотите отслеживать трафик на статическом блоге без Matomo и Google Analytics?
Рассказываю, как с помощью OpenTelemetry, Prometheus, Grafana и небольшого самописного скрипта на JS (Otela) можно элегантно и эффективно следить за посещаемостью — при этом полностью сохранив контроль над своими данными.

Читать: https://habr.com/ru/companies/piter/articles/902732/

#ru

@database_design | Другие наши каналы
Новости в формате аудио с MongoDB и ИИ

Текст поста: Представьте, что каждое утро вы просыпаетесь под звуки подкаста с последними новостями, созданного искусственным интеллектом без участия человека. Это стало возможным благодаря MongoDB и генеративному ИИ, которые автоматизируют обработку и озвучивание новостей. Узнайте больше о будущем новостного аудио-контента! Как MongoDB помогает DataGenie раскрыть потенциал бизнеса

DataGenie использует MongoDB для повышения гибкости и скорости обработки данных, предлагая компаниям аналитические решения в сферах розничной торговли, здравоохранения и финансов. Новые возможности позволяют улучшать взаимодействие с клиентами и оптимизировать управление ресурсами.

Читать подробнее

#en

@database_design | Другие наши каналы
Фокус на разделение: что такое реестр IVF?

IVF — это индекс на основе разделенных векторов, который используется для улучшения эффективности поиска. В отличие от HNSW, который хранится в памяти, IVF использует кластеризацию для сужения области поиска, обеспечивая более быстрый доступ к данным.

Читать подробнее

#en

@database_design | Другие наши каналы
Книга: «Elasticsearch для разработчиков: индексирование, анализ, поиск и агрегирование данных. 2-е изд.»

Привет, Хаброжители!

Вы знакомы с Elasticsearch? Это мощный инструмент для работы с большими объемами данных. Его гибкость, масштабируемость и высокая производительность делают его незаменимым в современных IT-решениях. Книга Анурага Шриваставы «Elasticsearch для разработчиков» — это подробное руководство, которое шаг за шагом раскрывает все аспекты работы с этой технологией: от базовых принципов до сложных сценариев использования.

Шривастава начинает с основ, постепенно погружая читателя в мир Elasticsearch, и к концу книги даже новичок сможет уверенно работать с индексами, запросами, агрегациями и геоданными. Практические примеры и четкие объяснения помогают закрепить знания, а структура книги позволяет изучать материал в удобном темпе.

Читать: https://habr.com/ru/companies/piter/articles/901740/

#ru

@database_design | Другие наши каналы
Drupal интегрируется с MongoDB для оптимизации производительности

Текст: В статье описывается сотрудничество Дэвида Беккера с MongoDB для разработки драйвера, позволяющего интегрировать эту документно-ориентированную базу данных с Drupal. Использование MongoDB может существенно улучшить производительность и масштабируемость Drupal, делая его более конкурентоспособным в цифровом мире. Автоматизация новостей с MongoDB и ИИ

В 2025 году медиа активно используют MongoDB и генеративный ИИ для создания подкастов. Эта технология позволяет хранить данные статей и использовать AI для преобразования текста в качественные аудиоформаты. Это не только ускоряет процессы, но и открывает новые возможности для бизнеса.

Читать подробнее

#en

@database_design | Другие наши каналы
Параметры конфигурации мастера, отслеживаемые репликами PostgreSQL

Значения восьми параметров конфигурации мастера (primary, ведущего сервера PostgreSQL) сохраняются в управляющих файлах и изменения их значений передаются через журнал (WAL) на реплики. Если реплика открыта для запросов (hot_standby=on), то значения пяти числовых параметров на реплике должны быть не меньше, чем на мастере, иначе процесс startup прекратит накат (replay) журнальных записей. А после рестарта экземпляры реплик не запустятся. В статье рассматриваются эти параметры особенности изменения их значений.

Значения пяти числовых параметров конфигурации, сохраненных в управляющем файле кластера, можно посмотреть утилитой pg_controldata:


Читать: https://habr.com/ru/articles/903030/

#ru

@database_design | Другие наши каналы
Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.


Читать: https://habr.com/ru/companies/T1Holding/articles/903546/

#ru

@database_design | Другие наши каналы
Упростите управление базами данных с MariaDB и Kubernetes

Kubernetes — это стандарт в оркестрации контейнеров, но управление stateful-приложениями усложнено. Оператор MariaDB Enterprise для Kubernetes предлагает автоматизированное решение для развертывания и управления платформой MariaDB в кластерах Kubernetes. Узнайте больше по ссылке.

Читать подробнее

#en

@database_design | Другие наши каналы
Как MongoDB и ИИ трансформируют устаревшие системы

Текст: Компания MongoDB интегрирует новейшие достижения ИИ для модернизации устаревших систем. Благодаря AI Forward Deployed Engineer создан новый подход к разработке, решающий проблемы с масштабом и скоростью. Это оптимальная помощь компаниям, стремящимся к инновациям. Присоединяйтесь к революции! Перспективы Drupal с MongoDB

В сообществе Drupal обсуждается интеграция с MongoDB, что позволит улучшить производительность и масштабируемость. MongoDB помогает хранить данные в формате JSON, ускоряя доступ к ним и обеспечивая конкурентоспособность Drupal в современном ландшафте пользовательских приложений.

Читать подробнее

#en

@database_design | Другие наши каналы
PostgreSQL: грабли, на которые мы наступаем… снова

СУБД PostgreSQL является одной из самых популярных реляционных баз данных с открытым исходным кодом, и благодаря почти 40-летней истории развития она является отличным выбором для приложений любого размера. Но многие начинающие администраторы и разработчики совершают одни и те же ошибки при работе с этой СУБД. В этой статье мы рассмотрим некоторые из них.


Читать: https://habr.com/ru/companies/otus/articles/902942/

#ru

@database_design | Другие наши каналы