DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Это путь воина: как я выучил Python и Go с помощью Цеттелькастена и кому точно не рекомендую метод

Привет, Хабр! Меня зовут Дмитрий, я работаю в YADRO. Я прошел большой путь в самостоятельном изучении языков программирования: от SQL до Go. Сначала я вообще не документировал процесс обучения, затем стал вести заметки по «академическому» принципу — писал конспекты, как в университете. Пока не открыл древовидную систему хранения данных, которая лежит в основе метода Цеттелькастен.

В этой статье расскажу, как порядок в заметках помогает лучше усваивать материал, кому подойдет Цеттелькастен или подобные методы и что лучше — простые конспекты или структурированные заметки.


Читать: https://habr.com/ru/companies/yadro/articles/899850/

#ru

@database_design | Другие наши каналы
Что вендоры выпустили в марте? Новинки от NVIDIA, Supermicro и не только

Вопреки весеннему обострению, вендоры в марте оказались более спокойными и не выпускали прорывных новинок. Хотя среди них все же есть «железки», за развитием которых стоит наблюдать. Среди интересных новинок — и новый серверный ускоритель от NVIDIA, и решения, отличные от классических GPU.

Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этом дайджесте собрал самые стоящие «железки», которые выпустили вендоры в марте. Подробности под катом!

Читать: https://habr.com/ru/companies/selectel/articles/899912/

#ru

@database_design | Другие наши каналы
Memory Maps и кривые настройки Kafka или как положить весь кластер разом

Добрый день! Меня зовут Богдан, я тимлид в одном из отечественных финтехов. Сегодня я хочу поделиться нашей историей: как нам удалось, ненарочно, зашедулить падение всех нод одного из наших кластеров Kafka.

В один из холодных февральских дней пришло сообщение от мониторинга с виртуальных машин кластера Kafka: «Свободное дисковое пространство достигло значения < 15%». Было решено исследовать, нужно ли добавлять дискового пространства или же можно потюнить настройки ретеншена данных.

Тут стоит немного вспомнить теорию. Как известно, в Kafka сообщения распределяются по партициям, а каждая партиция на брокере представлена набором сегментов. Число сегментов у партиций может быть разным — оно варьируется в зависимости от интенсивности записи и настроек размера сегмента.

Сегмент (если упростить) — это лог-файл, в который просто пишутся данные в конец. По достижении временного предела либо его размера он ротируется: создается новый сегмент, и запись идет уже в него.

Держа вышесказанное в голове, мы отправились смотреть настройки хранения сегментов в нашем кластере Kafka..


Читать: https://habr.com/ru/articles/900094/

#ru

@database_design | Другие наши каналы
DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.


Читать: https://habr.com/ru/companies/otus/articles/900080/

#ru

@database_design | Другие наши каналы
👍2
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@database_design | Другие наши каналы
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@database_design | Другие наши каналы
Low-code без границ: терабайты данных в конструкторе приложений

Бум No-code начался в 2022 году, и сейчас многие компании стараются так или иначе внедрить функционал «low-code» в свои продукты. У участников IT-индустрии пока нет согласия о границах применимости технологий «без кода», хотя адепты этих технологий обещают, что они позволят создавать практически любые приложения.

В этой заметке мы рассмотрим один из основных аспектов создания приложений – его масштабируемость в средней и дальней перспективе. Для этого сам продукт под капотом должен быть построен на чем-то более мощном, чем MS Excel, Airtable, Notion и Make, и такие продукты уже есть на рынке.

Фатальные проблемы масштабируемости проявляются с ростом объемов данных и количества пользователей, которые с ними работают – с этого мы и начнём.
Давай уже про терабайты

Читать: https://habr.com/ru/articles/900308/

#ru

@database_design | Другие наши каналы
Как пройти 45 собеседований за 2 месяца и остаться в живых? Опыт аналитика

Аналитик прошёл 45 собеседований за два месяца — рассказываем, как изменился рынок труда в IT, через что проходят кандидаты, как не перегореть, отсеивать токсичные компании и выстроить стратегию поиска, которая действительно работает.

Читать: «Как пройти 45 собеседований за 2 месяца и остаться в живых? Опыт аналитика»

#ru

@database_design | Другие наши каналы
🔍 Интеграция знаний: GraphRAG и MongoDB Atlas

MongoDB представил GraphRAG — способ интеграции графов знаний и больших языковых моделей (LLM). Эта технология улучшает точность и объясняемость результатов за счет понимания взаимосвязей данных. MongoDB Atlas упрощает внедрение таких систем, поддерживая документы, векторы и графы. Узнайте подробнее на их сайте. Инновации в розничной торговле: AI-агенты Cognigy и MongoDB

Ритейл становится все более ориентированным на AI, и Cognigy предлагает мощных AI-агентов, использующих данные MongoDB для создания персонализированных взаимодействий с клиентами. Узнайте, как совместная работа этих решений помогает укреплять лояльность покупателей и улучшать взаимодействие с ними.

Читать подробнее

#en

@database_design | Другие наши каналы
Миграция данных Cassandra с помощью Cassandra Data Migrator

Я хочу рассказать, как мы решаем задачи миграции данных кластеров Cassandra с помощью инструмента Cassandra Data Migrator (CDM). Выбор этой темы продиктован продуктовыми задачами по корректной миграции данных между кластерами Cassandra сложной топологии. Статей с обзором этого решения в русскоязычном сегменте я не нашел и решил описать сам, так как оно будет полезно всем администраторам СУБД Cassandra.


Читать: https://habr.com/ru/companies/zyfra/articles/885554/

#ru

@database_design | Другие наши каналы
Что будет интересного в pg_probackup 3

pg_probackup 3 — не просто обновление, а полная перезагрузка системы резервного копирования PostgreSQL. Пока сообщество затаило дыхание в ожидании релиза, мы разберем по косточкам все ключевые изменения: от полностью переработанной архитектуры и нового репликационного протокола до революционной возможности восстановления отдельных баз данных и поддержки FUSE. Узнайте, как LibProbackup3 – полноценный SDK – открывает новые горизонты для интеграции в любую инфраструктуру, а улучшенная поддержка лент и S3, наконец, решает наболевшие проблемы.


Читать: https://habr.com/ru/companies/postgrespro/articles/884432/

#ru

@database_design | Другие наши каналы
Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.
Всплыть

Читать: https://habr.com/ru/companies/arenadata/articles/885722/

#ru

@database_design | Другие наши каналы
Camunda на проде: восемь типичных ошибок

Итак, вы смоделировали все процессы, написали бизнес-логику и задеплоили все на сервер. Запускаем наши процессы на проде! Поехали? – Но дальше разложено множество граблей, на которые обычно наступают все, кто только начинает эксплуатировать BPM, в том числе и на движке Camunda 7. Эта статья сэкономит вам много времени и успокоит нервы – потому что ситуации, описанные ниже, могут изрядно их попортить, если вы будете не готовы.


Читать: https://habr.com/ru/companies/haulmont/articles/886620/

#ru

@database_design | Другие наши каналы
Обновление PostgreSQL с кластером отката

Зачастую, предлагая обновить PostgreSQL, подразумевается условный прыжок веры на более новую версию без варианта быстрого отката на предыдущую версию без потери данных. А что если...


Читать: https://habr.com/ru/articles/884828/

#ru

@database_design | Другие наши каналы
PostgreSQL Connection Pooling: Наш опыт и с чем его едят

Как обеспечить высокую производительность PostgreSQL и эффективно управлять соединениями? В этой статье мы разберёмся, как правильно настроить пул соединений, какие преимущества он даёт и как избежать распространённых ошибок. Делимся нашим опытом перехода с MongoDB на PostgreSQL и работы с пулом в Go с использованием pgx.


Читать: https://habr.com/ru/companies/hikasami/articles/884820/

#ru

@database_design | Другие наши каналы
Что нужно знать, чтобы писать быстрые SQL-запросы

Привет, я Марк Шевченко, ведущий разработчик, ИТ‑холдинг Т1. SQL — мощный декларативный язык, который скрывает от программиста большинство технических деталей. Проектировщики языка предполагали, что его простота поможет не‑программистам работать с данными самостоятельно. К сожалению, простота имеет свою цену, и эта цена — производительность. Некоторые несложные запросы работают слишком медленно, что становится неприятным сюрпризом как для программистов, так и для пользователей.

В попытках повысить производительность начинающие программисты зачастую действуют методом перебора, а это не самый быстрый способ обучения. Для того чтобы писать эффективные запросы, требуется понимание принципов работы СУБД.

В этой статье я расскажу о производительности запросов SELECT. Акцент буду делать не на подробности конкретных реализаций, а на фундамент. В то же время буду иллюстрировать общие положения реальными примерами.


Читать: https://habr.com/ru/companies/T1Holding/articles/883988/

#ru

@database_design | Другие наши каналы
Знакомство с PPEM 2

Недавно у Postgres Pro вышла новость о релизе Postgres Pro Enterprise Manager 2 (далее просто PPEM). Если коротко, то это админка для управления и мониторинга Postgres. Основная задача инструмента — помогать DBA в ежедневной работе и избавлять от рутины. Давайте в этой статье попробуем установить и запустить PPEM, посмотреть что это такое и какие возможности предоставляет система.


Читать: https://habr.com/ru/companies/postgrespro/articles/885486/

#ru

@database_design | Другие наши каналы
Новые ресурсные политики MongoDB Atlas: усиление безопасности и упрощение соблюдения стандартов

MongoDB объявила о полномасштабном запуске новых ресурсных политик в Atlas, включая 7 новых политик и графический интерфейс для их управления. Эти изменения дают администраторам возможность автоматизировать безопасность и соблюдение нормативных требований, упрощая управление конфигурациями и снижая риск неправильных настроек. Персонализация с помощью AI: Новая эпоха взаимодействия с клиентами

Текст поста: В новой статье обсуждается инновационный подход к персонализации клиентского опыта с использованием AI и реального времени. Узнайте, как MongoDB и Cognigy помогают создавать динамичные и более значимые взаимодействия, укрепляющие отношения с клиентами.

Читать подробнее

#en

@database_design | Другие наши каналы
DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.


Читать: https://habr.com/ru/companies/otus/articles/900916/

#ru

@database_design | Другие наши каналы
Визуальное представление структуры btree индекса PostgreSQL

В статье визуализируется структура индекса и показывается, как меняется структура индекса типа btree в PostgreSQL. Это полезно для понимания, как выглядят индексы btree. Также рассматривается FILLFACTOR и пример исследования структуры индекса в целях определения, как перераспределяются индексные записи при включении в структуру индекса новых блоков (страниц). Создадим простую таблицу, индекс, вставим три строки:


Читать: https://habr.com/ru/articles/900440/

#ru

@database_design | Другие наши каналы
PostgreSQL vs. ClickHouse vs. DuckDB: какую опенсорс базу выбрать для аналитики в 2025 году?

В этой статье сравним и разберём опенсорные СУБД для задач, связанных с аналитикой, на понятном для новичков языке.

Читать: «PostgreSQL vs. ClickHouse vs. DuckDB: какую опенсорс базу выбрать для аналитики в 2025 году?»

#ru

@database_design | Другие наши каналы