DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?


Читать: https://habr.com/ru/articles/899080/

#ru

@database_design | Другие наши каналы
Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?

Pandas, Polars или PySpark — что выбрать для работы с данными? Вместе с Никитой Егоровым, ведущим аналитиком в МТС Диджитал, разбираем отличия, плюсы и минусы каждого инструмента.

Читать: «Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?»

#ru

@database_design | Другие наши каналы
Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

Это адаптированная для Хабра расшифровка доклада Алексея Дмитриева, директора аналитической платформы YDB DWH, которую создаёт команда Yandex Cloud, — компонента нашей гибридной базы данных YDB для обработки аналитических нагрузок. Когда проект только начинался, у нас было много наработок, которые мы успешно переиспользовали в других проектах. Но оказалось, что OLAP‑нагрузка так сильно отличается от OLTP, что за три года пришлось практически написать по ещё одной реализации многих частей системы. Под катом история о том, почему на рынке так мало гибридных баз данных класса Hybrid Transactional and Analytical Processing (HTAP) и какие сложности стоят на пути их разработки.


Читать: https://habr.com/ru/companies/ydb/articles/898716/

#ru

@database_design | Другие наши каналы
S3-совместимые хранилища: как собрать свой конструктор

В одном из больших кластеров S3 в Точке хранится 110 терабайт полезных данных. Это не много по объёму, но он распределён среди 600+ миллионов файлов. Стоимость работы системы оценивается более чем в миллион рублей в месяц.

Читать: «S3-совместимые хранилища: как собрать свой конструктор»

#ru

@database_design | Другие наши каналы
Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

В формуле идеального решения для резервного копирования данных enterprise-класса много переменных. Одна из ключевых — производительность решения, включая скорость копирования, нагрузку на сеть и потребление вычислительных ресурсов хранилища и источника данных.

Инженеры компаний YADRO и Киберпротект протестировали совместную работу системы резервного копирования Кибер Бэкап и системы хранения данных TATLIN.BACKUP в трех сценариях сохранения резервных копий виртуальных машин: с inline-дедупликацией, по протоколу NFS и агентом Tboost на узле хранения. Поделимся результатами тестирования совместимого решения, а заодно предметно поговорим об организации правильной архитектуры с учетом особенностей конкретной инфраструктуры.


Читать: https://habr.com/ru/companies/yadro/articles/899074/

#ru

@database_design | Другие наши каналы
MongoDB и Google Cloud расширяют возможности для разработчиков

На конференции Google Cloud Next '25 MongoDB объявила о расширении сотрудничества с Google Cloud. Благодаря новым интеграциям разработчикам будет проще создавать на базе AI и управлять данными в облаке. MongoDB получила награду "Партнер года" и расширила доступность в регионах Мексики и Южной Африки.

Читать подробнее

#en

@database_design | Другие наши каналы
🚀 Новый релиз MariaDB Connector/C

MariaDB выпустила обновления для Connector/C версий 3.4.5, 3.3.15 и 3.1.28. Узнайте больше о важных изменениях в новых версиях и скачайте обновления на официальном сайте MariaDB. Подробности о релизах ищите в примечаниях и логах изменений на mariadb.com.

Читать подробнее

#en

@database_design | Другие наши каналы
Как защитить интернет-магазин от перегрузок: RPS, масштабирование и отказоустойчивость

Перегрузка интернет-магазина – головная боль владельца бизнеса. Сайт тормозит, корзина зависает, клиенты не могут оформить заказ. Почему это происходит? Как предотвратить коллапс системы в разгар распродаж?

В этой статье расскажем, как повысить RPS и обеспечить отказоустойчивость. Поделимся планом действий и разберем кейс из нашей практики.


Читать: https://habr.com/ru/articles/892680/

#ru

@database_design | Другие наши каналы
Рассказываем об апдейтах за март: месяц бесплатного S3, настройка IOPS и не только

Привет! Я — Дима, технический писатель в Selectel. Под катом рассказываю, как подключать сетевые диски к нескольким серверам, о новых конфигурациях в DBaaS, а также улучшениях в Kubernetes. В конце — приглашения на апрельские мероприятия.

Читать: https://habr.com/ru/companies/selectel/articles/899448/

#ru

@database_design | Другие наши каналы
NVMe для HDD: как новая технология решает проблемы хранения данных ИИ

Системы искусственного интеллекта сталкиваются с серьезной проблемой: как хранить и обрабатывать огромные объемы данных, необходимые для обучения и работы моделей. Традиционные решения уже не справляются с требованиями скорости, масштабируемости и экономичности.

Решением могут стать жесткие диски с интерфейсом NVMe. Они сочетают в себе экономичность HDD с производительностью NVMe, устраняя узкие места в системах хранения данных для ИИ.

Seagate впервые представила прототип таких накопителей в 2021 году на саммите Open Compute Project, а в марте 2025 года на конференции GTC компания продемонстрировала уже полноценное решение, интегрирующее NVMe HDD с современной платформой Mozaic 3+ и процессорами обработки данных NVIDIA BlueField-3.

Разбираемся, как NVMe HDD могут изменить подход к хранению данных для ИИ и стать ключевым элементом будущих инфраструктур.


Читать: https://habr.com/ru/companies/mclouds/articles/899490/

#ru

@database_design | Другие наши каналы
High Availability в Postgres Pro без головной боли

Для тех, кто устал от «зоопарка» решений по созданию отказоустойчивых кластеров, расскажем, как добиться нужной функциональности одним решением. BiHA позволяет данным «выжить», даже если один из ЦОДов был физически уничтожен. Как же мы этого добились?


Читать: https://habr.com/ru/companies/postgrespro/articles/898396/

#ru

@database_design | Другие наши каналы
Мониторинг бэкапов PostgreSQL, сделанных в pg_probackup

Хочу поделиться с сообществом свой наработкой по мониторингу бэкапов PostgreSQL.

Для того чтобы делать сами бэкапы, используется сторонний open source инструмент pg_probackup (разработка компании Postgres Professional).

Этот инструмент умеет делать инкрементные бэкапы, а также автоматизирует сопутствующие процессы, такие как, сжатие данных, merge, удаление старых бэкапов и wal-файлов.

Остается проблема мониторинга. Предположим, мы настроили pg_probackup и он трудится упорно, вызываемый регулярно через cron.

Как мы узнаем, о том, что что-то сломалось?

Для решения этой проблемы был написан небольшой экспортер метрик pg_probackup для Prometheus.


Читать: https://habr.com/ru/articles/899426/

#ru

@database_design | Другие наши каналы
Чек-лист: как перейти на новый хостинг и не потерять данные

Иван Некулицы, основатель PQ.Hosting, рассказывает, как организовать переезд на другой хостинг без рисков и простоев.

Читать: «Чек-лист: как перейти на новый хостинг и не потерять данные»

#ru

@database_design | Другие наши каналы
Это путь воина: как я выучил Python и Go с помощью Цеттелькастена и кому точно не рекомендую метод

Привет, Хабр! Меня зовут Дмитрий, я работаю в YADRO. Я прошел большой путь в самостоятельном изучении языков программирования: от SQL до Go. Сначала я вообще не документировал процесс обучения, затем стал вести заметки по «академическому» принципу — писал конспекты, как в университете. Пока не открыл древовидную систему хранения данных, которая лежит в основе метода Цеттелькастен.

В этой статье расскажу, как порядок в заметках помогает лучше усваивать материал, кому подойдет Цеттелькастен или подобные методы и что лучше — простые конспекты или структурированные заметки.


Читать: https://habr.com/ru/companies/yadro/articles/899850/

#ru

@database_design | Другие наши каналы
Что вендоры выпустили в марте? Новинки от NVIDIA, Supermicro и не только

Вопреки весеннему обострению, вендоры в марте оказались более спокойными и не выпускали прорывных новинок. Хотя среди них все же есть «железки», за развитием которых стоит наблюдать. Среди интересных новинок — и новый серверный ускоритель от NVIDIA, и решения, отличные от классических GPU.

Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этом дайджесте собрал самые стоящие «железки», которые выпустили вендоры в марте. Подробности под катом!

Читать: https://habr.com/ru/companies/selectel/articles/899912/

#ru

@database_design | Другие наши каналы
Memory Maps и кривые настройки Kafka или как положить весь кластер разом

Добрый день! Меня зовут Богдан, я тимлид в одном из отечественных финтехов. Сегодня я хочу поделиться нашей историей: как нам удалось, ненарочно, зашедулить падение всех нод одного из наших кластеров Kafka.

В один из холодных февральских дней пришло сообщение от мониторинга с виртуальных машин кластера Kafka: «Свободное дисковое пространство достигло значения < 15%». Было решено исследовать, нужно ли добавлять дискового пространства или же можно потюнить настройки ретеншена данных.

Тут стоит немного вспомнить теорию. Как известно, в Kafka сообщения распределяются по партициям, а каждая партиция на брокере представлена набором сегментов. Число сегментов у партиций может быть разным — оно варьируется в зависимости от интенсивности записи и настроек размера сегмента.

Сегмент (если упростить) — это лог-файл, в который просто пишутся данные в конец. По достижении временного предела либо его размера он ротируется: создается новый сегмент, и запись идет уже в него.

Держа вышесказанное в голове, мы отправились смотреть настройки хранения сегментов в нашем кластере Kafka..


Читать: https://habr.com/ru/articles/900094/

#ru

@database_design | Другие наши каналы
DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.


Читать: https://habr.com/ru/companies/otus/articles/900080/

#ru

@database_design | Другие наши каналы
👍2
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@database_design | Другие наши каналы
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@database_design | Другие наши каналы
Low-code без границ: терабайты данных в конструкторе приложений

Бум No-code начался в 2022 году, и сейчас многие компании стараются так или иначе внедрить функционал «low-code» в свои продукты. У участников IT-индустрии пока нет согласия о границах применимости технологий «без кода», хотя адепты этих технологий обещают, что они позволят создавать практически любые приложения.

В этой заметке мы рассмотрим один из основных аспектов создания приложений – его масштабируемость в средней и дальней перспективе. Для этого сам продукт под капотом должен быть построен на чем-то более мощном, чем MS Excel, Airtable, Notion и Make, и такие продукты уже есть на рынке.

Фатальные проблемы масштабируемости проявляются с ростом объемов данных и количества пользователей, которые с ними работают – с этого мы и начнём.
Давай уже про терабайты

Читать: https://habr.com/ru/articles/900308/

#ru

@database_design | Другие наши каналы
Как пройти 45 собеседований за 2 месяца и остаться в живых? Опыт аналитика

Аналитик прошёл 45 собеседований за два месяца — рассказываем, как изменился рынок труда в IT, через что проходят кандидаты, как не перегореть, отсеивать токсичные компании и выстроить стратегию поиска, которая действительно работает.

Читать: «Как пройти 45 собеседований за 2 месяца и остаться в живых? Опыт аналитика»

#ru

@database_design | Другие наши каналы