DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Управление качеством данных

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье. Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных.

Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management).

Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.


Читать: https://habr.com/ru/articles/893158/

#ru

@database_design | Другие наши каналы
Grocy: идеальный self hosted сервис для хозяйственных технарей

Grocy — это open-source сервис, который помогает отслеживать запасы, управлять списками покупок и распределять домашние обязанности. В этом обзоре — как он работает, чем удобен и почему его лучше установить на сервер.


Читать: https://habr.com/ru/companies/pqhosting/articles/892464/

#ru

@database_design | Другие наши каналы
Всё пропало! Google удалил хронологию пользователей с карт

Сервис Google - Maps Timeline позволял пользователям легко посмотреть историю своих перемещений на Гугл картах, с привязкой к посещённым местам, сделанным фотографиям.

Сегодня Гугл убил его, а вместе с ним и историю моих путешествий за последние несколько лет...
Поплакать вместе с автором...

Читать: https://habr.com/ru/articles/893352/

#ru

@database_design | Другие наши каналы
В России сейчас дефицит стойко-мест в ЦОДах, и он будет расти



В 2022-м из российских дата-центров стали уходить зарубежные клиенты. Казалось, освободилось очень много места и ЦОДы скорее думали, как выжить при таких потерях. Крупные игроки могут подтвердить, что от них ушли такие якорные клиенты, как Apple, MS и подобные, которые платили хорошие деньги. В первое время никто не знал, что делать — продавать бизнес или как-то выкручиваться.

В этот момент новые ЦОДы никто не начинал строить, потому что не было смысла. Зачем строить, если клиенты ушли? Некоторые длительные проекты, типа ЦОДа МТС с 7-летним циклом строительства, продолжались, но и они сорвали все сроки.

Но очень быстро тренд развернулся. Оказалось, что стоек стало не хватать и даже не надо было сильно вкладываться в маркетинг. Началась волна регуляторики. В 2023 году всех окологосударственных начали возвращать в российские дата-центры. Закон о приземлении (который вышел ещё в 2021 году и вступил в силу в январе 2022) сначала был мягким, обязывал компании просто открыть офис. Но к 2024 году это переросло в реестр хостеров со всеми вытекающими.

Госкомпаниям дали понять, что хранить данные за рубежом не надо. Пошёл отток оттуда. Потом проблемы с платежами — ушли всякие Dropbox и другие сервисы, которые начали здесь дублировать. Поначалу были обходные пути, но они постепенно закрывались. Можно было платить через казахские карты, но недавно многим релокантам их заблокировали.

Ну а потом как вишенка размером с КамАЗ на торте пришёл инференс нейросетей.

В итоге ситуация очень странная: новые ЦОДы никто сейчас не строит и не будет в ближайшие годы, а дефицит места растёт.

Читать: https://habr.com/ru/companies/ruvds/articles/893154/

#ru

@database_design | Другие наши каналы
Эволюция Redis в Valkey 8.0: разбираем архитектурные изменения с точки зрения производительности

В сентябре 2024 года вышел релиз Valkey 8.0 — это key-value-хранилище также часто называют BSD-клоном Redis. В отличие от Redis, Valkey изначально создавался как опенсорс-проект. У него нет энтерпрайз-версии, а значит, развитие не сдерживается коммерческими ограничениями.

Весной 2024 года, когда началась активная работа над форком, команда разработчиков смогла принять и стабилизировать ряд патчей, которые заметно улучшили производительность по сравнению с Redis 7.2.

В этой статье Евгений Дюков, разработчик Managed Databases в Yandex Cloud, разбирает некоторые из изменений и делится результатами проведённых бенчмарков, которые позволяют оценить, как именно новые патчи повлияли на производительность — и в позитивном, и, в некоторых случаях, в негативном ключе. Особенно интересно будет тем, кто ждёт релиз Valkey 8.1 этой весной.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/893680/

#ru

@database_design | Другие наши каналы
MongoDB Atlas вышел на облачные сервисы в Мексике

MongoDB усиливает позиции в Мексике, втором по величине рынке в Латинской Америке. Теперь MongoDB Atlas доступен на AWS, Google Cloud и Microsoft Azure внутри страны, что открывает новые возможности для модернизации и масштабирования приложений, особенно в регламентированных отраслях. Как MongoDB помогает компаниям преодолевать вызовы

Компании по всему миру используют MongoDB для решения критически важных задач. Например, Lombard Odier внедрили MongoDB для модернизации систем, а SonyLIV улучшили свою платформу потокового видео. Узнайте больше об этих и других историях успеха в нашем блоге!

Читать подробнее

#en

@database_design | Другие наши каналы
Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.


Читать: https://habr.com/ru/companies/mostransproekt/articles/893882/

#ru

@database_design | Другие наши каналы
MongoDB и инновации в мире открытых финансов

Текст поста: Открытые финансы расширяют возможности обмена данными за пределы традиционного банкинга, включая инвестиции и страхование. MongoDB предлагает единую платформу для эффективного управления финансовыми данными, способствуя инновациям и улучшению пользовательского опыта. MongoDB Atlas в Мексике: Новые горизонты для бизнеса

MongoDB Atlas теперь доступен на AWS, Google Cloud и Azure в Мексике, ускоряя модернизацию приложений и обеспечивая гибкость в облаке. Это открывает новые возможности для локального бизнеса даже в условиях строгих регуляций, позволяя использовать ИИ и аналитические решения.

Читать подробнее

#en

@database_design | Другие наши каналы
🔍 Инновационный поиск с SQUARY AI

Cognistx, стартап из программы MongoDB для стартапов, меняет подход к поиску информации с помощью SQUARY AI. Этот инструмент ускоряет и упрощает поиск данных, используя передовые языковые модели и возможности MongoDB Atlas. Узнайте о будущем интуитивного поиска сейчас! Открытые финансы: Эволюция финансовых услуг

Открытые финансы развиваются из концепции открытого банкинга, позволяя клиентам делиться данными со сторонними провайдерами для продвижения инноваций. Теперь эта модель интегрирует кредиты, инвестиции и другие продукты, расширяя возможности финансового сектора и улучшая пользовательский опыт.

Читать подробнее

#en

@database_design | Другие наши каналы
Объектное хранилище S3: практическое руководство без лишних слов

Объектное хранилище S3 стало стандартом для работы с большими объемами данных в облаке. Оно позволяет хранить файлы любого типа, легко управлять доступом и интегрироваться с другими сервисами. Но давайте без маркетинговых лозунгов: зачем это действительно нужно?

Меня зовут Станислав Погоржельский, я технологический евангелист VK Cloud, и в том числе в рамках своей работы рассказываю про наши облачные и on-prem решения. В этой статье мне захотелось поделиться, как именно объектное хранилище S3 помогает решать реальные задачи.


Читать: https://habr.com/ru/companies/vktech/articles/892234/

#ru

@database_design | Другие наши каналы
Мы протестировали разные облака на скорость PostgreSQL

Мы тут запускаем последнее в России коммерческое облако, и один из побочных эффектов этого процесса — настраиваем тесты всех конкурентов, чтобы понимать объективную картину. Прошлый тест был про переподписку ядер процессора, и он вызывал нехилое такое пригорание пятой точки у суперпереподписанного Таймвеба (хотя по цене за производительность они оказались вполне в порядке).

Так вот, нашу подсеть уважаемый конкурент забанил, чтобы было неповадно их тестировать. А затем, похоже, подкрутил тесты для наших машин так, что они показали скорость света.

Облака в тесте:

1. Selectel.
2. Cloud.ru.
3. Timeweb.
4. VK.
5. Yandex.
6. Rostelecom.
7. H3LLO.CLOUD.

Коротко о результатах
Radar chart по трём показателям: производительность, стоимость к производительности и задержка инвертированная. Больше площадь — лучше
* Timeweb показал одну из самых низких производительностей, но при этом снова хорошую цену за единицу вычислений.
* VK Cloud и Яндекс оказались аутсайдерами: и производительность не впечатляет, и стоит дорого. У Яндекса есть ограничитель на максимальную производительность.
* Потом вы просили добавить нас в тесты, чтобы потом можно было предъявить, если что, и мы добавили. Нам надо было установить цену для своих тарифов, мы взяли её как медианное значение между Cloud.ru и Selectel.


Читать: https://habr.com/ru/companies/h3llo_cloud/articles/894914/

#ru

@database_design | Другие наши каналы
NVME over RoCE. Примеряем на себя

Так повелось, что по итогам своих опытов с различными технологиями подключения дискового пространства писал сюда небольшие заметки:

Настройка NVME over TCP — для тех, кому надо подключить больше 1 диска единственной конфигурации из всех примеров в Сети.

Попытка разогнать сеть для БД со 100 до 200Гб/c или «failure is always an option».

Настройка iScsi в L3-сети для эффективной утилизации возможностей канала и СХД.

Поскольку появился новый свежий опыт по настройке и тестированию подключения еще одним способом, и все уже собрано для внутренней wiki-статьи, решил продолжить традицию.


Читать: https://habr.com/ru/companies/beeline_tech/articles/890278/

#ru

@database_design | Другие наши каналы
Новые возможности безопасности и масштаба с MongoDB Atlas на Azure и Google Cloud

MongoDB объявила об обновлениях, усиливающих безопасность и масштабируемость облачного сервиса Atlas на Azure и Google Cloud. Включена поддержка Azure Private Link для безопасного подключения без публичного интернета. Также общий доступ на Google Cloud упрощает кросс-сервисное взаимодействие. Эти новшества дают больше контроля над облачным развитием и повышают эффективность разработок. MongoDB и будущее открытых финансов

В мире открытых финансов MongoDB выделяется как ключевая технология для обработки разнообразных типов данных без простоев и дорогостоящих миграций. Базы данных MongoDB обеспечивают безопасность и соответствие стандартам, что критично для финансовых учреждений. Система также гарантирует надежность и непрерывную доступность, необходимую для проведения финансовых операций.

Читать подробнее

#en

@database_design | Другие наши каналы
Названы лауреаты стипендии MongoDB 2025 года!

MongoDB объявила победителей второй по счету программы стипендий для PhD. Xingjian Bai, William Zhang и Renfei Zhou удостоены поддержки за выдающиеся исследования в области компьютерных наук. Программа направлена на развитие передовых технологических идей. Поздравляем и ждем новых открытий!
Читать подробнее

#en

@database_design | Другие наши каналы
Новые релизы MariaDB Connector/Java

MariaDB анонсировала выпуск обновлений для MariaDB Connector/Java версий 3.5.3, 3.4.2 и 3.3.4. Среди улучшений: решение проблем совместимости временных меток и изменения в настройках перенаправления. Подробности и ссылки на загрузку доступны на официальном сайте MariaDB.

Читать подробнее

#en

@database_design | Другие наши каналы
Как создать дедуплицирующую файловую систему с нуля? Опыт TATLIN.BACKUP

Как сделать высоконагруженную систему хранения данных в сжатые сроки? Чтобы она не падала через день, не теряла данные и не поглощала ресурсы, как Гулливер провизию в амбаре лилипутов. А еще нужно реализовать дедупликацию и заложить будущий функционал на этапе создания архитектуры. Неплохо бы и стоимость хранения гигабайта снизить до минимума, а скорость передачи данных наоборот, увеличить до второй космической.

Меня зовут Ростислав, я эксперт по разработке ПО отдела систем обработки данных в YADRO. Расскажу о вкладе нашей команды в разработку TATLIN.BACKUP: как мы с нуля создали дедуплицирующую файловую систему, а также какие вызовы преодолели за два года разработки и 200 тысяч строк кода.


Читать: https://habr.com/ru/companies/yadro/articles/895058/

#ru

@database_design | Другие наши каналы
Секционирование в PostgreSQL. Архитектура корзинного хранения данных. (Basket partitioning)

Привет, ХАБР! Я Хаймин Владимир, эксперт по системам управления базами данных PostgreSQL в ВТБ. Когда размеры таблиц становятся большими — обслуживание и доступ к данным становятся непростой задачей. Я хочу поделиться методикой организации секционирования в PostgreSQL, которая существенно упростила нам жизнь с таблицами большого размера, хранящие, например, исторические данные по датам. Назовем ее условно «Корзинным секционированием» (Basket partitioning). Данная технология реализована архитектурно, без необходимости расширения функционала сторонними инструментами или расширениями только штатными средствами ванильных версий PostgreSQL. Такая система хранения реализована, например, в проекте мониторинга pg_awr для упрощения удаления старых данных.

Секционирование в PostgreSQL

Секционирование — это техника разбиения одной большой таблицы базы данных (БД) на несколько меньших, логически связанных частей, называемых секциями. При этом, такая таблица с точки зрения ППО выглядит как одна большая таблица.

Современные версии PostgreSQL имеют достаточно развитые средства для работы с секционированными таблицами. При этом, несмотря на то что страдает автоматизация, например, создания и удаления секций, при правильной организации хранения данных работать с такой БД достаточно удобно. И эти удобства минимизируют вероятные ошибки.

PostgreSQL начиная с 10 версии, помимо наследования, поддерживается декларативное секционирование: диапазонное, списочное, хэш-секционирование.

Какие бывают базы данных по методу их наполнения и использования?


Читать: https://habr.com/ru/companies/vtb/articles/894950/

#ru

@database_design | Другие наши каналы
ADATA сделала супер-компактный SSD с USB-A и USB-C, который меньше и легче обычной флешки. Он весит меньше 8 граммов

Внешний накопитель — явно не тот аксессуар, который захочется всюду носить с собой. Он занимает место, цепляется за другие предметы, а иногда и вовсе теряется среди вещей. И это притом, что большинство из них чаще всего требует переходник для подключения к современным ноутбукам, смартфонам или планшетам, которые попросту лишены разъема USB-A. Добавьте к этому необходимость иметь достаточно места для хранения данных и приемлемую скорость передачи файлов, и выбор подходящего накопителя станет практически непосильной задачей. Но у ADATA есть решение.


Читать: https://habr.com/ru/companies/x-com/articles/895224/

#ru

@database_design | Другие наши каналы
Уже через год мы будем общаться с базами данных по-русски

По прогнозу Gartner, запросы на естественном языке вытеснят SQL уже в 2026 году. Возможно, прогноз Gartner чересчур оптимистичный, но если они и ошибаются, то только в сроках — сам переход на естественный язык в работе с БД неизбежен.


Читать: https://habr.com/ru/companies/postgrespro/articles/895436/

#ru

@database_design | Другие наши каналы
Можем ли мы хранить данные в ДНК?

Зеттабайт — это триллион гигабайт. Это очень много, но, по одной из оценок, в этом году человечество произведёт сто восемьдесят зеттабайт цифровых данных. Данные копятся: PowerPoints и селфи; видео, снятое камерами; электронные медицинские карты; данные, извлечённые из смарт-устройств или собранные телескопами и ускорителями частиц; резервные копии и резервные копии резервных копий. Куда всё это девать, сколько и как долго хранить? Эти вопросы не дают покоя учёным-компьютерщикам, управляющим мировыми хранилищами данных. Для них облако — это не клочок тумана, а физическая система, которую нужно создавать, оплачивать и обслуживать.

Эксперты по хранению данных говорят о температурной шкале данных. На одном конце находятся «горячие» данные — Википедия или ваш банковский баланс, — которые должны появляться на экране практически мгновенно. На другом — «холодные» данные, которые могут находиться в нескольких минутах или даже днях от кончиков ваших пальцев. «Тёплые» данные, расположенные посередине, например ваши старые фотографии, могут быть получены за несколько секунд. Большинство данных — «холодные», и многие из них, вероятно, можно стереть без последствий. Однако некоторые из них могут однажды оказаться критически важными, например, в уголовном деле, и их потенциальная ценность означает, что большая часть должна быть сохранена в целости и сохранности в течение неопределённого времени.


Читать: https://habr.com/ru/articles/895454/

#ru

@database_design | Другие наши каналы
Диспетчер паролей: как выбрать лучший

Несмотря на то, что использование паролей не является надежным методом аутентификации, они широко распространены при работе с различными сервисами и программами. Сегодня все больше пользователей сталкивается с необходимостью управлять десятками, а порой и сотнями паролей от различных сервисов. Хранить их в заметках, в личных сообщениях или в браузере не только неудобно, но и небезопасно. Чтобы решить данную проблему существуют специальные типы программ, которые помимо хранения обеспечивают защиту конфиденциальных данных предоставляя место, где они будут в безопасности. На рынке присутствуют десятки различных программ для администрирования паролей. Сегодня мы проведем подробный разбор программ для хранения паролей и разберем их основной функционал.


Читать: https://habr.com/ru/companies/timeweb/articles/895420/

#ru

@database_design | Другие наши каналы