DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ru

@database_design | Другие наши каналы
Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).
Тесты, графики, инсайды

Читать: https://habr.com/ru/companies/arenadata/articles/915684/

#ru

@database_design | Другие наши каналы
Разработка своего компактного TerraMaster на основе Twin Lake-N и PCIe Switch

В последнее появилось много компактных NAS с основным хранилищем на SSD носителях и с десяти гигабитным Ethernet. Высокая скорость работы твердотельных дисков в связке с высокой скоростью обмена по сети, прекрасно раскрывают возможности новой техники, а самое главное оправдывают ожидания их владельцев от новых технологий.

Насколько сложно самостоятельно собрать подобный NAS, используя доступные комплектующие и готовые компьютерные платформы? Как оказалось всё не так сложно, если найти подходящую платформу и немного её прокачать. Вот о такой доработке и пойдет речь.


Читать: https://habr.com/ru/companies/3rdman/articles/918254/

#ru

@database_design | Другие наши каналы
Что такое CDN и как она работает: объяснение на примере доставки котиков

Представьте, что вы построили идеальный сайт. Всё оптимизировано, но стоит тысяче пользователей из разных концов света одновременно захотеть посмотреть, как пушистик прыгает в коробку — и ваш сервер падает. Чтобы этого не случилось, в игру вступает CDN (Content delivery network). О том, как она работает, объясню на примере доставки котиков.


Читать: https://habr.com/ru/companies/ruvds/articles/918586/

#ru

@database_design | Другие наши каналы
Книга: «Kafka Streams в действии. Приложения и микросервисы, управляемые событиями. 2-е изд.»

Привет, Хаброжители!

Сейчас, когда данные генерируются непрерывно и в огромных объемах, умение эффективно обрабатывать события в реальном времени становится критически важным навыком для разработчиков. Книга от Билла Беджека — это подробное руководство по созданию мощных приложений на основе Apache Kafka, одной из самых надежных и популярных платформ для потоковой обработки данных.

Автор, опытный инженер и участник проекта Apache Kafka, предлагает читателям практический подход к освоению Kafka Streams и других компонентов экосистемы Kafka. В книге рассматриваются не только основы, но и продвинутые техники, включая интеграцию с Kafka Connect, управление схемами через Schema Registry, работу с ksqlDB и тестирование потоковых приложений.

Читать: https://habr.com/ru/companies/piter/articles/918910/

#ru

@database_design | Другие наши каналы
❤‍🔥2
Как мы внедрили векторный поиск в Postgres Pro

В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.


Читать: https://habr.com/ru/companies/postgrespro/articles/919552/

#ru

@database_design | Другие наши каналы
1
Новая интеграция MongoDB Enterprise Advanced с Cohesity и Rubrik упрощает резервное копирование и восстановление данных, объединяя процессы в привычных инструментах. Это повышает безопасность, ускоряет восстановление и поддерживает строгие корпоративные политики хранения данных. Новый инструмент для безопасности кода — Kingfisher от MongoDB

В MongoDB разработали Kingfisher — инструмент для автоматического поиска и проверки секретных ключей в коде. Он интегрируется в CI/CD, помогает предотвращать утечки и ускоряет исправление скомпрометированных данных. Подробнее на GitHub.

Читать подробнее

#en

@database_design | Другие наши каналы
Как создать память для ИИ, похожую на человеческую? Статья рассказывает о подходе, который использует MongoDB Atlas, AWS и Claude для создания активной, эволюционирующей системы памяти. Такая память приоритизирует важное, усиливается с повторением и забывает ненужное, улучшая взаимодействие с пользователем. Новый плагин MongoDB для IntelliJ ускоряет разработку Java-приложений, объединяя работу с базой данных и кодом в одном окне. Автодополнение, валидация схем и проверка производительности помогают создавать эффективные запросы без переключения между инструментами.

Читать подробнее

#en

@database_design | Другие наши каналы
Новый подход к мониторингу задержки репликации в MariaDB 11.8 LTS упрощает и стандартизирует измерения. В статье рассказывается о трёх новых полях, которые делают контроль более точным и понятным независимо от конфигурации параллельной репликации.

Читать подробнее

#en

@database_design | Другие наши каналы
Как я создавал коллекцию фильмов

Это было очень давно, году примерно в 1997. Однажды мне очень ярко приснился и хорошо запомнился следующий сон: как будто мы купили новый телевизор и видеомагнитофон. И несколько видеокассет.

Во сне это был не просто символ богатства, в то время такое событие стало бы целым культурным взрывом в рамках конкретно взятой семьи и конкретно взятого дома. Это были 90-е годы, зарубежная культура лилась на нас водопадом. Быть на передовой прогресса означало смотреть все новые фильмы на видео у себя в гостиной.

У моего друга детства Сашки был дома новый телевизор и видак, у моего друга детства Вовки дома был импортный телевизор и видак, у моего хорошего знакомого Димки был новый телевизор и видак. А у нас был старый советский черно-белый телевизор, который ловил две программы, в то время как всё самое интересное показывали по третьей. По финансовой причине то, что я увидел во сне, было для нас в то время недостижимой мечтой.

Мы ходили смотреть фильмы в основном к Сашке. Его старший брат где-то доставал кассеты с новинками, и всю классику 90-х я пересмотрел в первый раз именно у него дома. Зачастую в компании нас было 5 человек на сеансе просмотра какого-нибудь «От заката до рассвета» или «Смертельной битвы».

Я много раз пытался коллекционировать фильмы, у меня куплена куча DVD, но всегда чего-то не хватало, что-то было не так, вынужденные компромиссы не давали ощутить полноту заложенного в видеоряд потенциала. То не было нормального места для просмотра (смотреть фильмы, сидя за компьютером, совсем неудобно), то не устраивал слабый звук, то отсутствовала возможность получить в коллекцию фильм в нужном переводе или в режиссерской версии.

Прошло 27 лет. У меня появился дом в деревне с русской печкой, и в декабре 2024 года я создал коллекцию фильмов в высоком качестве. Только тогда всё сложилось, как во сне.

Лучше чем во сне.


Читать: https://habr.com/ru/articles/919734/

#ru

@database_design | Другие наши каналы
Почему ваше приложение тормозит: архитектурные bottlenecks, которые никто не замечает

Как найти и устранить архитектурные bottleneck'и: причины тормозов, типовые ошибки и пошаговая методика диагностики.

Читать: «Почему ваше приложение тормозит: архитектурные bottlenecks, которые никто не замечает»

#ru

@database_design | Другие наши каналы
Зачем нам свои сети, если ими никто не пользуется? Насколько все плохо с российскими SDN

Российские сети SDN — что с ними не так и почему инфраструктура так медленно развивается. Экспертный обзор ситуации на рынке

Читать: «Зачем нам свои сети, если ими никто не пользуется? Насколько все плохо с российскими SDN»

#ru

@database_design | Другие наши каналы
Путь к современному MDM на примере клиентского домена данных

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.


Читать: https://habr.com/ru/companies/datasapience/articles/920306/

#ru

@database_design | Другие наши каналы
Сериализация в Unity: известные атрибуты и их проблемы

Любой Unity-разработчик знаком с атрибутом [SerializeField], который позволяет сериализовывать непубличные члены класса и, соответственно, отображать их в инспекторе. Но, в силу его ограниченности, позже начали появляться и другие способы сериализации.

Попробую кратко рассказать, какие альтернативы используются, зачем все они нужны, как работают и, о чём не любят писать в кликбейтных постах, какие подводные камни могут скрывать.


Читать: https://habr.com/ru/articles/920398/

#ru

@database_design | Другие наши каналы
Подробная инструкция, что нужно сделать, чтобы РКН вас не оштрафовал

Для тех, кто в танке, и еще не озаботился вопросом о правильном хранении и сборе Персональных данных, делюсь подробной инструкцией и документами, которые снимут у вас основную головную боль. Мы провели обсуждения с несколькими юристами, коллегами, получили платные консультацию.

Делюсь с вами этим бесплатно. Просто пойдите и сделайте как написано.


Читать: https://habr.com/ru/articles/920570/

#ru

@database_design | Другие наши каналы
«Облачные хранилища: как выбрать идеальное решение для бизнеса» (1 часть)

В июле 2023 года Gartner представил отчет «Hype Cycle for Storage and Data Protection Technologies», предсказывая, что к 2026 году объем неструктурированных данных в локальных, периферийных и публичных облаках крупных предприятий вырастет в три раза!


Читать: https://habr.com/ru/articles/920578/

#ru

@database_design | Другие наши каналы
Как мы строим агрегатор финансовых продуктов в Казахстане: история Finance.kz

Как из обычного сайта-витрины вырастить финтех-продукт? Расскажу, как строится агрегатор финансовых продуктов в Казахстане.

Читать: «Как мы строим агрегатор финансовых продуктов в Казахстане: история Finance.kz»

#ru

@database_design | Другие наши каналы
Когда 0 в продажах — аномалия? CUSUM для поиска проблем в ритейле

Всем привет! Меня зовут Костя, и в этой статье я продолжу рассказ моей коллеги Анастасии из команды доступности Magnit Tech о том, как можно искать проблемные товары на полках магазинов, опираясь лишь на данные по дневным продажам и остаткам товара в магазине.

В этой статье я расскажу о другом, альтернативном алгоритме, который детектирует ощутимую долю проблемных позиций наравне с тем, о котором рассказывала моя коллега. Этот алгоритм также прост для понимания и интерпретации бизнесом. Его внедрение и эксплуатация требуют минимальных затрат: вычислительные ресурсы, сопровождение и адаптация под разные форматы магазинов обходятся недорого. Кроме того, он может служить эффективным первым шагом перед внедрением более сложных и ресурсоемких ML-алгоритмов. В отличие от нейросетевых подходов к поиску аномалий, которые требуют тщательной настройки (или даже разработки) оптимальной архитектуры сети, настроить этот алгоритм значительно проще.


Читать: https://habr.com/ru/companies/magnit/articles/918928/

#ru

@database_design | Другие наши каналы
Как мы автоматизировали обновление, развёртывание и настройку Postgres-like СУБД для пользователей

Привет, Хабр! Меня зовут Роман Аминов, я руковожу группой автоматизации бизнес-сценариев в команде СУБД Pangolin в СберТехе. Это специальная доработанная сборка PostgreSQL, целевая СУБД в Сбере и не только. СУБД — сложный продукт, обновление, настройка и другие рутинные действия, связанные с её сопровождением, сопряжены с риском потери данных. Чтобы облегчить жизнь пользователям (и вдобавок разгрузить нашу техподдержку) мы разработали инструмент для автоматизации кластеров СУБД, их настройки и конфигурирования, обновления версий компонентов в их составе и обслуживание. Решение уже прошло проверку на тысячах кластеров в Сбере и я готов поделиться тем, как всё это работает.

Уточню, что мы используем систему управления конфигурациями Ansible. Всё, что нужно для её работы — это возможность устанавливать SSH-соединения и Python на удалённых серверах.

Надеюсь, статья будет полезна или натолкнёт на свои мысли автоматизаторов и администраторов СУБД и вообще всех, кто связан с базами данных.


Читать: https://habr.com/ru/companies/sberbank/articles/919922/

#ru

@database_design | Другие наши каналы
Развёртывание отказоустойчивого Nextcloud Enterprise: пошаговое руководство

Привет! Сегодня поговорим о Nextcloud. Вы наверняка слышали об этом мощном решении для хранения, совместной работы и обмена файлами. В статье разберём, как развернуть Nextcloud в высокодоступной конфигурации с балансировщиком нагрузки, реплицируемой базой данных, отказоустойчивым хранилищем и полнотекстовым поиском.


Читать: https://habr.com/ru/companies/cloud4y/articles/920596/

#ru

@database_design | Другие наши каналы
Qsan: репликация средствами СХД

Важным аспектом при построении IT-инфраструктуры любой сложности является ее устойчивость к различным инцидентам. К сожалению, полностью исключить ошибки, вызванные аппаратной или программной неисправностью, а также человеческими действиями (случайными или преднамеренными), увы, невозможно. Поэтому всегда необходимо иметь четко отработанный план по восстановлению. Раз мы ведем речь в контексте использования СХД, то наиболее уязвимыми здесь являются как раз хранимые на ней данные.


Читать: https://habr.com/ru/companies/skilline/articles/918912/

#ru

@database_design | Другие наши каналы