DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Атака через заброшенные бакеты

Пример ссылки на удалённый бакет termis с государственного сайта, источник

В связи с развитием технологий каждый год появляются принципиально новые способы атаки, которые раньше никому в голову не приходили и/или не были возможны технически. Например, в 2025 году впервые в истории исследователи провели атаку через заброшенные бакеты S3. Это разновидность атаки на цепочку поставок, как пресловутый случай SolarWinds. Такие действия злоумышленников практически невозможно детектировать стандартными инструментами безопасности, поэтому те могут незаметно работать годами.

Взлом доверенных бакетов означает автоматический доступ к тысячам компаний и организаций, которые скачивают оттуда софт: обновления, исходный код, опенсорсные библиотеки и т. д.


Читать: https://habr.com/ru/companies/globalsign/articles/914742/

#ru

@database_design | Другие наши каналы
MVP по «умному» поиску данных

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»


Читать: https://habr.com/ru/companies/alfa/articles/915012/

#ru

@database_design | Другие наши каналы
Data Mesh: ожидания vs реальность

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?


Читать: https://habr.com/ru/companies/lemana_tech/articles/913550/

#ru

@database_design | Другие наши каналы
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/884560/

#ru

@database_design | Другие наши каналы
Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).
Тесты, графики, инсайды

Читать: https://habr.com/ru/companies/arenadata/articles/915684/

#ru

@database_design | Другие наши каналы
Разработка своего компактного TerraMaster на основе Twin Lake-N и PCIe Switch

В последнее появилось много компактных NAS с основным хранилищем на SSD носителях и с десяти гигабитным Ethernet. Высокая скорость работы твердотельных дисков в связке с высокой скоростью обмена по сети, прекрасно раскрывают возможности новой техники, а самое главное оправдывают ожидания их владельцев от новых технологий.

Насколько сложно самостоятельно собрать подобный NAS, используя доступные комплектующие и готовые компьютерные платформы? Как оказалось всё не так сложно, если найти подходящую платформу и немного её прокачать. Вот о такой доработке и пойдет речь.


Читать: https://habr.com/ru/companies/3rdman/articles/918254/

#ru

@database_design | Другие наши каналы
Что такое CDN и как она работает: объяснение на примере доставки котиков

Представьте, что вы построили идеальный сайт. Всё оптимизировано, но стоит тысяче пользователей из разных концов света одновременно захотеть посмотреть, как пушистик прыгает в коробку — и ваш сервер падает. Чтобы этого не случилось, в игру вступает CDN (Content delivery network). О том, как она работает, объясню на примере доставки котиков.


Читать: https://habr.com/ru/companies/ruvds/articles/918586/

#ru

@database_design | Другие наши каналы
Книга: «Kafka Streams в действии. Приложения и микросервисы, управляемые событиями. 2-е изд.»

Привет, Хаброжители!

Сейчас, когда данные генерируются непрерывно и в огромных объемах, умение эффективно обрабатывать события в реальном времени становится критически важным навыком для разработчиков. Книга от Билла Беджека — это подробное руководство по созданию мощных приложений на основе Apache Kafka, одной из самых надежных и популярных платформ для потоковой обработки данных.

Автор, опытный инженер и участник проекта Apache Kafka, предлагает читателям практический подход к освоению Kafka Streams и других компонентов экосистемы Kafka. В книге рассматриваются не только основы, но и продвинутые техники, включая интеграцию с Kafka Connect, управление схемами через Schema Registry, работу с ksqlDB и тестирование потоковых приложений.

Читать: https://habr.com/ru/companies/piter/articles/918910/

#ru

@database_design | Другие наши каналы
❤‍🔥2
Как мы внедрили векторный поиск в Postgres Pro

В статье разберемся, что такое векторный поиск, какие проблемы он решает, и как расширение pgpro_vector для Postgres Pro позволяет реализовать эти мощные возможности прямо в реляционной базе данных, без необходимости развертывать отдельные специализированные системы.


Читать: https://habr.com/ru/companies/postgrespro/articles/919552/

#ru

@database_design | Другие наши каналы
1
Новая интеграция MongoDB Enterprise Advanced с Cohesity и Rubrik упрощает резервное копирование и восстановление данных, объединяя процессы в привычных инструментах. Это повышает безопасность, ускоряет восстановление и поддерживает строгие корпоративные политики хранения данных. Новый инструмент для безопасности кода — Kingfisher от MongoDB

В MongoDB разработали Kingfisher — инструмент для автоматического поиска и проверки секретных ключей в коде. Он интегрируется в CI/CD, помогает предотвращать утечки и ускоряет исправление скомпрометированных данных. Подробнее на GitHub.

Читать подробнее

#en

@database_design | Другие наши каналы
Как создать память для ИИ, похожую на человеческую? Статья рассказывает о подходе, который использует MongoDB Atlas, AWS и Claude для создания активной, эволюционирующей системы памяти. Такая память приоритизирует важное, усиливается с повторением и забывает ненужное, улучшая взаимодействие с пользователем. Новый плагин MongoDB для IntelliJ ускоряет разработку Java-приложений, объединяя работу с базой данных и кодом в одном окне. Автодополнение, валидация схем и проверка производительности помогают создавать эффективные запросы без переключения между инструментами.

Читать подробнее

#en

@database_design | Другие наши каналы
Новый подход к мониторингу задержки репликации в MariaDB 11.8 LTS упрощает и стандартизирует измерения. В статье рассказывается о трёх новых полях, которые делают контроль более точным и понятным независимо от конфигурации параллельной репликации.

Читать подробнее

#en

@database_design | Другие наши каналы
Как я создавал коллекцию фильмов

Это было очень давно, году примерно в 1997. Однажды мне очень ярко приснился и хорошо запомнился следующий сон: как будто мы купили новый телевизор и видеомагнитофон. И несколько видеокассет.

Во сне это был не просто символ богатства, в то время такое событие стало бы целым культурным взрывом в рамках конкретно взятой семьи и конкретно взятого дома. Это были 90-е годы, зарубежная культура лилась на нас водопадом. Быть на передовой прогресса означало смотреть все новые фильмы на видео у себя в гостиной.

У моего друга детства Сашки был дома новый телевизор и видак, у моего друга детства Вовки дома был импортный телевизор и видак, у моего хорошего знакомого Димки был новый телевизор и видак. А у нас был старый советский черно-белый телевизор, который ловил две программы, в то время как всё самое интересное показывали по третьей. По финансовой причине то, что я увидел во сне, было для нас в то время недостижимой мечтой.

Мы ходили смотреть фильмы в основном к Сашке. Его старший брат где-то доставал кассеты с новинками, и всю классику 90-х я пересмотрел в первый раз именно у него дома. Зачастую в компании нас было 5 человек на сеансе просмотра какого-нибудь «От заката до рассвета» или «Смертельной битвы».

Я много раз пытался коллекционировать фильмы, у меня куплена куча DVD, но всегда чего-то не хватало, что-то было не так, вынужденные компромиссы не давали ощутить полноту заложенного в видеоряд потенциала. То не было нормального места для просмотра (смотреть фильмы, сидя за компьютером, совсем неудобно), то не устраивал слабый звук, то отсутствовала возможность получить в коллекцию фильм в нужном переводе или в режиссерской версии.

Прошло 27 лет. У меня появился дом в деревне с русской печкой, и в декабре 2024 года я создал коллекцию фильмов в высоком качестве. Только тогда всё сложилось, как во сне.

Лучше чем во сне.


Читать: https://habr.com/ru/articles/919734/

#ru

@database_design | Другие наши каналы
Почему ваше приложение тормозит: архитектурные bottlenecks, которые никто не замечает

Как найти и устранить архитектурные bottleneck'и: причины тормозов, типовые ошибки и пошаговая методика диагностики.

Читать: «Почему ваше приложение тормозит: архитектурные bottlenecks, которые никто не замечает»

#ru

@database_design | Другие наши каналы
Зачем нам свои сети, если ими никто не пользуется? Насколько все плохо с российскими SDN

Российские сети SDN — что с ними не так и почему инфраструктура так медленно развивается. Экспертный обзор ситуации на рынке

Читать: «Зачем нам свои сети, если ими никто не пользуется? Насколько все плохо с российскими SDN»

#ru

@database_design | Другие наши каналы
Путь к современному MDM на примере клиентского домена данных

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM.

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.


Читать: https://habr.com/ru/companies/datasapience/articles/920306/

#ru

@database_design | Другие наши каналы
Сериализация в Unity: известные атрибуты и их проблемы

Любой Unity-разработчик знаком с атрибутом [SerializeField], который позволяет сериализовывать непубличные члены класса и, соответственно, отображать их в инспекторе. Но, в силу его ограниченности, позже начали появляться и другие способы сериализации.

Попробую кратко рассказать, какие альтернативы используются, зачем все они нужны, как работают и, о чём не любят писать в кликбейтных постах, какие подводные камни могут скрывать.


Читать: https://habr.com/ru/articles/920398/

#ru

@database_design | Другие наши каналы
Подробная инструкция, что нужно сделать, чтобы РКН вас не оштрафовал

Для тех, кто в танке, и еще не озаботился вопросом о правильном хранении и сборе Персональных данных, делюсь подробной инструкцией и документами, которые снимут у вас основную головную боль. Мы провели обсуждения с несколькими юристами, коллегами, получили платные консультацию.

Делюсь с вами этим бесплатно. Просто пойдите и сделайте как написано.


Читать: https://habr.com/ru/articles/920570/

#ru

@database_design | Другие наши каналы
«Облачные хранилища: как выбрать идеальное решение для бизнеса» (1 часть)

В июле 2023 года Gartner представил отчет «Hype Cycle for Storage and Data Protection Technologies», предсказывая, что к 2026 году объем неструктурированных данных в локальных, периферийных и публичных облаках крупных предприятий вырастет в три раза!


Читать: https://habr.com/ru/articles/920578/

#ru

@database_design | Другие наши каналы
Как мы строим агрегатор финансовых продуктов в Казахстане: история Finance.kz

Как из обычного сайта-витрины вырастить финтех-продукт? Расскажу, как строится агрегатор финансовых продуктов в Казахстане.

Читать: «Как мы строим агрегатор финансовых продуктов в Казахстане: история Finance.kz»

#ru

@database_design | Другие наши каналы
Когда 0 в продажах — аномалия? CUSUM для поиска проблем в ритейле

Всем привет! Меня зовут Костя, и в этой статье я продолжу рассказ моей коллеги Анастасии из команды доступности Magnit Tech о том, как можно искать проблемные товары на полках магазинов, опираясь лишь на данные по дневным продажам и остаткам товара в магазине.

В этой статье я расскажу о другом, альтернативном алгоритме, который детектирует ощутимую долю проблемных позиций наравне с тем, о котором рассказывала моя коллега. Этот алгоритм также прост для понимания и интерпретации бизнесом. Его внедрение и эксплуатация требуют минимальных затрат: вычислительные ресурсы, сопровождение и адаптация под разные форматы магазинов обходятся недорого. Кроме того, он может служить эффективным первым шагом перед внедрением более сложных и ресурсоемких ML-алгоритмов. В отличие от нейросетевых подходов к поиску аномалий, которые требуют тщательной настройки (или даже разработки) оптимальной архитектуры сети, настроить этот алгоритм значительно проще.


Читать: https://habr.com/ru/companies/magnit/articles/918928/

#ru

@database_design | Другие наши каналы