DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Блокчейн или не блокчейн? Формализованные критерии выбора технологии хранения и обработки данных

Приветствую, Хабр! В очередной раз возникло желание обсудить блокчейн-технологии, хотя им и было посвящено уже немало публикаций на Хабре (да и, несомненно, их еще будет много в дальнейшем).
Многие технологии делают нашу жизнь лучше и интереснее. Блокчейн, несомненно, относится к таковым. Но в очень многих случаях вокруг блокчейна возникает излишний информационный шум, который далеко не всегда способствует правильному восприятию блокчейна именно как одной из ряда существующих технологий хранения и обработки данных.
В результате этого выбор данной технологии как базовой в той или иной системе может быть продиктован не техническими требованиями к системе, а как результат выбора (возможно даже, что навязанного извне) в пользу модной и перспективной технологии, возможно при этом не совсем технически обоснованного.
В течение последнего десятилетия некоторые организации и отдельные эксперты озаботились подобной ситуацией, когда выбор блокчейн-технологии может быть ошибочным именно из-за наличия факторов нетехнического характера, в результате чего было опубликовано несколько рекомендаций, в той или иной степени формализующих ответ на вопрос, использовать ли блокчейн при разработке новой системы или предпочесть какую-либо альтернативную технологию.

В этой статье мы рассмотрим достоинства и недостатки блокчейн-технологий и попытаемся классифицировать сферы их применения, после чего дадим обзор формализованных методов выбора: «блокчейн или не блокчейн».


Читать: https://habr.com/ru/companies/aktiv-company/articles/760730/
Fusing MongoDB and Databricks to Deliver AI-Augmented Search

The text talks about the fusion of MongoDB and Databricks to deliver AI-augmented search in the retail industry. It highlights the importance of a seamless search experience for customers and how integrating MongoDB and Databricks can streamline the search process and add AI and advanced search functionalities to e-commerce applications. The text also mentions the benefits of using MongoDB for data storage, processing, and analysis in the autonomous driving industry. It discusses the challenges faced by automotive manufacturers in handling large volumes of data and highlights how MongoDB's document model and comprehensive data pre-processing capabilities can address these challenges. Additionally, it mentions Alibaba Cloud's partnership with MongoDB to provide a solution for collecting, storing, and processing diverse data from self-driving vehicles. The text also mentions an upcoming event, MongoDB.local Singapore, where keynote speakers will share their experiences and insights on using MongoDB in different industries.

Read: https://www.mongodb.com/blog/post/fusing-mongodb-databricks-deliver-ai-augmented-search
View and Analyze Your Monthly MongoDB Atlas Usage with Cost Explorer



Read: https://www.mongodb.com/blog/post/view-analyze-your-monthly-mongodb-atlas-usage-cost-explorer
Еще больше видеокарт, SSD-дисков и отечественных блоков питания! Что подготовил рынок серверного железа в августе

Привет, Хабр! Наконец я перевернул календарь и готов рассказать про новинки серверного железа, которые представили вендоры в августе. Хедлайнеры этого месяца — свежие видеокарты от Nvidia, а также SSD- и HDD-диски ряда брендов. Уже присматриваете железо для обновления своих серверов? Тогда приглашаю под кат.


Читать: https://habr.com/ru/companies/selectel/articles/758696/
Oracle and Microsoft expand partnership to deliver Oracle database services in Azure

Oracle is committed to provide the easiest path for customers to migrate their mission critical workloads, many of which have long been powered by Oracle databases. Read more about how Oracle Database@Azure provides customers more flexibility and choice with Oracle database services running on OCI, colocated in Microsoft Azure data centers for the highest levels of Oracle Database performance, scale, security, and availability, on par with what we offer in OCI.

Read: https://blogs.oracle.com/cloud-infrastructure/post/oracle-microsoft-deliver-oracle-database-at-azure
Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.

В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.

P.S. На картинке спрятаны 6 инструментов для работы с данными. Узнали их?


Читать: https://habr.com/ru/companies/slurm/articles/756652/
Разрезать и залить видео на Яндекс.диск — бесплатно

Предлагается рассмотреть программу на python, которая позволит в рамках бесплатного тарифа «Яндекс.диска» нарезать и заливать видеофайлы размерами, которые превышают 1 Гб (требование тарифа), получать ссылки на них. Никакой магии — только api «yandex.диска» и немного python.


Читать: https://habr.com/ru/articles/761652/
Сертифицируй ЭТО: как получить сертификат ФСТЭК на новейшую версию ПО

Привет! Сегодня наш разговор пойдет про сертификацию ФСТЭК и про тонкости этого процесса. Этот пост — не про теорию, а про практику, которая позволила нам получить одобрение ФСТЭК на версию 2.32 (на тот момент являлась новейшей - сейчас есть еще 2.33). Мы расскажем о том, что все это значит для пользователей нашей BI-платформы (из первых уст), а также почему мы уверены, что сертификация — это правильная практика не только “для бумажки”, но и для реальной пользы дела. Надеюсь, многое из этого текста окажется полезно как разработчикам российского ПО, так и его пользователям. Все подробности процесса нашей сертификации, в том числе мучительные — под катом!


Читать: https://habr.com/ru/companies/visiology/articles/761690/
Собственный строковый тип на Rust



Писать компиляторы — моё хобби, ничего не могу с собой поделать. Поэтому я пишу и много парсеров. В программировании систем обычно лучше попытаться сделать память общей, чем использовать её многократно, поэтому мои типы AST обычно выглядят так.

pub enum Expr<'src {
Int(u32)
Ident(&'src str),
// ...
}

Когда мы парсим идентификатор, то вместо копирования его названия в новую String мы заимствуем его из входной исходной строки. Это позволяет избежать дополнительных распределений, дополнительного копирования и экономит слово на представлении данных. Компиляторы могут быть очень требовательны к памяти, поэтому стоит выбирать краткое представление.


Читать: https://habr.com/ru/companies/ruvds/articles/761746/
Why Queryable Encryption Matters to Developers and IT Decision Makers



Read: https://www.mongodb.com/blog/post/why-queryable-encryption-matters-developers-it-decision-makers
Introducing Oracle True Cache : In-memory, consistent, and automatically managed SQL and key-value (object) cache

Oracle True Cache is an in-memory, consistent, and automatically managed cache for Oracle Database. It is a cutting-edge caching solution designed to tackle the challenges faced by modern business applications. This blog discusses the features and capabilities of Oracle True Cache and how it empowers organizations to optimize performance, mitigate data staleness, and efficiently manage cached data

Read: https://blogs.oracle.com/database/post/introducing-oracle-true-cache
Нагрузочный поединок между Tarantool 2.10 и Hazelcast 4.5.4

В прошлый раз мы сравнили Tarantool с Redis, а в этой статье решили провести тесты с Hazelcast.

Так же, как в прошлой статье, мы рассматриваем вариант Tarantool как замены: берём типичные кейсы работы с Hazelcast и реализуем такие же механики на Tarantool, начиная от простых K-V операций и заканчивая вторичными ключами.


Читать: https://habr.com/ru/companies/kts/articles/759526/
Нагрузочный поединок между Tarantool 2.10 и Hazelcast 4.5.4

В прошлый раз мы сравнили Tarantool с Redis, а в этой статье решили провести тесты с Hazelcast.

Так же, как в прошлой статье, мы рассматриваем вариант Tarantool как замены: берём типичные кейсы работы с Hazelcast и реализуем такие же механики на Tarantool, начиная от простых K-V операций и заканчивая вторичными ключами.


Читать: https://habr.com/ru/companies/kts/articles/762008/
Clickhouse — непростая жизнь в продакшене

Около двух лет назад вышла небольшая статья Kafka Streams — непростая жизнь в production, в которой я описывал сложности, с которыми наша команда столкнулась при попытке решить задачи проекта с помощью kafka-streams. Эксперимент вышел неудачным, и мы в итоге совсем отказались от этой технологии. Вместо нее решили попробовать Clickhouse (CH), и сейчас уже можно сказать, что эта база нам очень хорошо подошла и отлично решает почти все задачи, которые нам ставит бизнес. В этой статье я расскажу об особенностях использования CH.


Читать: https://habr.com/ru/companies/maxilect/articles/761258/
Migrate to MariaDB Server from MySQL 5.7 using a single command

Read: https://mariadb.com/?p=37629
Fusing MongoDB and Databricks to Deliver AI-Augmented Search

The article discusses the benefits of integrating MongoDB and Databricks to deliver AI-Augmented Search in the retail industry. It explains how this powerful tech stack can streamline the search process and enhance e-commerce applications with AI and advanced search functionalities. The article also highlights the importance of having a solid data model and a flexible operational data layer to personalize search results in real time. It mentions the use of MongoDB's Translytical capabilities for real-time data processing and analysis. Additionally, the article discusses the relevance of AI-generated search results and the advantages of using MongoDB Atlas and Databricks for data processing and training inference models. The article concludes by emphasizing the importance of search in the buying process and the benefits of using MongoDB and Databricks to build AI and search capabilities into e-commerce applications.

The second part of the text discusses the various employee benefits offered by MongoDB. It mentions the company's goal of supporting employees' emotional, physical, financial, and family well-being through programs like MongoDB Bloom, which provides resources and monthly training sessions on topics like stress management and nutrition. It also highlights the company's family-friendly policies, such as generous parental leave and childcare support programs. The article mentions the personal experience of a MongoDB employee who took advantage of the extended parental leave policy. Furthermore, it discusses the company's support for fertility and adoption by partnering with Carrot to provide tailored fertility benefits worldwide. MongoDB also offers global mobility opportunities for employees to transfer to different offices and encourages personal and professional development. This text discusses various aspects of the employee experience at MongoDB, a company that values flexibility, diversity, and employee well-being. It highlights examples of employees taking advantage of the company's policies such as internal transfers leading to relocations, flexible paid time off, and support for transgender employees. The text also mentions the company's employee resource groups, mental health support programs, and wellness events and programs. It concludes with an invitation to learn more about MongoDB and its career opportunities. The text explains the concept of client-side field level encryption, which is also known as end-to-end encryption. This type of encryption provides an additional layer of security to protect sensitive data. However, architects and developers face challenges in implementing these solutions efficiently. Some of the challenges include choosing the right cryptographic tools, managing encryption keys, and customizing applications. MongoDB offers a solution called Queryable Encryption, which encrypts data at the client side and maintains encryption throughout its lifecycle. It also allows customers to run queries on encrypted data, providing a high level of security and convenience for IT decision-makers and developers. Queryable Encryption is designed by experts in encrypted search and uses standard cryptographic primitives. It simplifies the development process and helps enterprises meet data privacy requirements. MongoDB's comprehensive encryption solution includes key management and supports various key providers. The text also mentions that the equality query type is supported in version 7.0 GA and automation encryption is enabled. It provides additional resources for more information on Queryable Encryption.

Read: https://www.mongodb.com/blog/post/fusing-mongodb-databricks-deliver-ai-augmented-search
Leading Industry Analysts Comment on the Database Announcement at Oracle CloudWorld 2023

During CloudWorld 2023, Oracle announced its plans to add semantic search capabilities using AI vectors to Oracle Database 23c. The collection of features, called AI Vector Search, includes a new vector data type, vector indexes, and vector search SQL operators. In addition, the announcement includes the latest updates to Oracle Database services and products.

Read: https://blogs.oracle.com/database/post/leading-industry-analysts-comment-on-ocw2023-database-announcement
Нужны ли BI-системы для работы с 1С?

Зачем пользователям 1С нужны внешние BI-системы? Ведь 1С разрабатывалась как самостоятельная программа для организации бизнес-процессов.

В 1С уже есть возможность создавать:

- быстрые отчеты, причем с конструкторами настроек (довольно сложными и гибкими);

- диаграммы (для тех, кому мало таблиц);

- преднастроенные отчеты.


Читать: https://habr.com/ru/articles/762018/
Почему на новые SSD ставят вентиляторы. Термотроттлинг


ineo M.2 2280 SSD Rocket Heatsink с вентилятором, источник

Динамический термотроттлинг — функция современных SSD, когда контроллер специально замедляет/приостанавливает свою работу, чтобы снизить температуру ячеек памяти NAND. Он делает это ради сохранения данных, чтобы накопитель не перегрелся и не сработали контуры отключения питания.

С каждым поколением PCIe пропускная способность линий PCIe обычно удваивается. В PCIe 4.0 скорость SSD приближалась к теоретическому максимуму 8 ГБ/с. Сегодня SSD PCIe Gen 5.0 x4 разгоняются до 10−14 ГБ/с, при этом сильно нагревается контроллер (неудивительно, что эти микросхемы вообще долго не живут).


Читать: https://habr.com/ru/companies/ruvds/articles/762092/
Форматы ORC и Parquet на базе HDFS

Каждая компания непрерывно производит и хранит кучу данных, и это вызывает множество проблем. Объёмы хранилищ не бесконечны, как и ресурсы железа. Вот только оптимизация обработки и хранения данных не всегда приносит желаемые результаты. Как всё настроить так, чтобы значительно сократить объём занимаемый ими на диске?

У нас получилось! Мы снизили количество данных на диске в 3 раза, при этом ускорив их обработку. И сейчас расскажу как. Меня зовут Александр Маркачев, я Data Engineer команды Голосовой Антифрод в beeline. В статье затронем тему форматов ORC и Parquet, как их правильно использовать и хранить, чтобы всем было хорошо.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/761780/
Как перейти с монолита на микросервисы и ничего не сломать: кейс компании ВТБ

При доработке или обновлении даже небольшого приложения можно столкнуться с ошибками и неочевидными проблемами. Что уж говорить о сложных многокомпонентных системах Enterprise-уровня, которые часто имеют сотни очевидных и не очень зависимостей, из-за чего трудно поддаются изменениям. Поэтому модернизации таких приложений, в том числе такие глобальные, как переработка архитектуры, нередко превращаются в настоящий квест.


Читать: https://habr.com/ru/companies/vk/articles/762060/