DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
TON Storage – прорыв в Web3 или провал?

TON Storage - это часть экосистемы TON, изначально спроектированной командой Telegram, во главе с Павлом Дуровым. Она предоставляет возможность хранить, скачивать и делиться файлами децентрализованным способом.

Напомню, что работа TON (Telegram Open Network) на несколько лет была запрещена американским, а проект был передан сообществу и переименован в The Open Network.

TON Storage необходим в блокчейн-экосистеме как дешевый способ хранения больших файлов. Хранение файлов непосредственно в блокчейне будет очень дорогим, а потребность в обмене большими файлами между пользователями блокчейна существует. Например, NFT создаются не только на основе изображений, но и музыки и видео. И все эти данные нужно где-то хранить.


Читать: https://habr.com/ru/articles/767214/
ЦЕРН увеличил объем своего хранилища до первого в истории эксабайта. Как хранятся данные Большого адронного коллайдера

Когда Большой адронный коллайдер запущен — как например, во время своего второго цикла, с начала 2015 года по 2018 год, — он обрабатывает события на частоте 40 МГц. Другими словами, он учитывает 40 миллионов событий в секунду. Это необходимо, чтобы отслеживать столкновения между частицами, длящиеся менее 25 наносекунд.

Каждое событие содержит в себе примерно 1 мегабайт данных. Это значит, что в систему во время работы коллайдера входит примерно 40 терабайт данных. В секунду! Абсолютно фантастический объем информации, ведь петабайт набирается примерно за полминуты. Около 72 000 средних жестких дисков заполнялись бы каждый час.

Обрабатывать всё это на такой же скорости не представляется возможным; для анализа подобных объемов данных после окончания работы установки требуются годы. Значительная часть отфильтровывается еще на этапе сбора, на что тоже уходят огромные вычислительные ресурсы. Но всё-таки остальную часть информации нужно где-то хранить. Для этого европейская организация по ядерным исследованиям (ЦЕРН) содержит самый большой ЦОД в мире.


Читать: https://habr.com/ru/companies/first/articles/767546/
👍2
Как организовать облачную DR-площадку для крупного бизнеса

На стабильную работу ИТ-инфраструктуры компании в локальном дата-центре влияет много факторов: резервирование по схеме N+1, работа инженерных систем, экспертиза технических специалистов. Однако есть и внешние. К ним относится отказ оборудования, природные катаклизмы и геополитические конфликты.

В статье мы рассказали, как специалисты ITGLOBAL.COM запустили резервную площадку для восстановления данных после сбоев (Disaster Recovery) в облаке для ГК «Интерлизинг». А на YouTube выпустили видео с интервью участников проекта.


Читать: https://habr.com/ru/companies/itglobalcom/articles/767666/
Потоковая обработка данных: анализ альтернативных решений

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.


Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Building AI with MongoDB: Supercharging Three Communication Paradigms

This blog post discusses three companies that are using MongoDB to build AI-powered solutions in different communication mediums.

The first company, SuperDuperDB, provides tools for developers to apply AI and machine learning on top of their existing data stores. They use MongoDB as one of the key backend datastores for their platform.

The second company, Algomo, uses generative AI to help companies offer personalized service in more than 100 languages. They use MongoDB Atlas to store customer data and conversation history, providing long-term memory for support interactions.

The third company, Source Digital, is a monetization platform that delivers customer engagement through video and the metaverse. They use MongoDB to store video metadata and model features, and are migrating from PostgreSQL to MongoDB Atlas to reduce costs.

Overall, these companies are leveraging MongoDB to build AI-driven applications and enhance communication in various mediums. This text discusses the importance of utilizing strategic IT investments, such as GenAI and LLMs, to differentiate a business's product or service from its competition. It emphasizes the need to avoid niche solutions that divert resources away from important initiatives. The text proposes using the MongoDB Atlas developer data platform, which leverages document data models and an intuitive API, to quickly incorporate GenAI advancements without requiring developers to learn new tools. The MongoDB Query API is also highlighted for its unified system that simplifies CRUD operations and allows for more advanced features like keyword and vector search. The text concludes by stating that MongoDB Atlas can streamline AI-driven projects by reducing complexity in operational and security models, data integration, and duplication. It encourages readers to download a white paper for more information and to reach out for assistance with digital transformation.

Read: https://www.mongodb.com/blog/post/building-ai-mongodb-supercharging-three-communication-paradigms
Vector Search and LLM Essentials - What, When and Why



Read: https://www.mongodb.com/blog/post/vector-search-llm-essentials-what-when-why
MariaDB Node.js Connector 3.2.2, and Python Connector 1.1.8 now available

Read: https://mariadb.com/?p=38191
Step-by-Step guide to querying data in Snowflake using Oracle Database Cloud Service aka OCI Base Database Service

Following blog will walk you through the steps to create database link between Base Database Service in OCI and Snowflake Data Warehouse database.

Read: https://blogs.oracle.com/database/post/stepbystep-guide-to-querying-data-in-snowflake-using-oracle-database-cloud-service-aka-oci-base-database-service
Как настроить резервное копирование в объектное хранилище с помощью Restic

В 2007 многие администраторы настраивали бэкапы с помощью утилиты rsync, но для этого нужно было выделять отдельный хост для хранилища. И одной из частых проблем было резервирование этого сервера для бэкапов, которое увеличивало накладные расходы. Также хост бэкапирования располагался рядом с устройствами, для которых нужно было выполнить резервное копирование, настроить мониторинг и другое. Это нарушало правило 3-2-1, поэтому для построения действительно надежной системы нужно располагать хосты в разных дата-центрах.

Сегодня можно прибегнуть к услугам облачного хранения данных — например, использовать объектное хранилище Selectel. В этой инструкции рассмотрим, как работать с ним с помощью утилиты Restic.

Читать: https://habr.com/ru/companies/selectel/articles/768014/
Простой ORM для sqlite3



ORM, или объектно-реляционное отображение — это программная технология, которая позволяет взаимодействовать с базами данных с использованием объектно-ориентированной парадигмы. Вместо того чтобы писать SQL-запросы напрямую для работы с данными в базе данных, можно использовать ORM, чтобы взаимодействовать с данными, как если бы они были объектами в вашем коде.

Не бывало ли вам интересно, как работает изнутри такая идейно простая концепция? Благодаря чему достигается удобство работы? Сегодня мы напишем ORM самостоятельно и узнаем, какие инструменты python нам для этого понадобятся.

Читать: https://habr.com/ru/companies/ruvds/articles/766552/
1
Мой опыт использования платформы Tantor

И снова привет, хабр!

Вы когда-нибудь использовали СУБД PostgreSQL? Лично я привык к консольной утилите psql. Да, я слышал про pgadmin, navicat ну или DBeaver в конце концов, но вот руки до их использования у меня никак не доходили… до этого момента.

Иногда требования, предъявляемые решаемой задачей, могут выйти за пределы любимой командной строки, да и любому разработчику полезно выходить из зоны комфорта изучать новые технологии.

В одной такой задаче мне предстояло работать с несколькими базами данных одновременно: выполнять разные запросы к ним и смотреть аналитику, параллельно фильтровать несколько таблиц рядом. При этом мне бы хотелось видеть, как планировщик будет строить план этих запросов (на всякий случай).

Поверьте друзья, терминал с psql - это, конечно, хорошо, но делать кучу операций иногда неудобно даже с терминальным мультиплексором, например, tmux.

Учитывая все эти сложности, я занялся поиском подходящего инструмента. Так мне подвернулась возможность изучить платформу Tantor, и в этой статье я поведаю о своем опыте и расскажу, почему интерфейсы - это удобно.


Читать: https://habr.com/ru/articles/768152/
Oracle Database Appliance X10 – Much More Powerful Database-Optimized Entry-Level Engineered Systems

We are excited to announce the next generation Oracle Database Appliance X10.

Read: https://blogs.oracle.com/oda/post/oracle-database-appliance-x10
Essential tools for migrating to the Oracle Autonomous Database

An overview of three essential Oracle tools that will help you migrate to the Oracle Autonomous Database: Estate Explorer, Cloud Premigration Advisor, and Real Application Testing

Read: https://blogs.oracle.com/cloud-infrastructure/post/migrate-autonomous-db-estate-explorer-cpat-rat
Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).


Читать: https://habr.com/ru/articles/739254/
Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).


Читать: https://habr.com/ru/articles/739254/
Search Nodes Now in Public Preview: Performance at Scale with Dedicated Infrastructure

Search Nodes is now available in public preview, providing dedicated infrastructure for Atlas Search and Vector Search workloads. With Search Nodes, users can scale search independent of database needs, resulting in better performance, workload isolation, higher availability, and improved resource usage. Previously, Atlas Search and Vector Search were co-located with Atlas on Atlas Nodes, leading to potential resource contention and difficulty in workload management. Users can easily enable Search Nodes in the MongoDB UI. Search Nodes offers benefits such as workload isolation, improved performance, and higher availability. SuperDuperDB, Algomo, and Source Digital are three companies featured in the blog, showcasing their AI innovations and how they leverage MongoDB. Vector search and large language models (LLMs) are also discussed, explaining their importance in data-driven businesses. The text discusses the concept of vector search, which involves finding vectors that are most similar to a given query. Vector search is often referred to as similarity search. The similarity between vectors is measured by calculating the distance between them in a vector space. The closer two points are in the vector space, the more similar they are in meaning. The text also explains the role of Large Language Models (LLMs) in vector search and how LLMs use embedding models to understand text. It mentions the importance of training LLMs with domain-specific data and the quantity and quality of data used to train a model. The text also provides a timeline of vector search and LLM technologies, highlighting that the foundations for vector search were available since 2016, while LLMs became more popular after the release of ChatGPT by OpenAI in 2022. The text concludes by emphasizing that vector search and LLMs have the potential to transform the field of information retrieval when used together.

Read: https://www.mongodb.com/blog/post/search-nodes-now-public-preview-performance-scale-dedicated-infrastructure
Уровни изоляции транзакций: Объясняю на мемах

В мире баз данных, безопасность и надежность являются фундаментальными аспектами, на которых строится эффективная работа с данными. Одной из ключевых составляющих безопасности в контексте транзакционных операций является уровень изоляции транзакций.

В этой статье я хочу на понятных примерах рассказать и показать: что вообще такое изоляции, для чего они нужны и как их можно использовать.

Если вы новичок в области баз данных или опытный разработчик, стремящийся углубить знания, эта статья предлагает вам полезную информацию и практические советы. Давайте начнем наше увлекательное путешествие в мир уровней изоляции транзакций, чтобы обрести уверенность и мастерство в работе с этой ключевой составляющей систем управления базами данных.


Читать: https://habr.com/ru/articles/768628/
Safeguarding Healthcare: Prescribing Strategies to Mitigate Digital Threats

The blog discusses the cybersecurity challenges faced by the healthcare sector in the digital age and proposes strategies to mitigate digital threats. One key strategy is adopting the Zero Trust model, which involves verifying and validating every access attempt. Other strategies include balancing security and interoperability, addressing insider threats, and building organizational resilience. The blog also introduces three companies that are using MongoDB to build AI-powered applications for communication in the realms of data, language, and video. The blog discusses the concepts of vector search and large language models (LLMs) in the context of Artificial Intelligence (AI). Vector search involves using vectors, which are encoded representations of unstructured data, to find similar data points based on their meaning. This is achieved by measuring the distance between vectors in a multi-dimensional space. LLMs, on the other hand, are NLP models that use embedding models to understand text and perform language-related tasks. The popularity of vector search and LLMs has increased in recent years, with the release of ChatGPT by OpenAI in 2022 playing a significant role in making LLMs more accessible to the general public. The combination of vector search and LLMs has led to advancements in information retrieval and has become a trending topic in the AI industry.

Read: https://www.mongodb.com/blog/post/safeguarding-healthcare-prescribing-strategies-mitigate-digital-threats
Try the Oracle APEX 23.2 Preview on apex.oracle.com!

Oracle APEX 23.2 preview is now available on apex.oracle.com

Read: https://blogs.oracle.com/apex/post/try-oracle-apex-232-on-apex-oracle-com
Oracle DatabaseWorld at CloudWorld 2023 – It’s a wrap!

So it’s been a few weeks since we wrapped up our inaugural Oracle DatabaseWorld at CloudWorld in Vegas, and I’m still working through the long list of follow-ups from all of the customer and partner meetings I had. In addition, the product announcements we made at the event have piqued the interest of industry analysts and media, resulting in requests for briefings and article reviews – more items to add to my to-do list.

Read: https://blogs.oracle.com/database/post/oracle-databaseworld-at-cloudworld-2023-its-a-wrap
Отказоустойчивая архитектура: почему Tarantool не падает?

Основная проблема в высоконагруженных приложениях — отказоустойчивость. Нагрузка с упавших узлов в кластере должна переключаться на живые. Это кажется несложной задачей, но на практике появляется много подводных камней. Мы с yngvar_antonsson потратили много времени на поддержку различных кластеров, построенных на Tarantool и наших кластерных фреймворках Cartridge и TDG, и сегодня расскажем вам, как обеспечивается отказоустойчивость в наших приложениях. Будет интересно всем, кто хочет подробнее узнать, как устроен фейловер в Cartridge, и тем, кто хочет узнать о нашем опыте создания автоматических фейловеров.


Читать: https://habr.com/ru/companies/vk/articles/768360/