NEW BOT Телеграм, страница

DATABASE DESIGN

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).

Читать: https://habr.com/ru/articles/739254/

163 views09:42

DATABASE DESIGN

Search Nodes Now in Public Preview: Performance at Scale with Dedicated Infrastructure

Search Nodes is now available in public preview, providing dedicated infrastructure for Atlas Search and Vector Search workloads. With Search Nodes, users can scale search independent of database needs, resulting in better performance, workload isolation, higher availability, and improved resource usage. Previously, Atlas Search and Vector Search were co-located with Atlas on Atlas Nodes, leading to potential resource contention and difficulty in workload management. Users can easily enable Search Nodes in the MongoDB UI. Search Nodes offers benefits such as workload isolation, improved performance, and higher availability. SuperDuperDB, Algomo, and Source Digital are three companies featured in the blog, showcasing their AI innovations and how they leverage MongoDB. Vector search and large language models (LLMs) are also discussed, explaining their importance in data-driven businesses. The text discusses the concept of vector search, which involves finding vectors that are most similar to a given query. Vector search is often referred to as similarity search. The similarity between vectors is measured by calculating the distance between them in a vector space. The closer two points are in the vector space, the more similar they are in meaning. The text also explains the role of Large Language Models (LLMs) in vector search and how LLMs use embedding models to understand text. It mentions the importance of training LLMs with domain-specific data and the quantity and quality of data used to train a model. The text also provides a timeline of vector search and LLM technologies, highlighting that the foundations for vector search were available since 2016, while LLMs became more popular after the release of ChatGPT by OpenAI in 2022. The text concludes by emphasizing that vector search and LLMs have the potential to transform the field of information retrieval when used together.

Read: https://www.mongodb.com/blog/post/search-nodes-now-public-preview-performance-scale-dedicated-infrastructure

181 views13:06

DATABASE DESIGN

Уровни изоляции транзакций: Объясняю на мемах

В мире баз данных, безопасность и надежность являются фундаментальными аспектами, на которых строится эффективная работа с данными. Одной из ключевых составляющих безопасности в контексте транзакционных операций является уровень изоляции транзакций.

В этой статье я хочу на понятных примерах рассказать и показать: что вообще такое изоляции, для чего они нужны и как их можно использовать.

Если вы новичок в области баз данных или опытный разработчик, стремящийся углубить знания, эта статья предлагает вам полезную информацию и практические советы. Давайте начнем наше увлекательное путешествие в мир уровней изоляции транзакций, чтобы обрести уверенность и мастерство в работе с этой ключевой составляющей систем управления базами данных.

Читать: https://habr.com/ru/articles/768628/

190 views14:09

DATABASE DESIGN

Safeguarding Healthcare: Prescribing Strategies to Mitigate Digital Threats

The blog discusses the cybersecurity challenges faced by the healthcare sector in the digital age and proposes strategies to mitigate digital threats. One key strategy is adopting the Zero Trust model, which involves verifying and validating every access attempt. Other strategies include balancing security and interoperability, addressing insider threats, and building organizational resilience. The blog also introduces three companies that are using MongoDB to build AI-powered applications for communication in the realms of data, language, and video. The blog discusses the concepts of vector search and large language models (LLMs) in the context of Artificial Intelligence (AI). Vector search involves using vectors, which are encoded representations of unstructured data, to find similar data points based on their meaning. This is achieved by measuring the distance between vectors in a multi-dimensional space. LLMs, on the other hand, are NLP models that use embedding models to understand text and perform language-related tasks. The popularity of vector search and LLMs has increased in recent years, with the release of ChatGPT by OpenAI in 2022 playing a significant role in making LLMs more accessible to the general public. The combination of vector search and LLMs has led to advancements in information retrieval and has become a trending topic in the AI industry.

Read: https://www.mongodb.com/blog/post/safeguarding-healthcare-prescribing-strategies-mitigate-digital-threats

204 views16:09

DATABASE DESIGN

Try the Oracle APEX 23.2 Preview on apex.oracle.com!

Oracle APEX 23.2 preview is now available on apex.oracle.com

Read: https://blogs.oracle.com/apex/post/try-oracle-apex-232-on-apex-oracle-com

201 views17:56

DATABASE DESIGN

Oracle DatabaseWorld at CloudWorld 2023 – It’s a wrap!

So it’s been a few weeks since we wrapped up our inaugural Oracle DatabaseWorld at CloudWorld in Vegas, and I’m still working through the long list of follow-ups from all of the customer and partner meetings I had. In addition, the product announcements we made at the event have piqued the interest of industry analysts and media, resulting in requests for briefings and article reviews – more items to add to my to-do list.

Read: https://blogs.oracle.com/database/post/oracle-databaseworld-at-cloudworld-2023-its-a-wrap

Oracle

Oracle DatabaseWorld at CloudWorld 2023 – It’s a wrap!

So it’s been a few weeks since we wrapped up our inaugural Oracle DatabaseWorld at CloudWorld in Vegas, and I’m still working through the long list of follow-ups from all of the customer and partner meetings I had. In addition, the product announcements we…

260 views21:43

DATABASE DESIGN

Отказоустойчивая архитектура: почему Tarantool не падает?

Основная проблема в высоконагруженных приложениях — отказоустойчивость. Нагрузка с упавших узлов в кластере должна переключаться на живые. Это кажется несложной задачей, но на практике появляется много подводных камней. Мы с yngvar_antonsson потратили много времени на поддержку различных кластеров, построенных на Tarantool и наших кластерных фреймворках Cartridge и TDG, и сегодня расскажем вам, как обеспечивается отказоустойчивость в наших приложениях. Будет интересно всем, кто хочет подробнее узнать, как устроен фейловер в Cartridge, и тем, кто хочет узнать о нашем опыте создания автоматических фейловеров.

Читать: https://habr.com/ru/companies/vk/articles/768360/

180 views09:13

DATABASE DESIGN

Restic: эффективное резервное копирование из Stdin

Про restic я уже рассказывал в статье Бэкап-хранилище для тысяч виртуальных машин свободными инструментами, с тех пор он остаётся моим любимым инструментом для бэкапа.

Сегодня я опишу вам готовый рецепт того как настроить эффективное бэкапирование чего угодно прямо из stdin, с дедупликацией и автоматической очисткой репозитория от старых копий.

Несмотря на то, что restic отлично подходит для сохранения целых каталогов с данными в этой статье мне хотелось бы сделать упор на сохранении резервных копий на лету прямо из Stdin.

Как правило это бывает актуально для сохранения бэкапов виртуальных машин, баз данных и других, представленных одним большим файлом, данных, которые можно последовательно вычитывать и сразу отправлять в систему бэкапирования.

Читать: https://habr.com/ru/articles/769622/

183 views13:25

DATABASE DESIGN

Висмут на пальцах: носимое устройство для хранения данных

Когда речь заходит о создании носимого устройства, то одним из первых возникает вопрос комфорта, который напрямую зависит от габаритов. Размеры и архитектура устройства напрямую зависят от функций, которые оно должно выполнять. Порой инженерам приходится создавать своеобразный слоеный торт, накладывая слои разных наноматериалов друг на друга. Естественно, многих тревожил вопрос — возможно ли мультифункциональное носимое устройство, созданное из единственного слоя наноматериала? Ученые из Мельбурнского королевского технологического университета (Австралия) провели исследование, в котором создали прототип такого чудо-устройства, носимого на пальце пользователя и способного не только собирать энергию от движений, но и записывать данные. Из чего было сделано устройство, каков принцип его работы, и каким может быть его практическое применение. Ответы на эти вопросы мы найдем в докладе ученых.

Читать: https://habr.com/ru/companies/ua-hosting/articles/769466/

177 views07:13

DATABASE DESIGN

Config at MongoDB Shares Why Neurodiversity Matters

Read: https://www.mongodb.com/blog/post/config-mongodb-shares-why-neurodiversity-matters

200 views15:00

DATABASE DESIGN

BNETS Bets on MariaDB Enterprise Server for Banking Across Suriname

Read: https://mariadb.com/?p=38214

190 views16:05

DATABASE DESIGN

Один на 150 000 операций. Расследуем причины выброса времени отклика в операциях ввода-вывода

Привет! Я Александр Пищулин, перфоманс-инженер в компании YADRO. Сегодня расскажу об одном интересном случае траблшутинга в работе с системой хранения данных — он касается выброса времени отклика. Поиск причин сбоев, наверное, одно из самых увлекательных занятий в моей работе. Зачастую у подобных задач минимальная формализация подхода к решению, каждый раз может быть своего рода открытием или, если угодно, челленджем.

Так произошло и в случае, который я описываю под катом. Путь решения задачи может показаться не оптимальным, но в итоге именно он привел к неожиданной разгадке всей проблемы. Возможно, вы бы начали искать проблему иначе — предлагаю поделиться вашими соображениями или опытом в комментариях.
Узнать решение →

Читать: https://habr.com/ru/companies/yadro/articles/769084/

203 views08:45

DATABASE DESIGN

Anytype вместо Notion

Да, N это очень круто, не спорю, но однажды у меня в N закончилось место в 1000 блоков (в A пространство так же ограничено 1Гб, но об этом позже) и дальше заметки вести невозможно, и N предлагает апгрейд

Читать: https://habr.com/ru/articles/770158/

220 views12:49

DATABASE DESIGN

4 Key Considerations for Unlocking the Power of GenAI

Read: https://www.mongodb.com/blog/post/4-key-considerations-unlocking-power-gen-ai

195 views14:01

DATABASE DESIGN

Как мы обезличиваем ПДн, сохраняя их смысл и качество. Чтобы тестовый стенд был полезным, будто там данные с прода

Год назад мы выпустили «Маскировщик» — промышленный софт, который обезличивает персональные данные, сохраняя их качество и смысл. То есть гендерный баланс; социально‑демографическую структуру; родственные связи; страну и оператора в телефоне; валидность паспортов, ИНН, СНИЛС. В общем, «Маскировщик» делает так, чтобы вы тестировали продукты и обучали ML‑модели будто бы на «живых» ПД.

В этой статье пролью свет на методы изменения состава и семантики, которые использует продукт. Для простоты буду называть их «алгоритмами маскирования». Расскажу, по какой логике меняем одни данные другими, какие ограничения и как учитываем.
Разобраться в алгоритмах маскирования

Читать: https://habr.com/ru/companies/hflabs/articles/769928/

180 views14:03

DATABASE DESIGN

Берегите платье снову, а персональные данные смолоду. Рассуждения и советы по цифровой гигиене

Всем привет! Меня зовут Андрей, я специалист по информационной безопасности в Selectel. За время своей работы я понял, что часто люди используют правила цифровой гигиены в профессиональной деятельности, но совсем забывают про них в обычной жизни. По данным компании RTM Group, за 2021 год в России зарегистрировано более 249 тыс киберпреступлений, связанных с мошенническими схемами, — и это только известные правоохранительным органам инциденты.

Не хотите подкрепить эту статистику? Тогда давайте вспомним, почему важно соблюдать правила цифровой гигиены, и найдем тот самый «баланс» между комфортом и шапочкой из фольги. Подробности под катом!

Читать: https://habr.com/ru/companies/selectel/articles/762212/

174 views14:28

DATABASE DESIGN

Настройка NVMe over TCP — для тех, кому надо подключить больше 1 диска единственной конфигурации из всех примеров в Сети

Технология NVMe через различные фабрики (далее NVMeOF) оформлена в качестве стандарта летом 2016 года, она была встроена в пятую ветку ядра Linux.

Поэтому, когда было решено мигрировать объемные базы данных с легаси-решений на общедоступные платформы, возник вопрос — можно ли применить эту технологию для увеличения дискового пространства для создания зеркал локальных дисков?

Чтобы все зеркала не вышли из строя сразу, принимать такие диски надо бы небольшими группами с нескольких машин из разных стоек. Идея показалась достойной рассмотрения, поэтому создали небольшой стенд.

Меня зовут Алексей Дрожжов, я старший инженер в билайне, и в этом посте расскажу, как мы решали эту задачу.

Задача: подключить много дисков с нескольких серверов

Читать: https://habr.com/ru/companies/beeline_tech/articles/770174/

202 views15:06

DATABASE DESIGN

Retrieval Augmented Generation (RAG): The Open-Book Test for GenAI

Read: https://www.mongodb.com/blog/post/retrieval-augmented-generation-rag-open-book-test-gen-ai

203 views18:27

DATABASE DESIGN

История одной Real-Time-рекомендательной системы: пример построения решения от нуля до реализации

Real-Time-рекомендательные системы — сложный с точки зрения реализации и поддержания продукт. Его разработка требует тщательной проработки архитектуры и этапов, качественной работы с данными и обеспечения возможности масштабирования решения. Причём большинство подобных задач приходится решать уже в процессе, с учётом реалий и возникающих подводных камней.

Читать: https://habr.com/ru/companies/vk/articles/769508/

186 views10:18

DATABASE DESIGN

Цифровой паспорт оборудования промышленного производства

Привет, привет!

Представлюсь: меня зовут Тамара, и я являюсь ведущим инженером по нормативно-справочной информации в компании Bimeister.

Начну с того, что это лишь малая часть той большой истории, которую я хочу вам рассказать.

Будет много вопросов типа «Что это?», «Для чего нужен?» и тд. Ищите ответы на эти вопросы ниже, я вам все объясню)

Чем же занимаемся мы, ребята из отдела разработки НСИ? Давайте попробую вам кратко рассказать:

Промышленные предприятия сталкиваются с проблемой создания единой системы нормативно-справочной информации. Возникают трудности с созданием и внедрением общих правил именования оборудования, систем, материалов, товаров, контрагентов, и пр. Предприятиям необходим единый инструмент и общая методология ведения НСИ.

Нормативно-справочная информация – условно постоянный компонент корпоративной информации, являющийся основой для унификации и нормализации данных, сопровождающих протекающие бизнес-процессы, а также регламентацию деятельности организации.

Качественная база данных оборудования (БДО) является основой для построения системы автоматизации/цифровизации процессов Управления техническим обслуживанием и ремонтами (ТОиР). В процессе эксплуатации системы Управления ТОиР предприятиям постоянно требуется актуализация существующих аналитических справочников, составляющих БДО. Чтобы иметь возможность планировать ремонт или техническое обслуживание (ТО) любой конкретной обслуживаемой единицы оборудования, а также вести учет истории ремонтов и отказов (дефекты, параметры состояния, наработка, отказы), необходимо, чтобы эта единица была описана в информационной системе (паспортизирована).

Читать: https://habr.com/ru/companies/bimeister/articles/770368/

180 views13:00

DATABASE DESIGN

Установка и безопасная настройка Redis

Сегодня мы поговорим о СУБД Redis, рассмотрим процесс установки и настройки. В отличие от реляционных систем управления базами данных, Redis является СУБД класса NoSQL с открытым исходным кодом, работающей со структурами данных типа «ключ — значение».

Разберемся для начала с тем, что такое NoSQL. Представим, что у нас есть приложение, которому необходимо быстро и без задержек обрабатывать разные по структуре данные, не имеющие определенной структуры. В таком случае использование “классических”, реляционных баз данных будет не самым лучшим решением, так как нам необходимо будет сначала каким-то образом структурировать эти данные, а уже потом с ними работать. При использовании NoSQL мы можем использовать структуру “ключ-значение” и иметь возможность быстро обрабатывать неструктурированные данные. NoSQL используются как для баз данных, так и для реализации кэшей, брокеров сообщений. При этом, NoSQL стала популярным решением из-за простоты разработки, функционала, высокой производительности и возможности горизонтального масштабирования.

Но, вернемся к СУБД Redis. Redis - это хранилище значений ключей в памяти, известное своей гибкостью, производительностью и широкой языковой поддержкой. Данная система ориентирована на достижение максимальной производительности на атомарных операциях (заявляется о приблизительно 100 тыс. SET- и GET-запросов в секунду на Linux-сервере начального уровня). Написана на Си, интерфейсы доступа созданы для большинства основных языков программирования. Далее мы поговорим о том, как установить и безопасно настроить Redis на сервере Ubuntu 22.04.

Читать: https://habr.com/ru/companies/otus/articles/770364/

194 views13:42

About

Blog

Apps

Platform