DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
AI, Vectors, and the Future of Claims Processing: Why Insurance Needs to Understand The Power of Vector Databases

The text discusses the importance of vector databases in the field of insurance claims processing. Vector databases store numeric representations of data and allow machine learning algorithms to analyze unstructured data and provide relevant results. The use of vector databases in insurance claims processing can expedite and improve the accuracy of claim adjustment. The text gives an example of a car accident claim, where an adjuster can use a vector database to quickly find and compare relevant photos of similar accidents from the claims history database. MongoDB is mentioned as a platform that can store vectors alongside existing fields in a document. The text also mentions the potential of vector search in handling other data formats such as text and sound. Additionally, the text highlights the benefits of vector search in enhancing customer service, providing personalized recommendations, and scaling AI efforts in the insurance industry. The text discusses the use of AI in healthcare and intelligent assistants for product managers and sales teams. It also highlights the features and benefits of using MongoDB for building AI and unlocking value from multimodal data. The text then transitions to discussing the importance of data resilience with MongoDB Atlas and the potential risks and costs associated with data loss incidents. It explains the key disaster recovery capabilities and strategies for ensuring data resilience, including the use of backups, granular recovery, and prevention measures. The text emphasizes the flexibility and customization options available with MongoDB Atlas for tailoring data resilience to specific business needs and regulatory requirements. It concludes by highlighting the simplicity and manageability of implementing a data resilience strategy with MongoDB Atlas.

Read: https://www.mongodb.com/blog/post/ai-vectors-the-future-claims-processing
Извлечение текста из файлов PDF при помощи Python



▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.


Читать: https://habr.com/ru/companies/ruvds/articles/765246/
Why DARVA in France adopted MariaDB Enterprise Server

Read: https://mariadb.com/?p=37679
Oracle Text and Accented Characters

Oracle Text works with text in many languages. Many of those languages use accented characters, and Oracle Text has a variety of options for dealing with them.

Read: https://blogs.oracle.com/database/post/oracle-text-and-accented-characters
Автоматизация разработки с помощью подхода DB-first

Интеграция с БД - привычно сложная и хрупкая часть большинства кодобаз, постоянно отвлекающая внимание разработчиков и раздувающая сроки. Какой бы хайпующий фреймворк вы ни пробовали, вы неизбежно обнаруживаете себя борющимся с одними и теми же симптомами, но ощущение того, что проблема могла бы решаться проще не покидает вас. Знакомо?

Оказывается, так вовсе не должно быть. В данном посте мы разберёмся в причинах и сформулируем подход, который оставляет большинство привычных проблем просто несуществующими.


Читать: https://habr.com/ru/articles/765446/
Новая файловая система Composefs для Linux: что это такое и как она работает

В ноябре 2022 года Александр Ларсон, сотрудник Red Hat, разработавший Flatpack, предложил реализацию файловой системы Composefs. Она в некоторых моментах похожа на Squashfs, подходит для монтирования образов в режиме «Только для чтения». Особенности новой ФС — совместное хранение содержимого нескольких примонтированных дисковых образов и поддержка проверки подлинности читаемых данных. Позиционируется она как инструмент для монтирования образов контейнеров, а также применения для Git-подобного репозитория OSTree. Подробности о новинке — под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/765476/
Неструктурированные данные: что это, в чем их опасность и как защититься?

Объемы, разнообразие, а главное, ценность информации продолжают расти. Особенно выделяются неструктурированные данные, которые не имеют четкой организации, структуры или формата. Этим они отличаются от структурированных данных, которые обычно хранятся в базах данных и подчиняются строгим схемам и форматам, таким как таблицы, поля и столбцы.

Неструктурированные данные могут представлять собой текст, изображения, аудио- и видеозаписи, электронные письма и множество других форм. Это огромный массив ценной информации, но управление, анализ и обеспечение его безопасности вызывают сложности.

В этой статье я рассмотрю значимость неструктурированных данных, опасности, которые они могут нести для компании, а также расскажем о том, что нужно делать, чтобы обеспечить их безопасность.


Читать: https://habr.com/ru/companies/bastion/articles/765256/
How MongoDB's Executive Support Team Impacts Business Success



Read: https://www.mongodb.com/blog/post/how-mongodbs-executive-support-team-impacts-business-success
How to Stand Out From the Crowd When Everyone Uses Generative AI



Read: https://www.mongodb.com/blog/post/how-stand-out-from-crowd-when-everyone-uses-generative-ai
Как на 3 месяца сократить время миграции на DWH в 100 магазинах с помощью конвертера QvDB–Qlever

Qlik ушел, а qvd остались. После ухода с российского рынка зарубежных вендоров BI, появилась необходимость мигрировать на новые решения, а значит, заново собрать и организовать большие массивы данных, чтобы «скормить» это новой BI-платформе.

На помощь бывшим пользователям Qlik приходит конвертер QvDB–Qlever, который переводит тип файлов из формата .qvd в данные для СУБД PostgreSQL или ClickHouse.

В статье - кейс миграции на DWH (хранилище данных) с применением нашего конвертера QVD-файлов.


Читать: https://habr.com/ru/articles/765770/
Записки оптимизатора 1С (Часть 3). Распределенные взаимоблокировки в 1С системах

Назрела небольшая статья, скорее даже пост о распределенных взаимоблокировках в системах 1С. Мы периодически сталкиваемся с такими ситуациями у наших заказчиков и хочется поделиться с сообществом информацией, т.к. далеко не все могут увидеть и правильно интерпретировать природу таких блокировок.


Читать: https://habr.com/ru/companies/softpoint/articles/765774/
Подкрепляем полезные привычки

Этот текст (не осмелюсь назвать "статьей") стал побочным продуктом моего "грандиозного" замысла -- попытки пересказать понятным языком содержание одного из эпизодов The Huberman Lab podcast, который "Как ставить цели и достигать их". И, как все прочие эпизоды, он начинается со слов "Welcome to the Huberman Lab podcast where we discuss science and science-based tools for everyday life. "

Мне захотелось провести на себе эксперимент, проверить, сработают ли советы и "science-based tools" от Andrew Huberman в моей повседневной жизни, жизни простого и заурядного человека. Была выбрана цель -- ""Написать статью 'Как ставить цели и достигать их'" и дан старт.

К сожалению (или к счастью), кавалерийским наскоком взять крепость не удалось: любопытство и занудство, умудряющиеся много лет во мне уживаться, не позволили просто "взять и пересказать эпизод". Я пытался (и до сих пор пытаюсь) разобраться в непонятных мне терминах, концепциях и взаимосвязанных процессах. Их, непонятных, оказалось очень много. Так много, что через две недели ежедневного труда я решил: для начала хватит и статьи о роли в процессе достижения цели концепта "Random Intermittent Reinforcement". Потом появились мысли, что и здесь стоит умерить пыл и ужаться до описания роли Reward Prediction Error в Random Intermittent Reinforcement. С чем я себя и поздравляю. И периодически задаю вопрос: интересно, будет ли момент, когда попробую "сделать отдельную статью" из одного абзаца? Из одного предложения? Слова? Ответов нет. Двигаюсь вперед, а там -- как получится.


Читать: https://habr.com/ru/articles/764838/
Мнение: почему в 2023-м глупо все еще не перейти на КЭДО

Иногда я слышу от предпринимателей, что держать все на бумаге надежнее. Обычно так они говорят до первого случая, пока кадровик не потеряет документы. Или пока не затопят соседи. Или не прилетит штраф за неправильное хранение бумаг. Я собрал вредные мифы об электронном документообороте и уничтожил их в статье.

Меня зовут Рафаэль Туляков, я руководитель направления КЭДО в компании «Бизнес легко». Мы внедряем сервисы для бизнеса: облачные кассы, инструменты для бухгалтеров, автоматизацию учета.

Наша команда перевела на КЭДО уже десятки компаний, и об этом не пожалел пока ни один бухгалтер, менеджер или директор. Даже наоборот: документы больше не теряются, не рвутся и не заливаются кофе, всегда подписываются в срок. Рассказываю, какие страхи останавливают руководителей компаний и почему эти предубеждения кажутся мне глупыми.


Читать: https://habr.com/ru/articles/765832/
Unveiling the Power of Oracle Globally Distributed Database: Oracle Database 23c Advancements

This blog sets the stage for exploring these enhancements, offering insights into how Oracle Database 23c elevates the capabilities of the Oracle Globally Distributed Database, propelling it into a new era of excellence.

Read: https://blogs.oracle.com/database/post/oracle-globally-distributed-database-23c
Виртуализация мечты: работаем над дорожной картой развития систем виртуализации

Уважаемые Хабровчане!

Как вы, наверняка, знаете, производителей отечественных систем виртуализации существенно больше, чем производителей СХД. Навскидку, более 30 российских компаний занимаются данным классом продуктов, с различными подходами к разработке и продаже данных решений. Однако, на просторах рунета не утихают горячие споры о том, что не хватает даже многих базовых функций виртуализации, не говоря уже о каких-то «вишенках на торте», обсуждаемых на ежегодных форумах в Каталонии.

Поэтому мы предлагаем пройтись новым «хаброопросом» по базовым функциям систем виртуализации, которые жизненно необходимы вам, нашим текущим или потенциальным заказчикам.

Среднее время прохождения - 5 минут, а сам опрос находится по ссылке.


Читать: https://habr.com/ru/companies/aerodisk/articles/766214/
Бесшовный апгрейд ПО для системы хранения данных: как организовать и улучшить

Любое программное обеспечение необходимо обновлять — ПО для систем хранения данных (СХД) не исключение. Логика апгрейда в СХД не тривиальна. В системе есть несколько контроллеров хранения, обновлять которые нужно последовательно, учитывая все возможные риски — потерю отказоустойчивости, конфликт версий и другие. При этом даунтайм сервиса или миграция данных на другую систему — варианты, которые не устроят ни одну компанию.

Я Владимир Приходько, руководитель отдела разработки подсистем управления в компании YADRO. Вместе с командой мы развиваем пользовательский функционал СХД. В тексте расскажу о специфике бесшовного обновления ПО в системах хранения данных и дам рекомендации, как выстроить этот процесс с учетом лучших практик. Все описанные подходы мы с командой успешно используем в обновлении СХД TATLIN.UNIFIED.


Читать: https://habr.com/ru/companies/yadro/articles/764350/
Keycloak ― построение отказоустойчивого кластера

Разворачивая у нас в Туту Keycloak мы столкнулись с необходимостью создания отказоустойчивого кластера. И если с БД всё более менее понятно, то вот реализовать корректный обмен кэшами между Keycloak оказалось довольно непростой для настройки задачей.

Мы упёрлись в то, что в документации Keycloak описано как создать кластер используя UDP мультикаст. И это работает, если у вас все ноды будут находиться в пределах одного сегмента сети (например ЦОДа). Если с этим сегментом что-то случится, то мы лишимся Keycloak. Нас это не устраивало.
Необходимо сделать так, чтобы ноды приложения были географически распределены между ЦОД, находясь в разных сегментах сети.
В этом случае в документации Keycloak довольно неочевидно предлагается создать свой собственный кастомный JGroups транспортный стэк, чтобы указать все необходимые вам параметры.

Бонусом приложу shell скрипт, написанный для Consul, который предназначен для снятия анонсов путём выключения bird и попытки восстановления приложения.


Читать: https://habr.com/ru/companies/tuturu/articles/766284/
Building AI with MongoDB: How Metaphor Data Uses Atlas Vector Search to Change the World Through Data



Read: https://www.mongodb.com/blog/post/building-ai-mongodb-how-metaphor-data-uses-atlas-vector-search-change-world-through-data
NAS и SAN: основные характеристики, принцип работы и применение решений

Сетевое хранилище (NAS) и сети хранения данных (SAN) — это два ключевых подхода к организации хранилища в сети, которые позволяют пользователям обмениваться данными независимо от их местоположения, что особенно актуально для работы геораспределенных команд.

Несмотря на то, что оба метода предоставляют быстрый и экономичный способ управления большими объемами данных, они отличаются друг от друга. В этом материале мы рассмотрим основные характеристики NAS и SAN, принцип работы решений и применение каждого из них.


Читать: https://habr.com/ru/companies/itglobalcom/articles/766554/
Multi-Cloud Data Resilience with MongoDB Atlas



Read: https://www.mongodb.com/blog/post/multi-cloud-data-resilience-mongodb-atlas