DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
YDB знакомится с TPC-C: раскрываем производительность наших распределенных транзакций

В нашем предыдущем посте о производительности YDB, посвященном Yahoo! Cloud Serving Benchmark (YCSB), мы упоминали, что готовим к публикации результаты других бенчмарков. Мы придерживаемся плана и сегодня рады представить вашему вниманию наши первые результаты бенчмарка TPC-C*, который является индустриальным стандартом оценки производительности онлайн транзакций (OLTP). Согласно этим результатам есть сценарии, в которых YDB немного превосходит CockroachDB, другую хорошо известную распределенную SQL СУБД.


Читать: https://habr.com/ru/companies/ydb/articles/763938/
Congratulations to the 2023 EMEA MongoDB Innovation Award Winners



Read: https://www.mongodb.com/blog/post/congratulations-2023-emea-mongodb-innovation-award-winners
Tarantool: как избавиться от «зоопарка технологий» с помощью потоков событий

Каждый проект рано или поздно обрастает разными технологиями, часть из которых может выполнять схожие или даже одинаковые функции. Наряду с развитием продукта это несет и скрытые трудности, в первую очередь для команды, которая должна поддерживать и развивать весь «зоопарк».

Меня зовут Иван Банников, я ведущий разработчик VK Tech. В этом материале я расскажу об основных предпосылках разрастания используемого стека, а также на примере IoT-платформы, которую мы поддерживали, поделюсь опытом избавления от «зоопарка технологий» в области обработки сообщений.


Читать: https://habr.com/ru/companies/vk/articles/761950/
Welcoming the Grainite Team to MongoDB: Accelerating Atlas Stream Processing



Read: https://www.mongodb.com/blog/post/welcoming-grainite-team-mongodb-accelerating-atlas-stream-processing
MaxScale Installation and Configuration

Read: https://mariadb.com/?p=37686
Building a Culture of Growth: SVP Simon Eid on MongoDB's Massive Opportunity in APAC



Read: https://www.mongodb.com/blog/post/building-culture-growth-svp-mongodb-massive-opportunity-apac
Data-рынок: как российские ЦОДы справляются с нарастающим спросом

Традиционно рынок серверов, систем хранения данных и сетевого оборудования в России был представлен зарубежными компаниями — Dell, HP, Cisco и другими. В 2022-2023 гг data-центры взяли активный курс на импортозамещение при поддержке государства и отечественных поставщиков, поэтому приходится менять устоявшиеся годами бизнес-цепочки. При этом цифровизация требует все новых и новых ресурсов. Сегодня мы заглянем на рынок ЦОДов и постараемся понять, какие у него перспективы, и как российские data-центры справляются с огромным спросом.


Читать: https://habr.com/ru/companies/sberbank/articles/764822/
Building AI with MongoDB: Cultivating Trust with Data



Read: https://www.mongodb.com/blog/post/building-ai-mongodb-cultivating-trust-data
AI, Vectors, and the Future of Claims Processing: Why Insurance Needs to Understand The Power of Vector Databases

The text discusses the importance of vector databases in the field of insurance claims processing. Vector databases store numeric representations of data and allow machine learning algorithms to analyze unstructured data and provide relevant results. The use of vector databases in insurance claims processing can expedite and improve the accuracy of claim adjustment. The text gives an example of a car accident claim, where an adjuster can use a vector database to quickly find and compare relevant photos of similar accidents from the claims history database. MongoDB is mentioned as a platform that can store vectors alongside existing fields in a document. The text also mentions the potential of vector search in handling other data formats such as text and sound. Additionally, the text highlights the benefits of vector search in enhancing customer service, providing personalized recommendations, and scaling AI efforts in the insurance industry. The text discusses the use of AI in healthcare and intelligent assistants for product managers and sales teams. It also highlights the features and benefits of using MongoDB for building AI and unlocking value from multimodal data. The text then transitions to discussing the importance of data resilience with MongoDB Atlas and the potential risks and costs associated with data loss incidents. It explains the key disaster recovery capabilities and strategies for ensuring data resilience, including the use of backups, granular recovery, and prevention measures. The text emphasizes the flexibility and customization options available with MongoDB Atlas for tailoring data resilience to specific business needs and regulatory requirements. It concludes by highlighting the simplicity and manageability of implementing a data resilience strategy with MongoDB Atlas.

Read: https://www.mongodb.com/blog/post/ai-vectors-the-future-claims-processing
Извлечение текста из файлов PDF при помощи Python



▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.


Читать: https://habr.com/ru/companies/ruvds/articles/765246/
Why DARVA in France adopted MariaDB Enterprise Server

Read: https://mariadb.com/?p=37679
Oracle Text and Accented Characters

Oracle Text works with text in many languages. Many of those languages use accented characters, and Oracle Text has a variety of options for dealing with them.

Read: https://blogs.oracle.com/database/post/oracle-text-and-accented-characters
Автоматизация разработки с помощью подхода DB-first

Интеграция с БД - привычно сложная и хрупкая часть большинства кодобаз, постоянно отвлекающая внимание разработчиков и раздувающая сроки. Какой бы хайпующий фреймворк вы ни пробовали, вы неизбежно обнаруживаете себя борющимся с одними и теми же симптомами, но ощущение того, что проблема могла бы решаться проще не покидает вас. Знакомо?

Оказывается, так вовсе не должно быть. В данном посте мы разберёмся в причинах и сформулируем подход, который оставляет большинство привычных проблем просто несуществующими.


Читать: https://habr.com/ru/articles/765446/
Новая файловая система Composefs для Linux: что это такое и как она работает

В ноябре 2022 года Александр Ларсон, сотрудник Red Hat, разработавший Flatpack, предложил реализацию файловой системы Composefs. Она в некоторых моментах похожа на Squashfs, подходит для монтирования образов в режиме «Только для чтения». Особенности новой ФС — совместное хранение содержимого нескольких примонтированных дисковых образов и поддержка проверки подлинности читаемых данных. Позиционируется она как инструмент для монтирования образов контейнеров, а также применения для Git-подобного репозитория OSTree. Подробности о новинке — под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/765476/
Неструктурированные данные: что это, в чем их опасность и как защититься?

Объемы, разнообразие, а главное, ценность информации продолжают расти. Особенно выделяются неструктурированные данные, которые не имеют четкой организации, структуры или формата. Этим они отличаются от структурированных данных, которые обычно хранятся в базах данных и подчиняются строгим схемам и форматам, таким как таблицы, поля и столбцы.

Неструктурированные данные могут представлять собой текст, изображения, аудио- и видеозаписи, электронные письма и множество других форм. Это огромный массив ценной информации, но управление, анализ и обеспечение его безопасности вызывают сложности.

В этой статье я рассмотрю значимость неструктурированных данных, опасности, которые они могут нести для компании, а также расскажем о том, что нужно делать, чтобы обеспечить их безопасность.


Читать: https://habr.com/ru/companies/bastion/articles/765256/
How MongoDB's Executive Support Team Impacts Business Success



Read: https://www.mongodb.com/blog/post/how-mongodbs-executive-support-team-impacts-business-success
How to Stand Out From the Crowd When Everyone Uses Generative AI



Read: https://www.mongodb.com/blog/post/how-stand-out-from-crowd-when-everyone-uses-generative-ai
Как на 3 месяца сократить время миграции на DWH в 100 магазинах с помощью конвертера QvDB–Qlever

Qlik ушел, а qvd остались. После ухода с российского рынка зарубежных вендоров BI, появилась необходимость мигрировать на новые решения, а значит, заново собрать и организовать большие массивы данных, чтобы «скормить» это новой BI-платформе.

На помощь бывшим пользователям Qlik приходит конвертер QvDB–Qlever, который переводит тип файлов из формата .qvd в данные для СУБД PostgreSQL или ClickHouse.

В статье - кейс миграции на DWH (хранилище данных) с применением нашего конвертера QVD-файлов.


Читать: https://habr.com/ru/articles/765770/
Записки оптимизатора 1С (Часть 3). Распределенные взаимоблокировки в 1С системах

Назрела небольшая статья, скорее даже пост о распределенных взаимоблокировках в системах 1С. Мы периодически сталкиваемся с такими ситуациями у наших заказчиков и хочется поделиться с сообществом информацией, т.к. далеко не все могут увидеть и правильно интерпретировать природу таких блокировок.


Читать: https://habr.com/ru/companies/softpoint/articles/765774/
Подкрепляем полезные привычки

Этот текст (не осмелюсь назвать "статьей") стал побочным продуктом моего "грандиозного" замысла -- попытки пересказать понятным языком содержание одного из эпизодов The Huberman Lab podcast, который "Как ставить цели и достигать их". И, как все прочие эпизоды, он начинается со слов "Welcome to the Huberman Lab podcast where we discuss science and science-based tools for everyday life. "

Мне захотелось провести на себе эксперимент, проверить, сработают ли советы и "science-based tools" от Andrew Huberman в моей повседневной жизни, жизни простого и заурядного человека. Была выбрана цель -- ""Написать статью 'Как ставить цели и достигать их'" и дан старт.

К сожалению (или к счастью), кавалерийским наскоком взять крепость не удалось: любопытство и занудство, умудряющиеся много лет во мне уживаться, не позволили просто "взять и пересказать эпизод". Я пытался (и до сих пор пытаюсь) разобраться в непонятных мне терминах, концепциях и взаимосвязанных процессах. Их, непонятных, оказалось очень много. Так много, что через две недели ежедневного труда я решил: для начала хватит и статьи о роли в процессе достижения цели концепта "Random Intermittent Reinforcement". Потом появились мысли, что и здесь стоит умерить пыл и ужаться до описания роли Reward Prediction Error в Random Intermittent Reinforcement. С чем я себя и поздравляю. И периодически задаю вопрос: интересно, будет ли момент, когда попробую "сделать отдельную статью" из одного абзаца? Из одного предложения? Слова? Ответов нет. Двигаюсь вперед, а там -- как получится.


Читать: https://habr.com/ru/articles/764838/