DATABASE DESIGN – Telegram
DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
MongoDB стимулирует инновации SaaS в Индии, активно поддерживая независимых разработчиков ПО (ISVs).

Работая с такими компаниями, как Intellect AI и Ambee, MongoDB предлагает гибкие и масштабируемые технологии для создания эффективных решений. Это партнерство укрепляет позиции индийских ISVs на рынке современных цифровых решений.

Читать подробнее

#en

@database_design | Другие наши каналы
Почему мы перешли на RAID 10



Недавно у нас развалился RAID 5. Один диск на первом году своей жизни умер сам от естественных причин. Такое может быть и в период трёхлетней гарантии — нечасто, но может. Мы вынули его, поставили на его место диск из горячего резерва — и во время ребилда в массиве умер второй диск. Данные умерли вместе с ним.

Один из пользователей, чьи данные там были, очень живо интересовался тем, что за конфигурация у нас была. Вплоть до моделей дисков, дат их производства и серийных номеров. Он, вероятно, считал, что там стоит какое-то старьё, и до последнего не верил, что так бывает на новом железе. Потом очень искренне смеялся над фразой, что ни одна схема резервирования RAID не даёт стопроцентной гарантии сохранности данных.

Это правда: ни одна схема резервирования никогда не гарантирует 100 %. Случается всякое. Диски из одной партии могут умереть в один день: у нас такое было только один раз несколько лет тому назад, но было. Разболтавшийся кулер может вызвать резонансные вибрации, которые убьют два массива целиком: такое было больше пяти лет тому назад, и мы долго расследовали ту ситуацию.

Бывает всё.

В России не очень принято выплачивать компенсации за простои и потерю данных. В прошлом году мы поняли, что это важно делать, и включили такие пункты в соглашение.

Это привело к целой цепочке последствий, в частности, к тому, что мы перешли на RAID 10 как на новый для нас стандарт хранения данных.

Читать: https://habr.com/ru/companies/ruvds/articles/881290/

#ru

@database_design | Другие наши каналы
MongoDB продолжает укреплять позиции в сфере генеративного ИИ, став технологическим партнером года по версии Confluent. Ранее компания приветствовала шестерых новых партнёров в области ИИ и технологий, таких как Base64 и Dataloop, для улучшения интеграций с MongoDB. Узнайте больше в блоге MongoDB! MongoDB помогает ИТ-разработчикам в Индии

Независимые разработчики ПО играют ключевую роль в цифровой экономике Индии. Используя MongoDB, компании создают инновационные SaaS-решения, оптимизируя данные и повышая эффективность. Примеры таких стартапов - Intellect AI и Zluri, которые успешно справляются с растущими объемами данных.

Читать подробнее

#en

@database_design | Другие наши каналы
Новые версии коннекторов MariaDB уже доступны!

Компания MariaDB выпустила обновления для своих коннекторов: C 3.4.4, 3.3.14, 3.1.27 и Java 3.5.2. Изменения включают улучшения в компрессии данных и исправления ошибок. Детали доступны в релизных заметках на сайте компании.

Читать подробнее

#en

@database_design | Другие наши каналы
Вся правда о данных: от примитивов до озера данных в эпоху микросервисов. Гайд для Java-разработчика

Данные — это новая нефть. От эффективности работы с ними напрямую зависит успех любого проекта, особенно в эпоху микросервисов. В этой статье мы погрузимся в мир данных и рассмотрим его с точки зрения Java-разработчика, который хочет добиться продуктивности и оставаться во всеоружии при работе с любыми объемами информации.

Цель этой статьи - предоставить полное руководство по структурам, концептам и инструментам для работы с данными в экосистеме Java, с уклоном в микросервисную архитектуру.

Мы пройдем путь от простейших структур данных, таких как примитивы и массивы, до сложных концептов, таких как озера данных и потоки событий. Рассмотрим различные способы хранения, обработки и передачи данных, а также архитектурные компоненты, необходимые для построения эффективных систем. Подробно остановимся на стратегиях развития - как правильно выбрать структуру и инструменты в зависимости от стадии развития проекта - от прототипа до высоконагруженной системы. Особое внимание уделим специфике микросервисной архитектуры и тому, как она влияет на выбор подходов к работе с данными.

Статья будет полезна Java-разработчикам разного уровня: от начинающих, желающих систематизировать свои знания, до опытных, ищущих решения для сложных задач в области хранения, передачи и обработки данных.


Читать: https://habr.com/ru/articles/881682/

#ru

@database_design | Другие наши каналы
Миграция BI-аналитики: как перейти на Apache Superset и не потерять пользователей

Привет! Меня зовут Виталий Флёрин, я руководитель отдела BI-аналитики в M2. За год мы успешно перевели всю отчетность компании с Cognos Analytics на Apache Superset и увеличили MAU до 200 (каждый третий сотрудник компании). В статье хочу поделиться опытом внедрения новой системы отчетности и ее эффективного использования.

Материал будет полезен BI-специалистам, кто работает над развитием внутренних систем и хочет переехать на Superset.

История началась с того, что после ухода Cognos Analytics с российского рынка, нам нужно было выбрать новую BI для компании и мигрировать всю отчетность. Текущая система была развернута on-premises и продолжала работать в штатном режиме. Да, без обновлений и поддержки, но благодаря этому мы смогли тщательно подойти к выбору нового решения и обеспечить плавный переход пользователей на новую платформу.


Читать: https://habr.com/ru/companies/m2tech/articles/881190/

#ru

@database_design | Другие наши каналы
Анализ графа заметок Obsidian

Obsidian на Хабре посвящено немало статей и, главным образом, про то, как создать и вести в нем базу знаний или систему управления личными делами. При этом остается обделенной вниманием тема анализа накопленного графа заметок с точки зрения его структуры и динамики. А это дополнительный слой информации, в том числе не закладываемой явно в содержание самих заметок. В качестве примера проведу в данной статье анализ своего графа заметок, собранного за прошедший год.


Читать: https://habr.com/ru/articles/881886/

#ru

@database_design | Другие наши каналы
Переход на новую версию API MongoDB Atlas

MongoDB представила обновленную версию API для администрирования Atlas. Новая версия API улучшает работу с программным доступом к функциям Atlas благодаря изменениям, обеспечивающим стабильность и предсказуемость обновлений. Переход на новую версию облегчит управление вашими базами данных. Новый виток онлайн-образования: опыт WanTong

Пандемия ускорила рост рынка онлайн-образования, и WanTong Education, использовав 70-летний опыт, выбрала MongoDB Atlas для улучшения управления данными. Это помогло повысить гибкость и скорость обработки данных, предоставив лучшую образовательную платформу для студентов.

Читать подробнее

#en

@database_design | Другие наши каналы
Как протестировать производительность СУБД перед миграцией: опыт K2Тех

После ухода западных вендоров в 2022 году российские компании столкнулись с необходимостью массовой миграции с Oracle и MS SQL на PostgreSQL и другие открытые СУБД. Теперь к вопросам миграции приходится относиться ответственнее: самостоятельно оценивать риски и прогнозировать работу систем после переезда.

Как перфоманс-инженер, я часто сталкиваюсь с вопросами типа: справится ли PostgreSQL с текущей нагрузкой? Потребуется ли обновление железа? Какие проблемы могут возникнуть после перехода? К сожалению, готовых инструментов для оценки производительности СУБД на рынке фактически нет. Это заставило нас разработать собственную методологию тестирования, которая позволяет выявить потенциальные проблемы и точно оценить необходимые ресурсы.

В этой статье я поделюсь практическим опытом нагрузочного тестирования баз данных и расскажу об инструментах, которые мы используем для анализа производительности. Наш подход не требует существенных затрат и может быть адаптирован под задачи любой компании, планирующей миграцию на PostgreSQL.


Читать: https://habr.com/ru/companies/k2tech/articles/882098/

#ru

@database_design | Другие наши каналы
Хеш-индексы в PostgreSQL: быстрый поиск или скрытые проблемы?

Хеш-индексы в PostgreSQL - мощный, но недооценённый инструмент.

Когда они быстрее B-Tree, а когда наоборот?

Простое объяснение, тесты и ключевые нюансы, которые помогут ускорить запросы...


Читать: https://habr.com/ru/articles/882106/

#ru

@database_design | Другие наши каналы
Хеш-индексы в PostgreSQL: быстрый поиск или скрытые проблемы?

Хеш-индексы в PostgreSQL - мощный, но недооценённый инструмент.

Когда они быстрее B-Tree, а когда наоборот?

Простое объяснение, тесты и ключевые нюансы, которые помогут ускорить запросы...


Читать: https://habr.com/ru/articles/882106/

#ru

@database_design | Другие наши каналы
Кем стать: дата-сайентистом, аналитиком, инженером данных или ML

Чем занимаются и сколько зарабатывают специалисты Data Science — дата-сайентист, аналитик, дата-инженер и инжнер машинного обучения.

Читать: «Кем стать: дата-сайентистом, аналитиком, инженером данных или ML»

#ru

@database_design | Другие наши каналы
Spring JPA и OOM: 5 способов спастись от кэш-ловушки Hibernate

Spring JPA + большие данные = OOM? Hibernate скрывает коварную ловушку, которая может перегрузить память и обрушить приложение. Разбираем причины, а главное – 5 эффективных способов избежать OOM, чтобы работать с миллионами записей без проблем! 🚀


Читать: https://habr.com/ru/articles/882132/

#ru

@database_design | Другие наши каналы
Новинки в MariaDB Community Server 11.7 и 11.8

MariaDB Community Server 11.7 теперь доступен для всех пользователей. Главной особенностью версии стал поиск по векторам, что значительно упрощает использование AI. Также обновлены функции генерации UUID и улучшены системные таблицы. Версия 11.8 в стадии релиз-кандидата и включает дальнейшие улучшения.

Читать подробнее

#en

@database_design | Другие наши каналы
Новые ежегодные LTS релизы MariaDB Community Server

MariaDB объявила о ежегодных LTS релизах для стабильности и предсказуемости. Версия 11.8 станет следующей LTS в мае 2025 года, вводя векторный поиск для AI приложений. Теперь пользователи могут ожидать новые LTS версии каждый май, а также регулярные обновления инноваций.

Читать подробнее

#en

@database_design | Другие наши каналы
🧠 Усиление управления данными при помощи графов знаний

Компания WhyHow.AI разработала платформу на базе MongoDB для улучшения работы с графами знаний. Эти графы преодолевают недостатки традиционных систем, предоставляя точное извлечение и структурированные данные, что важно для AI и обучения моделей. Интеграция с MongoDB обеспечивает масштабируемость и поддерживает современный поиск и агрегацию данных. MongoDB Atlas: Обновление API для улучшенного опыта

В статье рассказывается об обновлённой версии API MongoDB Atlas, которая предлагает улучшение взаимодействия для разработчиков, предсказуемость изменений и поддержку OAuth2.0. Новая версия также включает обновлённый Go SDK, облегчающий работу с API, и дает более гибкие и минимально прерывающие процессы миграции.

Читать подробнее

#en

@database_design | Другие наши каналы
Эксплуатация Stateful-приложений в Kubernetes на примере баз данных в Авито

Привет! Меня зовут Игорь Конев, я — старший инженер команды DBaaS в Авито. В этой статье я рассказываю о нашем подходе к работе Stateful-приложений в k8s на примере DBaaS и о том, как удалось автоматизировать жизненный цикл баз данных у нас в Авито. Статья будет полезна новичкам, которые не работали в Kubernetes, не сталкивались с менеджментом Stateful-приложений или хотели бы массово разворачивать базы данных в Kubernetes.


Читать: https://habr.com/ru/companies/avito/articles/881728/

#ru

@database_design | Другие наши каналы
Эксплуатация Stateful-приложений в Kubernetes на примере баз данных в Авито

Привет! Меня зовут Игорь Конев, я — старший инженер команды DBaaS в Авито. В этой статье я рассказываю о нашем подходе к работе Stateful-приложений в k8s на примере DBaaS и о том, как удалось автоматизировать жизненный цикл баз данных у нас в Авито. Статья будет полезна новичкам, которые не работали в Kubernetes, не сталкивались с менеджментом Stateful-приложений или хотели бы массово разворачивать базы данных в Kubernetes.


Читать: https://habr.com/ru/companies/avito/articles/881728/

#ru

@database_design | Другие наши каналы
EDA of dataset Python

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.


Читать: https://habr.com/ru/articles/882588/

#ru

@database_design | Другие наши каналы
Выбираем решение для NoSQL

Современные приложения требуют высокой скорости работы с данными, гибкости и масштабируемости — но реляционные базы данных не всегда соответствуют этим требованиям. NoSQL-решения предлагают альтернативные подходы к хранению информации, оптимизированные под разные задачи: от аналитики в реальном времени до работы с распределёнными системами. В этой статье мы разберём ключевые принципы NoSQL, сравним популярные базы данных и выясним, как выбрать оптимальное решение в зависимости от ваших потребностей.


Читать: https://habr.com/ru/companies/otus/articles/882598/

#ru

@database_design | Другие наши каналы
Данные на льду: как Apache Iceberg перевернул мир аналитических систем

Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.

Читать: https://habr.com/ru/companies/selectel/articles/875472/

#ru

@database_design | Другие наши каналы