Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти
И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.
В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.
Читать: https://habr.com/ru/post/703608/
И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.
В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.
Читать: https://habr.com/ru/post/703608/
What’s New in Atlas Charts: Easy Organization-Wide Sharing
Read: https://www.mongodb.com/blog/post/whats-new-atlas-charts-easy-organization-wide-sharing
Read: https://www.mongodb.com/blog/post/whats-new-atlas-charts-easy-organization-wide-sharing
Обновить данные в ClickHouse без UPDATE: кейс IBS
Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.
Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.
Интересно? Переходите под кат.
Читать: https://habr.com/ru/post/703124/
Привет, Хабр! Меня зовут Антон, я – старший разработчик в отделе разработки баз данных в IBS. В этой статье я расскажу о том, как нашей командой была решена задача по сохранению в ClickHouse большого количества данных, генерируемых веб-приложением, с последующим получением сохранённых данных в агрегированном виде.
Решение задачи, описанной выше, было бы простым и вряд ли заслуживающим отдельной статьи на Хабре. Но наш случай представлял собой ряд нюансов: здесь есть технические дубли записей и бизнес-дубли (обновления), есть агрегированные данные и необходимость обновления агрегированных данных. А это уже пример не совсем типичного использования ClickHouse, которым мы и хотим поделиться.
Интересно? Переходите под кат.
Читать: https://habr.com/ru/post/703124/
Глубокое обучение в диагностике: как AI спасает жизни и экономит средства на лечение
«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.
Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.
Читать: https://habr.com/ru/post/700344/
«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.
Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.
Читать: https://habr.com/ru/post/700344/
Пакетная операция JDBC — команда batchUpdate
Всем привет! Данная статья будет полезна начинающим разработчикам на Java, для понимания работы пакетных операции и команды batchUpdate и на сколько она эффективнее по производительности в сравнении с update. Поехали!
Вначале немного теории:
С официальной документации:
Читать: https://habr.com/ru/post/703828/
Всем привет! Данная статья будет полезна начинающим разработчикам на Java, для понимания работы пакетных операции и команды batchUpdate и на сколько она эффективнее по производительности в сравнении с update. Поехали!
Вначале немного теории:
С официальной документации:
Читать: https://habr.com/ru/post/703828/
Making Eclipse MicroProfile Long Running Actions Easy with MicroTx
This post describes using an eventual consistency model as provided by the Eclipse MicroProfile Long Running Actions protocol with MicroTx.
Read: https://blogs.oracle.com/database/post/making-eclipse-microprofile-long-running-actions-easy-with-microtx
This post describes using an eventual consistency model as provided by the Eclipse MicroProfile Long Running Actions protocol with MicroTx.
Read: https://blogs.oracle.com/database/post/making-eclipse-microprofile-long-running-actions-easy-with-microtx
Oracle
Making Eclipse MicroProfile Long Running Actions Easy with MicroTx
This post describes using an eventual consistency model as provided by the Eclipse MicroProfile Long Running Actions protocol with MicroTx.
Simplifying IoT Connectivity with myDevices and MongoDB
Read: https://www.mongodb.com/blog/post/simplifying-iot-connectivity-mydevices-mongodb
Read: https://www.mongodb.com/blog/post/simplifying-iot-connectivity-mydevices-mongodb
NAS за шапку сухарей
Привет коллеги! На связи системный администратор Cloud4Y Денис Генералов (или тот самый чел, который искал уязвимости биоса в прошлых статьях на ноутбуках, статья тут).
Сегодня предлагаю рассмотреть вариант сборки домашнего NAS дендральным методом.
Всё описанное в статье является результатом деятельности моего воспаленного мозга поиска оптимальной конфигурации для своего домашнего файлохранилища и не является призывами к прямому действию. Представляет из себя изыскание того самого продукта, который может максимально покрыть мои потребности за сравнительно небольшую плату. Не поднимает вопрос о подлинности и законности использования указанного решения на территории предприятия, для всего остального – есть GPL v2.
Читать: https://habr.com/ru/post/703540/
Привет коллеги! На связи системный администратор Cloud4Y Денис Генералов (или тот самый чел, который искал уязвимости биоса в прошлых статьях на ноутбуках, статья тут).
Сегодня предлагаю рассмотреть вариант сборки домашнего NAS дендральным методом.
Всё описанное в статье является результатом деятельности моего воспаленного мозга поиска оптимальной конфигурации для своего домашнего файлохранилища и не является призывами к прямому действию. Представляет из себя изыскание того самого продукта, который может максимально покрыть мои потребности за сравнительно небольшую плату. Не поднимает вопрос о подлинности и законности использования указанного решения на территории предприятия, для всего остального – есть GPL v2.
Читать: https://habr.com/ru/post/703540/
Tackling the 5G Complexity Beast with MongoDB’s Developer Data Platform Simplicity
Read: https://www.mongodb.com/blog/post/tackling-5g-complexity-beast-mongodbs-developer-data-platform-simplicity
Read: https://www.mongodb.com/blog/post/tackling-5g-complexity-beast-mongodbs-developer-data-platform-simplicity
Как мы обновили старый кластер Elasticsearch на 3 ПБ без простоев. Часть 3 — поиск и подстановочные знаки
Прим. переводчика: автор статьи рассказывает, с какими трудностями его команда столкнулась при настройке нового кластера. Среди них — проблема с низкой производительностью поиска по подстановочным знакам.
Это третья часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей. В рамках проекта по обновлению Elasticsearch было необходимо определить, насколько улучшилась производительность поиска в новой версии по сравнению со старой. Использование старой версии Elasticsearch было сопряжено со множеством проблем с производительностью, и была надежда, что переход на новую версию поможет с ними разобраться.
Читать: https://habr.com/ru/post/703980/
Прим. переводчика: автор статьи рассказывает, с какими трудностями его команда столкнулась при настройке нового кластера. Среди них — проблема с низкой производительностью поиска по подстановочным знакам.
Это третья часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей. В рамках проекта по обновлению Elasticsearch было необходимо определить, насколько улучшилась производительность поиска в новой версии по сравнению со старой. Использование старой версии Elasticsearch было сопряжено со множеством проблем с производительностью, и была надежда, что переход на новую версию поможет с ними разобраться.
Читать: https://habr.com/ru/post/703980/
DBA: хранение списков — таблица, массив, строка?
Достаточно часто при проектировании схемы БД возникает задача сохранить по основной сущности некоторый набор простых второстепенных данных.
Например, это могут быть ФИО сотрудников, принимающих участие во встрече, список приложенных к сообщению файлов или перечень отгружаемых по документу позиций.
Во всех этих случаях мы заранее понимаем, что список этот меняется редко и ни индексировать эти данные, ни искать по ним, ни извлекать отдельно от основной сущности (встречи, сообщения или документа), мы не захотим.
Давайте посмотрим, какие варианты хранения таких данных мы можем использовать в PostgreSQL, и какой из них окажется в разы более эффективным.
Читать: https://habr.com/ru/post/704250/
Достаточно часто при проектировании схемы БД возникает задача сохранить по основной сущности некоторый набор простых второстепенных данных.
Например, это могут быть ФИО сотрудников, принимающих участие во встрече, список приложенных к сообщению файлов или перечень отгружаемых по документу позиций.
Во всех этих случаях мы заранее понимаем, что список этот меняется редко и ни индексировать эти данные, ни искать по ним, ни извлекать отдельно от основной сущности (встречи, сообщения или документа), мы не захотим.
Давайте посмотрим, какие варианты хранения таких данных мы можем использовать в PostgreSQL, и какой из них окажется в разы более эффективным.
Читать: https://habr.com/ru/post/704250/
Telco Scaling Strategies: Modernizing Business Support Systems for Flexible Revenue Growth
Read: https://www.mongodb.com/blog/post/modernizing-business-support-systems-flexible-revenue-growth
Read: https://www.mongodb.com/blog/post/modernizing-business-support-systems-flexible-revenue-growth
MongoDB Donates Laptops to Metropolitan School - Frankfurt
Read: https://www.mongodb.com/blog/post/mongodb-donates-laptops-metropolitan-school-frankfurt
Read: https://www.mongodb.com/blog/post/mongodb-donates-laptops-metropolitan-school-frankfurt
Влияние сбора статистик на скорость выполнения запросов в СУБД TERADATA
Расскажу о такой важной особенности работы СУБД TERADATA, как сбор и использование статистик при выполнении запросов и как их наличие или отсутствие может повлиять на скорость выполнения таких запросов. Попытаюсь объяснить, что представляют собой статистики и для чего они нужны TERADATA.
Читать: https://habr.com/ru/post/704316/
Расскажу о такой важной особенности работы СУБД TERADATA, как сбор и использование статистик при выполнении запросов и как их наличие или отсутствие может повлиять на скорость выполнения таких запросов. Попытаюсь объяснить, что представляют собой статистики и для чего они нужны TERADATA.
Читать: https://habr.com/ru/post/704316/
Tarantool: Билли Миллиган в мире СУБД
Привет! Меня зовут Mons Anderson, я архитектор, разработчик, продакт-менеджер и евангелист Tarantool. В VK работаю уже больше 10 лет. Я постоянно нуждаюсь в базах данных, использую их и очень люблю. И в последнее время, когда я говорю про БД, я всё чаще говорю про Tarantool. Сегодня тоже хочу рассказать, что уникального в этой базе данных и что делает её практически универсальной.
Читать: https://habr.com/ru/post/704286/
Привет! Меня зовут Mons Anderson, я архитектор, разработчик, продакт-менеджер и евангелист Tarantool. В VK работаю уже больше 10 лет. Я постоянно нуждаюсь в базах данных, использую их и очень люблю. И в последнее время, когда я говорю про БД, я всё чаще говорю про Tarantool. Сегодня тоже хочу рассказать, что уникального в этой базе данных и что делает её практически универсальной.
Читать: https://habr.com/ru/post/704286/
TDE в Platform V DataGrid: учим систему шифрования менять ключи на лету
Привет, Хабр! Это Никита Амельчев и Павел Переслегин. Мы создаём Platform V DataGrid — распределённую базу данных, которая используется в сервисах Сбера и внешних клиентов. В статье расскажем, как мы усилили базовые функции шифрования TDE в нашем продукте и как решали вопрос совмещения полного шифрования и высокой производительности базы данных.
Читать: https://habr.com/ru/post/704476/
Привет, Хабр! Это Никита Амельчев и Павел Переслегин. Мы создаём Platform V DataGrid — распределённую базу данных, которая используется в сервисах Сбера и внешних клиентов. В статье расскажем, как мы усилили базовые функции шифрования TDE в нашем продукте и как решали вопрос совмещения полного шифрования и высокой производительности базы данных.
Читать: https://habr.com/ru/post/704476/
В чём разница форматов медицинских снимков DICOM и NIfTI?
Стандарты визуализации и форматы файлов играют существенную роль в аннотировании медицинских снимков. В этой статье рассказывается о различиях между двумя самыми популярными стандартами медицинской визуализации, DICOM и NIfTI.
Одно из самых существенных достижений в сфере аннотирования медицинских снимков — применение машинного обучения для оценки изображений с целью более точной и быстрой медицинской диагностики.
До того, как будут применены машинное обучение (ML), искусственный интеллект (AI) или любые другие алгоритмы диагностики, нам нужно разобраться, какое ПО аннотирования способно обрабатывать два самых популярных формата файлов снимков, а именно DICOM и NIfTI.
Читать: https://habr.com/ru/post/703750/
Стандарты визуализации и форматы файлов играют существенную роль в аннотировании медицинских снимков. В этой статье рассказывается о различиях между двумя самыми популярными стандартами медицинской визуализации, DICOM и NIfTI.
Одно из самых существенных достижений в сфере аннотирования медицинских снимков — применение машинного обучения для оценки изображений с целью более точной и быстрой медицинской диагностики.
До того, как будут применены машинное обучение (ML), искусственный интеллект (AI) или любые другие алгоритмы диагностики, нам нужно разобраться, какое ПО аннотирования способно обрабатывать два самых популярных формата файлов снимков, а именно DICOM и NIfTI.
Читать: https://habr.com/ru/post/703750/
Greenplum Backup в Ceph: история миграции
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Как мы обновили старый кластер Elasticsearch на 3 ПБ без простоев. Часть 4 — токенизация и нормализация
Прим. переводчика: автор статьи рассказывает, как его команде удалось оптимизировать временные и ресурсные затраты при токенизации текстов в Elasticsearch путем внедрения нормализации похожих символов.
Это четвертая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Во второй части было рассказано о решении провести полную переиндексацию всего датасета в процессе обновления Elasticsearch. В этой части пойдет речь о некоторых изменениях, которые были внесены в документы во время переиндексации.
Читать: https://habr.com/ru/post/703982/
Прим. переводчика: автор статьи рассказывает, как его команде удалось оптимизировать временные и ресурсные затраты при токенизации текстов в Elasticsearch путем внедрения нормализации похожих символов.
Это четвертая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Во второй части было рассказано о решении провести полную переиндексацию всего датасета в процессе обновления Elasticsearch. В этой части пойдет речь о некоторых изменениях, которые были внесены в документы во время переиндексации.
Читать: https://habr.com/ru/post/703982/
Forrester Study: How IT Decision Makers Are Using Next-Generation Data Platforms
Read: https://www.mongodb.com/blog/post/forrester-study-decision-makers-using-next-generation-data-platforms
Read: https://www.mongodb.com/blog/post/forrester-study-decision-makers-using-next-generation-data-platforms
MongoDB highlights from AWS re:Invent 2022
Read: https://www.mongodb.com/blog/post/mongodb-highlights-aws-reinvent-2022
Read: https://www.mongodb.com/blog/post/mongodb-highlights-aws-reinvent-2022