В чём разница форматов медицинских снимков DICOM и NIfTI?
Стандарты визуализации и форматы файлов играют существенную роль в аннотировании медицинских снимков. В этой статье рассказывается о различиях между двумя самыми популярными стандартами медицинской визуализации, DICOM и NIfTI.
Одно из самых существенных достижений в сфере аннотирования медицинских снимков — применение машинного обучения для оценки изображений с целью более точной и быстрой медицинской диагностики.
До того, как будут применены машинное обучение (ML), искусственный интеллект (AI) или любые другие алгоритмы диагностики, нам нужно разобраться, какое ПО аннотирования способно обрабатывать два самых популярных формата файлов снимков, а именно DICOM и NIfTI.
Читать: https://habr.com/ru/post/703750/
Стандарты визуализации и форматы файлов играют существенную роль в аннотировании медицинских снимков. В этой статье рассказывается о различиях между двумя самыми популярными стандартами медицинской визуализации, DICOM и NIfTI.
Одно из самых существенных достижений в сфере аннотирования медицинских снимков — применение машинного обучения для оценки изображений с целью более точной и быстрой медицинской диагностики.
До того, как будут применены машинное обучение (ML), искусственный интеллект (AI) или любые другие алгоритмы диагностики, нам нужно разобраться, какое ПО аннотирования способно обрабатывать два самых популярных формата файлов снимков, а именно DICOM и NIfTI.
Читать: https://habr.com/ru/post/703750/
Greenplum Backup в Ceph: история миграции
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Как мы обновили старый кластер Elasticsearch на 3 ПБ без простоев. Часть 4 — токенизация и нормализация
Прим. переводчика: автор статьи рассказывает, как его команде удалось оптимизировать временные и ресурсные затраты при токенизации текстов в Elasticsearch путем внедрения нормализации похожих символов.
Это четвертая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Во второй части было рассказано о решении провести полную переиндексацию всего датасета в процессе обновления Elasticsearch. В этой части пойдет речь о некоторых изменениях, которые были внесены в документы во время переиндексации.
Читать: https://habr.com/ru/post/703982/
Прим. переводчика: автор статьи рассказывает, как его команде удалось оптимизировать временные и ресурсные затраты при токенизации текстов в Elasticsearch путем внедрения нормализации похожих символов.
Это четвертая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Во второй части было рассказано о решении провести полную переиндексацию всего датасета в процессе обновления Elasticsearch. В этой части пойдет речь о некоторых изменениях, которые были внесены в документы во время переиндексации.
Читать: https://habr.com/ru/post/703982/
Forrester Study: How IT Decision Makers Are Using Next-Generation Data Platforms
Read: https://www.mongodb.com/blog/post/forrester-study-decision-makers-using-next-generation-data-platforms
Read: https://www.mongodb.com/blog/post/forrester-study-decision-makers-using-next-generation-data-platforms
MongoDB highlights from AWS re:Invent 2022
Read: https://www.mongodb.com/blog/post/mongodb-highlights-aws-reinvent-2022
Read: https://www.mongodb.com/blog/post/mongodb-highlights-aws-reinvent-2022
Essential reading: Explaining modern data management (Part 2)
Data management, data analytics, machine learning and artificial intelligence are all hot topics. Oracle is a leading company in data management with over 4 decades of experience. Let's step back together and learn about the latest concepts, architectures and innovations provided by Oracle to turn your data into actions.
Read: https://blogs.oracle.com/database/post/explaining-modern-data-mgmt-pt-2
Data management, data analytics, machine learning and artificial intelligence are all hot topics. Oracle is a leading company in data management with over 4 decades of experience. Let's step back together and learn about the latest concepts, architectures and innovations provided by Oracle to turn your data into actions.
Read: https://blogs.oracle.com/database/post/explaining-modern-data-mgmt-pt-2
Oracle
Essential reading: Explaining Modern Data Management (Part 2/3)
Data management, data analytics, machine learning and artificial intelligence are all hot topics. Oracle is a leading company in data management with over 4 decades of experience. Let's step back together and learn about the latest concepts, architectures…
Поиск данных в инструментах Data Governance: вызовы и решения
Добрый день!
Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.
В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).
Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.
Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.
Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.
Читать: https://habr.com/ru/post/704870/
Добрый день!
Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.
В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).
Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.
Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.
Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.
Читать: https://habr.com/ru/post/704870/
Куда попадёт стрела времени?
Всегда лучше рассчитывать хранилище данных на устойчивость к extinction-level событиям.
Мы же не динозавры какие-то.
Читать: https://habr.com/ru/post/705472/
Всегда лучше рассчитывать хранилище данных на устойчивость к extinction-level событиям.
Мы же не динозавры какие-то.
Читать: https://habr.com/ru/post/705472/
Что ждёт дата-инжиниринг в 2023 году? Семь прогнозов
Количество поисковых запросов по профессиям
Что таит в себе будущее дата-инжиниринга? В этой статье я поделюсь своими прогнозами на 2023 и последующие годы.
Статьи с прогнозами на следующий год — это банально, но у них есть своя цель. Они помогают нам подняться над повседневной рутиной и подумать над тем, что принесёт выгоду в долгосрочной перспективе.
Кроме того, они обычно бывают упражнениями в смирении: мы пытаемся нарисовать целостную «общую картину» отрасли, стремительно эволюционирующей во множестве направлений. Попробуйте-ка найти отрасль, в которой людям сильнее нужно поддерживать актуальность своих знаний!
Эти возможные направления развития становятся ещё более важными, когда занимающиеся данными организации начинают оценивать и переоценивать свои приоритеты в свете экономической рецессии и когда от инвестиций в дата-инжиниринг зависит способность компании оставаться гибкой, инновационной и конкурентоспособной.
Читать: https://habr.com/ru/post/705000/
Количество поисковых запросов по профессиям
Что таит в себе будущее дата-инжиниринга? В этой статье я поделюсь своими прогнозами на 2023 и последующие годы.
Статьи с прогнозами на следующий год — это банально, но у них есть своя цель. Они помогают нам подняться над повседневной рутиной и подумать над тем, что принесёт выгоду в долгосрочной перспективе.
Кроме того, они обычно бывают упражнениями в смирении: мы пытаемся нарисовать целостную «общую картину» отрасли, стремительно эволюционирующей во множестве направлений. Попробуйте-ка найти отрасль, в которой людям сильнее нужно поддерживать актуальность своих знаний!
Эти возможные направления развития становятся ещё более важными, когда занимающиеся данными организации начинают оценивать и переоценивать свои приоритеты в свете экономической рецессии и когда от инвестиций в дата-инжиниринг зависит способность компании оставаться гибкой, инновационной и конкурентоспособной.
Читать: https://habr.com/ru/post/705000/
Multiple VM Autonomous Database on Dedicated Exadata Infrastructure
Launch announcement for Multiple VM Autonomous Database on Dedicated Exadata Infrastructure
Read: https://blogs.oracle.com/database/post/multiple-vm-autonomous-database-on-dedicated-exadata-infrastructure
Launch announcement for Multiple VM Autonomous Database on Dedicated Exadata Infrastructure
Read: https://blogs.oracle.com/database/post/multiple-vm-autonomous-database-on-dedicated-exadata-infrastructure
Oracle
Multiple VM Autonomous Database on Dedicated Exadata Infrastructure
Launch announcement for Multiple VM Autonomous Database on Dedicated Exadata Infrastructure
Чем занимается ClickHouse пока мы спим или неожиданный OOM
В силу тех или иных обстоятельств, развиваясь по карьерной лестнице мне все чаще стало необходимо соприкасаться с таким известным инструментом в IT мире, как ClickHouse. Хоть мои должности за последние N-лет и связаны уже больше с управлением коллективами - для меня очень важно понимать суть технологических решений и проблемы, с которыми мои команды сталкиваются. Не смотря на все свое дружелюбие и конструкторную гибкость - ClickHouse временами выглядит, как весьма капризная технология. Одной из таких особенностей, с которой мне довелось столкнуться - стала борьба с внезапным OOM. В данной статье мы вместе с вами попробуем рассмотреть причины, откуда этот внезапный OOM, собственно, может браться.
Конечно, довольно часто причина кроется в неоптимальной схеме этой таблицы, неэффективном запросе или настройках самого ClickHouse. В этой статье мы шагнем чуть дальше и поговорим о бэкграундных процессах в ClickHouse, необходимых для его работы и при этом потребляющих драгоценную оперативную память.
Об этом далее и пойдет текст
Читать: https://habr.com/ru/post/705590/
В силу тех или иных обстоятельств, развиваясь по карьерной лестнице мне все чаще стало необходимо соприкасаться с таким известным инструментом в IT мире, как ClickHouse. Хоть мои должности за последние N-лет и связаны уже больше с управлением коллективами - для меня очень важно понимать суть технологических решений и проблемы, с которыми мои команды сталкиваются. Не смотря на все свое дружелюбие и конструкторную гибкость - ClickHouse временами выглядит, как весьма капризная технология. Одной из таких особенностей, с которой мне довелось столкнуться - стала борьба с внезапным OOM. В данной статье мы вместе с вами попробуем рассмотреть причины, откуда этот внезапный OOM, собственно, может браться.
Конечно, довольно часто причина кроется в неоптимальной схеме этой таблицы, неэффективном запросе или настройках самого ClickHouse. В этой статье мы шагнем чуть дальше и поговорим о бэкграундных процессах в ClickHouse, необходимых для его работы и при этом потребляющих драгоценную оперативную память.
Об этом далее и пойдет текст
Читать: https://habr.com/ru/post/705590/
Импортозамещаем Evernote. Obsidian – менеджер заметок и лучший друг менеджеров
Привет, Хабр! Меня зовут Николай Суворов. Я – профессиональный менеджер, руководитель направления Delivery Management в МТС Digital. Занимаюсь Enablement Platform – единой платформой для быстрого создания продуктов в экосистеме МТС. Сегодня я расскажу о своем pet-проекте и о том, как я заменил привычный, но такой недоступный Evernote прекрасным менеджером заметок Obsidian. Статья будет интересна прежде всего тем, кто хочет обладать «вторым мозгом» и ни о чем не забывать.
Читать: https://habr.com/ru/post/705572/
Привет, Хабр! Меня зовут Николай Суворов. Я – профессиональный менеджер, руководитель направления Delivery Management в МТС Digital. Занимаюсь Enablement Platform – единой платформой для быстрого создания продуктов в экосистеме МТС. Сегодня я расскажу о своем pet-проекте и о том, как я заменил привычный, но такой недоступный Evernote прекрасным менеджером заметок Obsidian. Статья будет интересна прежде всего тем, кто хочет обладать «вторым мозгом» и ни о чем не забывать.
Читать: https://habr.com/ru/post/705572/
MongoDB Underpins Massive Digital-First Data Strategy Adoption Across Asia Pacific from Singapore
Read: https://www.mongodb.com/blog/post/massive-digital-first-data-strategy-adoption-across-asia-pacific-singapore
Read: https://www.mongodb.com/blog/post/massive-digital-first-data-strategy-adoption-across-asia-pacific-singapore
Essential reading: Explaining modern data management (Part 3)
Data management, data analytics, machine learning, and artificial intelligence are all hot topics. Oracle is a leading company in data management with over four decades of experience. Let's step back together and learn about the latest concepts, architectures and innovations provided by Oracle to turn your data into actions.
Read: https://blogs.oracle.com/database/post/explaining-modern-data-mgmt-pt-3
Data management, data analytics, machine learning, and artificial intelligence are all hot topics. Oracle is a leading company in data management with over four decades of experience. Let's step back together and learn about the latest concepts, architectures and innovations provided by Oracle to turn your data into actions.
Read: https://blogs.oracle.com/database/post/explaining-modern-data-mgmt-pt-3
Мой диплом, или Как собрать вещи и переехать на YDB
Меня зовут Арслан, в этом году я делал сервис для построения циклов заказа (например, заказа такси). Возможно, вы видели пост от другого разработчика в команде, Ильи Lol4t0. Всего сервис обрабатывает примерно 5000 RPS с задержкой 100 мс в 99 перцентиле. Раньше для хранения данных использовалась связка PostgreSQL с YT — MapReduce-системой Яндекса.
Обычно информация по заказу нужна в быстром доступе в течение пары часов. На эту парадигму хорошо ложилась архитектура с горячим и холодным хранилищем. Событие создавалось в PostgreSQL, асинхронно реплицировалось в YT, а спустя два часа удалялось из PostgreSQL, никаких проблем. Но со временем начали напрягать несколько вещей: сложность архитектуры, низкая доступность во время проведения работ на PostgreSQL и ограниченная возможность горизонтально масштабировать систему. Мы решили перейти на новую архитектуру с базой данных YDB. Хотели на примере тестового сервиса разобраться, как работать с базой, проверить всё под нагрузкой и реализовать хранение данных исходного сервиса.
Вообще, изначально я написал про это диплом. Но потом подумал, что читателям здесь тоже будет интересно, и всё переделал под Хабр. Если тоже переезжаете на YDB (после выхода в опенсорс это стало проще) или адаптируете систему с базой — заглядывайте. Поговорим о большинстве возможных трудностей при переезде.
Читать: https://habr.com/ru/post/702998/
Меня зовут Арслан, в этом году я делал сервис для построения циклов заказа (например, заказа такси). Возможно, вы видели пост от другого разработчика в команде, Ильи Lol4t0. Всего сервис обрабатывает примерно 5000 RPS с задержкой 100 мс в 99 перцентиле. Раньше для хранения данных использовалась связка PostgreSQL с YT — MapReduce-системой Яндекса.
Обычно информация по заказу нужна в быстром доступе в течение пары часов. На эту парадигму хорошо ложилась архитектура с горячим и холодным хранилищем. Событие создавалось в PostgreSQL, асинхронно реплицировалось в YT, а спустя два часа удалялось из PostgreSQL, никаких проблем. Но со временем начали напрягать несколько вещей: сложность архитектуры, низкая доступность во время проведения работ на PostgreSQL и ограниченная возможность горизонтально масштабировать систему. Мы решили перейти на новую архитектуру с базой данных YDB. Хотели на примере тестового сервиса разобраться, как работать с базой, проверить всё под нагрузкой и реализовать хранение данных исходного сервиса.
Вообще, изначально я написал про это диплом. Но потом подумал, что читателям здесь тоже будет интересно, и всё переделал под Хабр. Если тоже переезжаете на YDB (после выхода в опенсорс это стало проще) или адаптируете систему с базой — заглядывайте. Поговорим о большинстве возможных трудностей при переезде.
Читать: https://habr.com/ru/post/702998/
👍2
Как мы обновили старый кластер Elasticsearch на 3 ПБ без простоев. Часть 5 — два клиента Elasticsearch на одной JVM
Прим. переводчика: автор статьи рассказывает, как его команде удалось запустить два клиента Elasticsearch разных версий на одной JVM путем написания специальной библиотеки-обертки для работы с нужной версией.
Это пятая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Глобальный характер обновления с самого начала намекал, что оно займет минимум год (а то и больше). В этой части пойдет речь об изменении подхода к разработке и о том, как удалось поддерживать параллельную работу нескольких клиентских библиотек Elasticsearch в кодовых базах Java в течение длительного времени.
Читать: https://habr.com/ru/post/706506/
Прим. переводчика: автор статьи рассказывает, как его команде удалось запустить два клиента Elasticsearch разных версий на одной JVM путем написания специальной библиотеки-обертки для работы с нужной версией.
Это пятая часть серии статей об обновлении кластера Elasticsearch без простоев и с минимальным воздействием на пользователей.
Глобальный характер обновления с самого начала намекал, что оно займет минимум год (а то и больше). В этой части пойдет речь об изменении подхода к разработке и о том, как удалось поддерживать параллельную работу нескольких клиентских библиотек Elasticsearch в кодовых базах Java в течение длительного времени.
Читать: https://habr.com/ru/post/706506/
Бухгалтеры и юристы хранят документы по 50 лет – как будем организовывать для них хранение?
К нам часто обращаются специалисты из бухгалтерской или юридической службы за консультацией о том, как им уже избавиться от хранения всех документов на бумаге и вступить в мир без бумаги.
Рассказываем, какие технологии помогают решить такие задачи.
Читать: https://habr.com/ru/post/706574/
К нам часто обращаются специалисты из бухгалтерской или юридической службы за консультацией о том, как им уже избавиться от хранения всех документов на бумаге и вступить в мир без бумаги.
Рассказываем, какие технологии помогают решить такие задачи.
Читать: https://habr.com/ru/post/706574/
Нельзя просто взять и обезличить данные — опыт команды разработки «Сферы»
Бизнесу нельзя использовать данные клиентов as is для тестов. Отдел разработки не может просто взять персональные данные (ПДн) и проверить на них новую фичу, обучить Machine Learning-модель. Этот момент регулируют законы и отраслевые стандарты. Чтобы с данными можно было работать, их необходимо обезличить. В крупных компаниях сотни таблиц переплетены идентификаторами, формулами, процедурами. И здесь речь идет уже о формировании обезличенных интеграционных полигонов (комплексов БД). Максим Никитин, тимлид группы разработки, поделится опытом команды разработки платформы производства ПО «Сфера».
Читать: https://habr.com/ru/post/706870/
Бизнесу нельзя использовать данные клиентов as is для тестов. Отдел разработки не может просто взять персональные данные (ПДн) и проверить на них новую фичу, обучить Machine Learning-модель. Этот момент регулируют законы и отраслевые стандарты. Чтобы с данными можно было работать, их необходимо обезличить. В крупных компаниях сотни таблиц переплетены идентификаторами, формулами, процедурами. И здесь речь идет уже о формировании обезличенных интеграционных полигонов (комплексов БД). Максим Никитин, тимлид группы разработки, поделится опытом команды разработки платформы производства ПО «Сфера».
Читать: https://habr.com/ru/post/706870/
New Backported Features Available in MariaDB Enterprise Server Releases 10.3-10.6
Read: https://mariadb.com/?p=34391
Read: https://mariadb.com/?p=34391
Oracle Autonomous Transaction Processing Ranked Highest in Gartner Critical Capabilities for Cloud Database Management Systems for Operational Use Cases
Oracle Autonomous Database for transaction processing and mixed workloads (ATP) ranked highest in Gartner 2022 Report, Critical Capabilities for Cloud Database Management Systems for Operational Use Cases.
Read: https://blogs.oracle.com/database/post/oracle-autonomous-database-ranked-highest-in-gartner-critical-capabilities
Oracle Autonomous Database for transaction processing and mixed workloads (ATP) ranked highest in Gartner 2022 Report, Critical Capabilities for Cloud Database Management Systems for Operational Use Cases.
Read: https://blogs.oracle.com/database/post/oracle-autonomous-database-ranked-highest-in-gartner-critical-capabilities
👍1