В 15:00 в А 1.6 OpsGuru приглашают обсуждать «GCP: Обработка Данных и Машинное Обучение штатными средствами».
В 15-00 (совсем скоро) в митапошной R1.7 Вирна Штерн (Aletheia Digital) и Александр Зиза рассказывают про цифровую трансформацию.
Версионирование дата-сетов и моделей машинного обучения, используя Open Source-инструменты / Дмитрий Петров (Iterative.ai) — Найроби + Касабланка.
Дмитрий начинает доклад.
Дмитрий начинает доклад.
1 часть доклада - почему ML настолько “необычный”, почему не можем использовать стандартные подходы, которые применяются ко всей отрасли ПО.
Основное отличие ML: гиперпараметры развиваются быстрее кода, эта информация - очень важна. Именно ею выделитесь с коллегами. И Excel - один из самых неплохих вариантов, бывают и хуже.
Второе отличие - нужно отслеживать метрики, нужно хранить метрики вместе с параметрами, их тоже надо пересылать и хранить.
Аналогично нужно хранить сами модели. Очень много моделей, чаще всего в имени хранится информация, например “model_v7_i1_zero_15”
Чуть лучше обстоит дело с датасетами, они реже меняются. Однако, они тоже меняются, и их тоже надо версионировать. Опять файлы, директории с разными названиями,
Код - тоже есть, не подумайте, и он тоже меняется. Но здесь все проще, git и стандартные практики.
1. MLFlow. Есть поддержка работы с гиперпараметрами, есть поддержка метрик, моделей. Автоматическая генерация таблиц с результатами. Это избавляет от большого количества ошибок, проблем с лишней тратой времени на одну и ту же работу.
Это расширение над git для работы с большими файлами. Можно сохранять большие картинки, датасеты. Работа как с обычным git.
Проблемы возникают на проектах, где общий размер > 2GB
Проблемы возникают на проектах, где общий размер > 2GB