Это расширение над git для работы с большими файлами. Можно сохранять большие картинки, датасеты. Работа как с обычным git.
Проблемы возникают на проектах, где общий размер > 2GB
Проблемы возникают на проектах, где общий размер > 2GB
В крупных компаниях используются AI-платформы, которые покрывают все проблемы, но эти решения недоступны для маленьких компаний. Очень большую часть работы приходится делать руками, хотя нормальные решения позволяют автоматизировать шаги:
- выделить машины в облаке
- скопировать данные
- запустить
- скопировать результат
- внести в хранилище.
Но хочется, чтобы AI платформа все эти проблемы решала сама.
Именно это и была мотивация за созданием проекта DVC.
- выделить машины в облаке
- скопировать данные
- запустить
- скопировать результат
- внести в хранилище.
Но хочется, чтобы AI платформа все эти проблемы решала сама.
Именно это и была мотивация за созданием проекта DVC.
data.xml.dvc - это метаинформация о данных, которые могут быть в S3, или в других cloud-хранилищах
$ dvc get https://github.com/dmpetrov/my-dvc-repo cnn_model.p
Так можно из репозитория получить только модель
мы заменили большую excel таблицу на историю в git. Это стандартная практика
Но мы не можем в историю git положить гипепараметры.
Но мы не можем в историю git положить гипепараметры.
Q: Происходит ли дубликация данных при изменении версии датасетов. Или сохраняется только разница?
A: Если файл с данными один - да, дубликация происходит. Если директория с большим количеством файлов - мы будем сохранять только изменения (потому что на уровне файла происходит сравнение)
A: Если файл с данными один - да, дубликация происходит. Если директория с большим количеством файлов - мы будем сохранять только изменения (потому что на уровне файла происходит сравнение)