NEW BOT Телеграм, страница

HighLoad++

В крупных компаниях используются AI-платформы, которые покрывают все проблемы, но эти решения недоступны для маленьких компаний. Очень большую часть работы приходится делать руками, хотя нормальные решения позволяют автоматизировать шаги:
- выделить машины в облаке
- скопировать данные
- запустить
- скопировать результат
- внести в хранилище.

Но хочется, чтобы AI платформа все эти проблемы решала сама.
Именно это и была мотивация за созданием проекта DVC.

945 views12:20

HighLoad++

914 views12:20

HighLoad++

ВОзможности DVC вкратце

888 viewsedited 12:22

HighLoad++

cli позволяет из терминала работать с датасетом:

$ dvc add data.xml
$ dvc push

890 views12:23

HighLoad++

data.xml.dvc - это метаинформация о данных, которые могут быть в S3, или в других cloud-хранилищах

894 viewsedited 12:24

HighLoad++

$ dvc add images/

- добавление всех картинок

892 views12:25

HighLoad++

$ dvc get https://github.com/dmpetrov/my-dvc-repo cnn_model.p

Так можно из репозитория получить только модель

892 viewsedited 12:25

HighLoad++

894 views12:26

HighLoad++

Можно добавлять метрики, и потом делать навигацию в репозитории по метрикам

865 views12:26

HighLoad++

“покажи мне лучшую метрику”

862 views12:27

HighLoad++

вот про метрику)

908 views12:28

HighLoad++

892 views12:28

HighLoad++

мы заменили большую excel таблицу на историю в git. Это стандартная практика
Но мы не можем в историю git положить гипепараметры.

896 views12:28

HighLoad++

Сравнение инструментов. Здесь вы выбираете, что вам подходит лучше.
Иногда можно комбинировать, например DVC+MLFlow.
GitLFS - дает простоту, кто-то использует этот инструмент для версионирования моделей.

937 viewsedited 12:29

HighLoad++

Индустрия потратила 30 лет на переход от Waterfall к Agile (при переходе от Hardware к Software).
Чтобы не тратить следующие 30 лет на разработку новых парадигм для DS/ML - надо использовать лучшие наработки

943 viewsedited 12:32

HighLoad++

На этом переходим к вопросам.

932 views12:32

HighLoad++

Q: Происходит ли дубликация данных при изменении версии датасетов. Или сохраняется только разница?
A: Если файл с данными один - да, дубликация происходит. Если директория с большим количеством файлов - мы будем сохранять только изменения (потому что на уровне файла происходит сравнение)

938 views12:35

HighLoad++

Q: расскажите про возможности branch&merge в git.
A: да, мы принесли gitflow: branch, merge. Сложность будет с merge датафайлов (метаинформации о датафайлов).

942 views12:36

HighLoad++

в 17:00, в митапной А 1.6 (Африка) ребята из Nixys и Дмитрий Малыхин проведут «BoF: Базы данных в контейнерах. Быть или не быть?»

972 views12:43

HighLoad++

Скоро начнется митап: в А 1.6. в 16:00
Жизнь в AWS ECS на раннерах Fargate. Всех очень ждем

941 views12:45

HighLoad++

Коллеги, все к нам на митап! Совместно с гуру сибирского DevOps'а Дмитрием Малыхиным Nixys холиварят в А1.6 с 17:00

971 views12:45

About

Blog

Apps

Platform