NEW BOT Телеграм, страница - 162531303

HighLoad++

@HighLoadChannel

6.29K subscribers

2.43K photos

164 videos

16 files

2.29K links

Официальный канал профессиональной конференции разработчиков высоконагруженных систем

Saint HighLoad++ 2026 пройдёт 22 и 23 июня в Санкт-Петербурге: https://highload.ru/spb/2026

Общаемся в чатике https://news.1rj.ru/str/HighLoadTalks

Download Telegram

About

Blog

Apps

Platform

6.29K subscribers

Алексей Миловидов (Яндекс) будет жечь про отъявленные баги и как их избегать.

1.01K views12:02

Версионирование дата-сетов и моделей машинного обучения, используя Open Source-инструменты / Дмитрий Петров (Iterative.ai) — Найроби + Касабланка.
Дмитрий начинает доклад.

948 views12:03

Комментирует Иван Глушков

907 views12:03

942 views12:04

1 часть доклада - почему ML настолько “необычный”, почему не можем использовать стандартные подходы, которые применяются ко всей отрасли ПО.

918 views12:05

929 views12:05

Простите за качество фоток, очень странное освещение в зале

905 views12:06

Основное отличие ML: гиперпараметры развиваются быстрее кода, эта информация - очень важна. Именно ею выделитесь с коллегами. И Excel - один из самых неплохих вариантов, бывают и хуже.

932 views12:07

Второе отличие - нужно отслеживать метрики, нужно хранить метрики вместе с параметрами, их тоже надо пересылать и хранить.

928 views12:08

Аналогично нужно хранить сами модели. Очень много моделей, чаще всего в имени хранится информация, например “model_v7_i1_zero_15”

923 viewsedited 12:09

Чуть лучше обстоит дело с датасетами, они реже меняются. Однако, они тоже меняются, и их тоже надо версионировать. Опять файлы, директории с разными названиями,

926 views12:09

Код - тоже есть, не подумайте, и он тоже меняется. Но здесь все проще, git и стандартные практики.

923 views12:11

Есть несколько решений.

922 views12:12

1. MLFlow. Есть поддержка работы с гиперпараметрами, есть поддержка метрик, моделей. Автоматическая генерация таблиц с результатами. Это избавляет от большого количества ошибок, проблем с лишней тратой времени на одну и ту же работу.

923 viewsedited 12:14

923 views12:14

Это покрывает часть проблем.

920 views12:15

2. Git-LFS помогает решить проблему с данными.

923 views12:15

Это расширение над git для работы с большими файлами. Можно сохранять большие картинки, датасеты. Работа как с обычным git.
Проблемы возникают на проектах, где общий размер > 2GB

932 viewsedited 12:16

Т.е. GitLFS покрывает часть проблем, но не все.

927 viewsedited 12:17

В крупных компаниях используются AI-платформы, которые покрывают все проблемы, но эти решения недоступны для маленьких компаний. Очень большую часть работы приходится делать руками, хотя нормальные решения позволяют автоматизировать шаги:
- выделить машины в облаке
- скопировать данные
- запустить
- скопировать результат
- внести в хранилище.

Но хочется, чтобы AI платформа все эти проблемы решала сама.
Именно это и была мотивация за созданием проекта DVC.

945 views12:20

914 views12:20