Инференс-сервер
Для инференса используется TorchServe (далее TS)
Репо: https://gitlab.dot-dot.ru/ai/torchserve
Почему TS:
-
Удобный запуск изолированных python-инстансов.
-
Держит высокую нагрузку, удовлетворительный менеджмент ресурсов.
-
Удобный деплой через внешнее хранилище по HTTP запросу либо из архивов на старте.
-
Скалирование под нагрузкой.
-
Батчинг.
Концепция: TS работает с архивами моделей. Архив должен содержать все необходимое для запуска модели: код, веса, список нужных библиотек. Точка запуска - класс handler, который должен тащить весь остальной код.
Контроль осуществляется через dagster, деплой через ml_builder.
В TS существует три интерфейса - инференс, менеджмент и метрики. Для доступа к ним снаружи, можно прописать в hosts:
192.168.90.90 torchserve.dot-dot.ru
192.168.90.90 tmanagement.dot-dot.ru
192.168.90.90 tmetrics.dot-dot.ru
No Comments