Skip to main content

Инференс-сервер

Для инференса используется TorchServe (далее TS)
Репо:   https://gitlab.dot-dot.ru/ai/torchserve

Почему TS:

  1. Удобный запуск изолированных python-инстансов.

  2. Держит высокую нагрузку, удовлетворительный менеджмент ресурсов.

  3. Удобный деплой через внешнее хранилище по HTTP запросу либо из архивов на старте. 

  4. Скалирование под нагрузкой.

  5. Батчинг.

Концепция: TS работает с архивами моделей. Архив должен содержать все необходимое для запуска модели: код, веса, список нужных библиотек. Точка запуска - класс handler, который должен тащить весь остальной код.

Контроль осуществляется через dagster, деплой через ml_builder.

В TS существует три интерфейса - инференс, менеджмент и метрики. Для доступа к ним снаружи, можно прописать в hosts:

192.168.90.90 torchserve.dot-dot.ru
192.168.90.90 tmanagement.dot-dot.ru
192.168.90.90 tmetrics.dot-dot.ru