Инференс-сервер

Для инференса используется TorchServe (далее TS)
Репо: https://gitlab.dot-dot.ru/ai/torchserve

Почему TS:

Удобный запуск изолированных python-инстансов.
Держит высокую нагрузку, удовлетворительный менеджмент ресурсов.
Удобный деплой через внешнее хранилище по HTTP запросу либо из архивов на старте.
Скалирование под нагрузкой.
Батчинг.

Концепция: TS работает с архивами моделей. Архив должен содержать все необходимое для запуска модели: код, веса, список нужных библиотек. Точка запуска - класс handler, который должен тащить весь остальной код.

Контроль осуществляется через dagster, деплой через ml_builder.

В TS существует три интерфейса - инференс, менеджмент и метрики. Для доступа к ним снаружи, можно прописать в hosts:

192.168.90.90 torchserve.dot-dot.ru
192.168.90.90 tmanagement.dot-dot.ru
192.168.90.90 tmetrics.dot-dot.ru

Калькулятор (classification/order/relevance)

Уверенные направления (classification/direction/confidence)

Ранжирование перевозчиков (classification/carrier/scoring)

Регулярные перевозки (schedule/transport)

Расчет стоимости графиков (schedule/calculate)

Перевозчики регулярных направлений (schedule/carrier/scoring)

Неуверенные направления (classification/direction/uncertain)

Цепочки графиков (schedule/chains)

Перевозчики для цепочек графиков (schedule/chains/carrier/scoring)

Тендерный калькулятор (tender/price)

Заявки для графиков (schedule/transport/orders)

Схема эндпойнтов

Деплой и мониторинг

Инференс-сервер

Общая схема

Dagster

Калькулятор

Ранжирование перевозчиков

Графики перевозок

Цепочки графиков

Калькулятор в БД

Инференс-сервер

No Comments