TensorRT
OpenVINO
Triton
OnnxRunTime
NLP
vLLM
llama.c
CV
CNN
RNN
Transformer
ResNet
MobileNet
ShuffleNet
案例:lut3d_96.onnx模型进行边缘侧推理,有如下影响因素:
lut3d_96.onnx
.jpg
.tiff
注意:在所有优化级别中,Profiler都与框架交互收集信息,辅助优化策略。
Profiler
精确感知的多出口 DNN 服务用于减少批量推理的延迟 ICS ’22, June 28–30, 2022, Virtual Event, USA
动机:对于ResNet或Bert这类主干网络(BackBone),可以添加多出口来提前退出,在大批量查询的场景下有优势。 (右上:重复28层已经可以达到不错的效果。右下:添加出口的MACs计算开销)
多出口模型构建:
PAME 通过收集延迟(latency)信息来决定是否退出:
结论: