跳到主要内容

Model Zoo

概述

Model Zoo提供了可直接调用的硬件最优模型库,集成图片分类、目标检测、语义分割、超分等典型场景的网络模型,包含CANN性能调优使用指导、性能友好模型结构和推荐指数。帮助开发者快速了解算子的参数取值如何在硬件上获得更好的性能和能效收益,以及如何优化模型结构可以实现高性能与低功耗。

Model Zoo模型下载

在模型下载中,.caffemodel、.pb、.onnx文件是原始浮点模型,基于相关论文实现,并进行了NPU硬件亲和性调整。因此,这些模型的输入尺寸可能与论文中描述的尺寸有所差异。

.om是标准IR算子构建的OM模型文件,其中quant8_8.om是量化生成的OM模型文件,所有模型可通过Netron工具可视化。

Model Zoo中模型的名称、性能、模型下载信息如下表所示。

场景网络模型(单batch)浮点性能[1](耗时ms)量化性能[1](耗时ms)模型下载SHA256校验码参考[2]
图片分类Alexnet9.924.49CAFFE&OM7b01980acf0d16dadc6c9c326cdf757d2166928ae49cfd4091df154a5c512640论文&实现
图片分类Resnet182.631.24CAFFE&OM4aa7caaa112f5280cb5c0ab5eed6edf84a16fe9a0b92b9ee333a808c9f07e886论文&实现
图片分类VGG1616.568.55TF&OMf9193765889077e5997ddc8c1e75a563c8a1205e613da9634d3d83277962dd42论文&实现
图片分类VGG1918.348.73TF&OMd19f363602740ff5859380c40ca6f0bed0cb3744f469873cdf862c71c7007a94论文&实现
图片分类Resnet505.153.54TF&OM6dedf4b5c3bfdaf70410236f1f73d942a5231f217e18c51918ba39b3b740b2df论文&实现
图片分类Inception_v36.563.76TF&OMd06c88a79acd19b10d5f7eddaae6aba3c02372cfdb036296b845aa3a9ccf46be论文&实现
图片分类Inception_v411.907.29TF&OMe042f489e6915eb6de5daa4b3200462e76f1bedca7147e2a19e8311a4b05afde论文&实现
图片分类Inception_Resnet_v215.915.59TF&OM229164e49753126357f4a587694ca925afa60d1bfec184dba00085d69b5fc47b论文&实现
图片分类Mobilenet_v12.160.52TF&OM864ef1d651e7f2cb9de69ce34d81e40783bdac47069b6db22aefb6f4ae17f24b论文&实现
图片分类Mobilenet_v22.491.18TF&OM362c0169917122e45f4c5aed69ad3b9c8509b51a0531e6912360eff6c8b81cbc论文&实现
图片分类Mobilenet_v2_1.43.161.67TF&OM8f1a05a83e813fac16e958ad5436569fe83f75f88137819d52ce2e268ad04126论文&实现
图片分类Mobilenet_v3_Large3.292.33TF&OM086640ff192629b6dba33d905ddb0925d612e395703948c6c7221f2e4126b85d论文&实现
图片分类Googlenet34.691.64ONNX&OM97ef0325be2c3b8824a903abaeea943260d2f349da63d193168c96eff735ad0e论文&实现
图片分类Squeezenet_v12.131.24ONNX&OMe20be44bdaa30b9fa4a22ef876c1e7bd88db49b5d063992ef1595b34d3544997论文&实现
目标检测SSD_mobilenetv2_voc5.022.84CAFFE&OM1d273130a07a6f888f6df1088b478049da9a961a3dbeaca7bfa92e616f0f01e9论文1&实现1论文2&实现2
目标检测Yolo_v54.744.33ONNX&OM83a205d70fcd9b31c13530da0b8752a6976b125b02ac07091fd088f58cd5a80f论文&实现
语义分割FCN131.2362.76CAFFE&OM0cd87a51c1ea978a68e9cd4790106e99d910f78d5e68ec06e2bdd637aae5a73c论文&实现
语义分割DeepLab_v317.4013.87TF&OM381f830f6b0154bf086dbc5b15575465a34c1b3d233a6d27bc417077832697c7论文&实现
超分VDSR17.7110.67CAFFE&OMbf5a699ea55b2d2e42ac40884f2697d807b5b3f37e655ecb342e873c6ba6b844论文&实现
超分FSRCNN17.2417.02TF&OM03775c806d8d166fd29753ea8eaa3db377246fa469487b7e161a9e405a6ffa1c论文&实现

  • [1] 此性能数据测试基于kirin 9000芯片的华为手机。
  • [2] 原始模型文件是参考论文和实现中的模型训练而来。

除Model Zoo中推荐的网络模型,还可以构建自定义的网络模型。性能优势的算子和计算结构如下。

CANN算子性能指导

从易用性角度上来说,提供的算子功能不存在限制,但是从性能的使用角度上来说,是基于算子实现方式给出对应的性能使用指导。

NN算子

IR算子性能使用指导推荐使用指数
Activation当前性能硬件最优。☆☆☆☆☆
HardSwish当前性能硬件最优。☆☆☆☆☆
PRelu当前性能硬件最优。☆☆☆☆☆
BNInference当前性能硬件最优。 Conv(depthwise)+Bn组合使用时,会进行图融合优化抵消。☆☆☆☆☆
Convolution当Cin和Cout都是16的倍数时性能最优。☆☆☆☆☆
QuantizedConvolution当Cin和Cout都是32的倍数时性能最优。☆☆☆☆☆
ConvTranspose- 当Cin和Cout都是16的倍数时性能最优。 - 当前针对kernel 1*1,2*2,3*3,8*8优化性能最优。☆☆☆☆☆
BiasAdd当前性能硬件最优。 Conv(depthwise)+BiasAdd组合使用时,会进行图融合优化抵消。☆☆☆☆☆
Eltwise当前性能硬件最优。☆☆☆☆☆
LRN当前性能硬件较优。 - 计算过程中计算均值方差,计算量较大,性能差于batchNorm。 - 主要用于图像增强,对精度计算较敏感,NPU使用FP16计算存在精度风险。☆☆☆
ConvolutionDepthwise当前性能硬件最优。☆☆☆☆☆
QuantizedConvolutionDepthwise当前性能硬件最优。☆☆☆☆☆
FullyConnection性能受DDR带宽限制,非算力受限算子,算法设计时合理配置权重大小。☆☆☆☆☆
QuantizedFullyConnection性能受DDR带宽限制,非算力受限算子,算法设计时合理配置权重大小。☆☆☆☆☆
PoolingD当前性能硬件最优。☆☆☆☆☆
Scale当前性能硬件最优。 Conv(depthwise)+Scale组合使用时,会进行图融合优化抵消。☆☆☆☆☆
ShuffleChannelkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
ShuffleChannelV2为了适配支持ANN场景算子,性能较差,仅支持功能。
Softmax当前性能硬件最优。 4维输入,axis=1,基于C通道做softmax时性能最优。☆☆☆☆☆
TopK为了适配支持ANN场景算子,性能较差,仅支持功能。
LogSoftmax当前性能硬件最优。☆☆☆☆☆
Rankshape推导类算子,模型构建时即可抵消。☆☆☆☆☆
ScatterNd非规则数据搬移,性能较差,不建议模型过多使用。☆☆☆
LogicalXor当前性能硬件最优。☆☆☆☆☆
Threshold当前性能硬件最优。☆☆☆☆☆
AxisAlignedBboxTransform当前性能硬件最优。☆☆☆☆☆
Normalize当前性能硬件最优。☆☆☆☆☆
SVDF当前性能硬件最优。☆☆☆☆☆
ReduceMean当前性能硬件最优。☆☆☆☆☆
LayerNorm当前性能硬件最优。 - 计算过程中计算均值方差,计算量较大,性能差于batchNorm。 - 主要用于图像增强,对精度计算较敏感,NPU使用FP16计算存在精度风险。☆☆☆
InstanceNorm当前性能硬件较优。 - 计算过程中计算均值方差,计算量较大,性能差于batchNorm。 - 主要用于图像增强,对精度计算较敏感,NPU使用FP16计算存在精度风险。☆☆☆
PriorBox当前性能硬件最优。☆☆☆☆☆
LSTM当前性能硬件较优,功能支持较窄。☆☆☆☆

Math算子

IR算子性能使用指导推荐使用指数
Add当前性能硬件最优。☆☆☆☆☆
Mul当前性能硬件最优。☆☆☆☆☆
Expm1当前性能硬件最优。☆☆☆☆☆
Ceil当前性能硬件最优。☆☆☆☆☆
Sin性能较差。
Cos性能较差。
Floor当前性能硬件最优。☆☆☆☆☆
Log1p当前性能硬件最优。☆☆☆☆☆
LogicalAnd当前性能硬件最优。☆☆☆☆☆
LogicalNot当前性能硬件最优。☆☆☆☆☆
Maximumkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Minimumkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Equal当前性能硬件最优。☆☆☆☆☆
Reciprocal当前性能硬件最优。☆☆☆☆☆
Sqrt当前性能硬件最优。☆☆☆☆☆
Square当前性能硬件最优。☆☆☆☆☆
CastTkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Sign当前性能硬件最优。☆☆☆☆☆
Exp当前性能硬件最优。☆☆☆☆☆
FloorMod当前性能硬件最优。☆☆☆☆☆
GreaterEqual当前性能硬件最优。☆☆☆☆☆
Greater当前性能硬件最优。☆☆☆☆☆
Less当前性能硬件最优。☆☆☆☆☆
MatMul当前性能硬件最优。☆☆☆☆☆
RealDiv性能较差,建议等效成mul或者Reciprocal+mul。
Rintkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Roundkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Rsqrtkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
Sub当前性能硬件最优。☆☆☆☆☆
Range模型构建时最优。☆☆☆☆☆
Acos当前性能硬件最优。☆☆☆☆☆
Asin当前性能硬件最优。☆☆☆☆☆
Log当前性能硬件最优。☆☆☆☆☆
LogicalOr当前性能硬件最优。☆☆☆☆☆
Neg当前性能硬件最优。☆☆☆☆☆
ReduceProdDkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
ReduceSum当前性能硬件最优。☆☆☆☆☆
Tan性能较差。
Power当前性能硬件最优。☆☆☆☆☆
Pow性能较差。
ArgMaxExt2当前性能硬件最优。☆☆☆☆
FloorDiv性能较差,不建议使用。
NotEqual当前性能硬件最优。☆☆☆☆☆
LessEqual当前性能硬件最优。☆☆☆☆☆
SquaredDifference当前性能硬件最优。☆☆☆☆☆
Atan当前性能硬件最优。☆☆☆☆☆
BatchMatMul当前性能硬件最优。☆☆☆☆☆
ClipByValue当前性能硬件最优。☆☆☆☆☆
L2Normalize当前性能硬件最优。☆☆☆☆☆
ReduceMaxkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。
ReduceMinkirin 9000芯片的手机性能较优,其余芯片的手机无性能优化,仅支持功能。

Array算子

IR算子性能使用指导推荐使用指数
ConcatD当前性能硬件最优。 当Cin是16的倍数且Cout是16的倍数时,做图融合抵消,性能最优。☆☆☆☆☆
FakeQuantWithMinMaxVars当前性能硬件最优。☆☆☆☆☆
Reshape当前性能硬件最优。 有些场景算子会被融合抵消掉。☆☆☆☆☆
SplitD当前性能硬件最优。 当Cin是16的倍数且Cout是16的倍数时,做图融合抵消,性能最优。☆☆☆☆☆
SplitV由于是乱序的数据重排,性能较差。
Unpack由于是乱序的数据重排,性能较差。
Flatten由于是乱序的数据重排,性能较差。
Slice由于是乱序的数据重排,性能较差。
ExpandDimsshape推导类算子,模型构建时即可抵消。☆☆☆☆☆
GatherV2D由于是乱序的数据重排,性能较差。
GatherNd由于是乱序的数据重排,性能较差。
Pack由于是乱序的数据重排,性能较差。
SpaceToDepth由于是乱序的数据重排,性能较差。
DepthToSpace由于是乱序的数据重排,大部分场景性能较差。 针对4宫格场景(Cin=4,block=1)有特殊优化,性能较优。☆☆
StridedSlice由于是乱序的数据重排,性能较差。
SpaceToBatchND由于是乱序的数据重排,性能较差。
BatchToSpaceND由于是乱序的数据重排,性能较差。
Tile由于是乱序的数据重排,性能较差。
Sizeshape推导类算子,模型构建时即可抵消。☆☆☆☆☆
Fill由于是乱序的数据重排,性能较差。
Select仅支持功能。☆☆
PadV2针对HW方向补0的场景性能较优。 其他场景由于乱序的数据重排,性能较差。☆☆☆
Squeezeshape推导类算子,模型构建时即可抵消。☆☆☆☆☆
Pad针对HW方向补0的场景性能较优。 其他场景由于乱序的数据重排,性能较差。☆☆☆
MirrorPad其他场景由于乱序的数据重排,性能较差。
OneHot其他场景由于乱序的数据重排,性能较差。
Shapeshape推导类算子,模型构建时即可抵消。☆☆☆☆☆
Dequantize当前性能硬件最优。☆☆☆☆☆
Quantize当前性能硬件最优。☆☆☆☆☆

Detection算子

IR算子性能使用指导推荐使用指数
Permute由于乱序的数据重排,虽然做了相关优化,但是硬件不适合过多此类操作。☆☆☆
SSDDetectionOutput当前性能最优。☆☆☆☆☆

Image算子

IR算子性能使用指导推荐使用指数
ImageData DynamicImageData ImageCrop ImageChannelSwap ImageColorSpaceConvertion ImageResize ImageDataTypeConversion ImagePaddingAIPP相关图形处理算子,性能硬件最优。☆☆☆☆☆
CropAndResize仅功能支持,性能较差。
ResizeBilinear ResizeBilinearV2 Interp大部分场景性能硬件最优,个别场景待优化。☆☆☆☆☆
ResizeNearestNeighbor Upsample大部分场景性能硬件最优,个别场景待优化。☆☆☆☆☆
Crop仅功能支持,性能较差。
NonMaxSuppressionV3D仅功能支持,性能较差。

性能友好计算结构

应用场景网络类型推荐指数推荐说明
分类网络AlexNet☆☆☆☆全连接层权重较大,推理过程带宽受限,可从Model Zoo中下载。
分类网络VGG16☆☆☆☆全连接层权重较大,推理过程带宽受限,可从Model Zoo中下载。
分类网络VGG19☆☆☆全连接层权重较大,推理过程带宽受限,可从Model Zoo中下载。
分类网络ResNet18/34/50/101/152☆☆☆☆☆模型权重大小适中,硬件算力利用率接近100%,ResNet50可从Model Zoo下载。
分类网络GoogleNet☆☆☆☆硬件算力利用率接近75%,可从Model Zoo中下载。
分类网络InceptionV3☆☆☆☆硬件算力利用率接近85%,可从Model Zoo中下载。
分类网络InceptionV4☆☆☆☆硬件算力利用率接近85%,可从Model Zoo中下载。
分类网络Inception_Resnet_v2☆☆☆☆硬件算力利用率接近90%,可从Model Zoo中下载。
分类网络Xception☆☆☆☆硬件算力利用率接近85%,可从Model Zoo中下载。
分类网络MobileNet_v1☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%,可从Model Zoo中下载。
分类网络MobileNet_v2☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%,可从Model Zoo中下载。
分类网络MobileNet_v3☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%,可从Model Zoo中下载。
分类网络SqueezeNet☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%,可从Model Zoo中下载。
分类网络DenseNet☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%。
分类网络ShuffleNet_v1 ShuffleNet_v2存在大量shuffleChannel操作,本身是内存搬移操作,非计算受限。 此网络为带宽受限网络,shuffleChannel仅支持功能,性能不保证较优。
分类网络Resnext☆☆☆☆硬件算力利用率接近85%。
分类网络EfficientNet☆☆☆☆☆模型权重大小适中,硬件算力利用率接近95%。
分类网络SENet☆☆☆☆硬件算力利用率接近75%。
目标检测Faster_RCNN☆☆☆☆☆硬件算力利用率接近85%。
目标检测SSD☆☆☆☆硬件算力利用率接近85%,当前仅支持通过omg流程生成。
目标检测FPN☆☆☆☆☆硬件算力利用率接近90%,后处理不在模型中,由算法单独完成。
语义分割FCN☆☆☆☆☆硬件算力利用率接近85%,由于模型计算量较大,实际部署时要做参数裁剪,可从Model Zoo中下载 。
语义分割DeepLabV3☆☆☆硬件算力利用率接近60%,可从Model Zoo中下载。
语义分割Unet☆☆☆硬件算力利用率接近60%。
语义分割MaskRcnn☆☆硬件算力利用率接近80%(仅限tf->om版本,IR对接方式不支持)。
语义分割PSPNet☆☆☆不支持pyramid pooling算子,可以通过多个pool等效,性能一般。
超分VDSR☆☆☆☆☆硬件算力利用率接近85%,可以达到实时超分要求,可从Model Zoo中下载。
超分FSRCNN☆☆☆☆硬件算力利用率接近70%,可以达到部分实时超分要求,可从Model Zoo中下载。
超分SRCNN☆☆☆☆硬件算力利用率接近70%,可以达到部分实时超分要求。
超分DnCNN☆☆☆☆硬件算力利用率接近65%,计算量较大,可以达到部分实时超分要求。
超分DRCN☆☆☆☆硬件算力利用率接近65%,计算量较大,可以达到部分实时超分要求。
超分DRRN☆☆☆硬件算力利用率接近60%,计算量较大,可以达到部分实时超分要求。
超分EnhanceNet☆☆☆硬件算力利用率接近60%,计算量较大,可以达到部分实时超分要求。
语音语义RNN☆☆功能支持较为单一。
语音语义LSTM☆☆功能支持较为单一。
语音语义Transformer☆☆☆☆硬件算力利用率接近70%。
语音语义Bert☆☆☆☆硬件算力利用率接近70%。