Model Zoo

概述

Model Zoo提供了可直接调用的硬件最优模型库，集成图片分类、目标检测、语义分割、超分等典型场景的网络模型，包含CANN性能调优使用指导、性能友好模型结构和推荐指数。帮助开发者快速了解算子的参数取值如何在硬件上获得更好的性能和能效收益，以及如何优化模型结构可以实现高性能与低功耗。

Model Zoo模型下载

在模型下载中，.caffemodel、.pb、.onnx文件是原始浮点模型，基于相关论文实现，并进行了NPU硬件亲和性调整。因此，这些模型的输入尺寸可能与论文中描述的尺寸有所差异。

.om是标准IR算子构建的OM模型文件，其中quant8_8.om是量化生成的OM模型文件，所有模型可通过Netron工具可视化。

Model Zoo中模型的名称、性能、模型下载信息如下表所示。

场景	网络模型（单batch）	浮点性能[1]（耗时ms）	量化性能[1]（耗时ms）	模型下载	SHA256校验码	参考[2]
图片分类	Alexnet	9.92	4.49	CAFFE&OM	7b01980acf0d16dadc6c9c326cdf757d2166928ae49cfd4091df154a5c512640	论文&实现
图片分类	Resnet18	2.63	1.24	CAFFE&OM	4aa7caaa112f5280cb5c0ab5eed6edf84a16fe9a0b92b9ee333a808c9f07e886	论文&实现
图片分类	VGG16	16.56	8.55	TF&OM	f9193765889077e5997ddc8c1e75a563c8a1205e613da9634d3d83277962dd42	论文&实现
图片分类	VGG19	18.34	8.73	TF&OM	d19f363602740ff5859380c40ca6f0bed0cb3744f469873cdf862c71c7007a94	论文&实现
图片分类	Resnet50	5.15	3.54	TF&OM	6dedf4b5c3bfdaf70410236f1f73d942a5231f217e18c51918ba39b3b740b2df	论文&实现
图片分类	Inception_v3	6.56	3.76	TF&OM	d06c88a79acd19b10d5f7eddaae6aba3c02372cfdb036296b845aa3a9ccf46be	论文&实现
图片分类	Inception_v4	11.90	7.29	TF&OM	e042f489e6915eb6de5daa4b3200462e76f1bedca7147e2a19e8311a4b05afde	论文&实现
图片分类	Inception_Resnet_v2	15.91	5.59	TF&OM	229164e49753126357f4a587694ca925afa60d1bfec184dba00085d69b5fc47b	论文&实现
图片分类	Mobilenet_v1	2.16	0.52	TF&OM	864ef1d651e7f2cb9de69ce34d81e40783bdac47069b6db22aefb6f4ae17f24b	论文&实现
图片分类	Mobilenet_v2	2.49	1.18	TF&OM	362c0169917122e45f4c5aed69ad3b9c8509b51a0531e6912360eff6c8b81cbc	论文&实现
图片分类	Mobilenet_v2_1.4	3.16	1.67	TF&OM	8f1a05a83e813fac16e958ad5436569fe83f75f88137819d52ce2e268ad04126	论文&实现
图片分类	Mobilenet_v3_Large	3.29	2.33	TF&OM	086640ff192629b6dba33d905ddb0925d612e395703948c6c7221f2e4126b85d	论文&实现
图片分类	Googlenet	34.69	1.64	ONNX&OM	97ef0325be2c3b8824a903abaeea943260d2f349da63d193168c96eff735ad0e	论文&实现
图片分类	Squeezenet_v1	2.13	1.24	ONNX&OM	e20be44bdaa30b9fa4a22ef876c1e7bd88db49b5d063992ef1595b34d3544997	论文&实现
目标检测	SSD_mobilenetv2_voc	5.02	2.84	CAFFE&OM	1d273130a07a6f888f6df1088b478049da9a961a3dbeaca7bfa92e616f0f01e9	论文1&实现1、论文2&实现2
目标检测	Yolo_v5	4.74	4.33	ONNX&OM	83a205d70fcd9b31c13530da0b8752a6976b125b02ac07091fd088f58cd5a80f	论文&实现
语义分割	FCN	131.23	62.76	CAFFE&OM	0cd87a51c1ea978a68e9cd4790106e99d910f78d5e68ec06e2bdd637aae5a73c	论文&实现
语义分割	DeepLab_v3	17.40	13.87	TF&OM	381f830f6b0154bf086dbc5b15575465a34c1b3d233a6d27bc417077832697c7	论文&实现
超分	VDSR	17.71	10.67	CAFFE&OM	bf5a699ea55b2d2e42ac40884f2697d807b5b3f37e655ecb342e873c6ba6b844	论文&实现
超分	FSRCNN	17.24	17.02	TF&OM	03775c806d8d166fd29753ea8eaa3db377246fa469487b7e161a9e405a6ffa1c	论文&实现

[1] 此性能数据测试基于kirin 9000芯片的华为手机。
[2] 原始模型文件是参考论文和实现中的模型训练而来。

除Model Zoo中推荐的网络模型，还可以构建自定义的网络模型。性能优势的算子和计算结构如下。

CANN算子性能指导

从易用性角度上来说，提供的算子功能不存在限制，但是从性能的使用角度上来说，是基于算子实现方式给出对应的性能使用指导。

NN算子

IR算子	性能使用指导	推荐使用指数
Activation	当前性能硬件最优。	☆☆☆☆☆
HardSwish	当前性能硬件最优。	☆☆☆☆☆
PRelu	当前性能硬件最优。	☆☆☆☆☆
BNInference	当前性能硬件最优。 Conv(depthwise)+Bn组合使用时，会进行图融合优化抵消。	☆☆☆☆☆
Convolution	当Cin和Cout都是16的倍数时性能最优。	☆☆☆☆☆
QuantizedConvolution	当Cin和Cout都是32的倍数时性能最优。	☆☆☆☆☆
ConvTranspose	- 当Cin和Cout都是16的倍数时性能最优。 - 当前针对kernel 11，22，33，88优化性能最优。	☆☆☆☆☆
BiasAdd	当前性能硬件最优。 Conv(depthwise)+BiasAdd组合使用时，会进行图融合优化抵消。	☆☆☆☆☆
Eltwise	当前性能硬件最优。	☆☆☆☆☆
LRN	当前性能硬件较优。 - 计算过程中计算均值方差，计算量较大，性能差于batchNorm。 - 主要用于图像增强，对精度计算较敏感，NPU使用FP16计算存在精度风险。	☆☆☆
ConvolutionDepthwise	当前性能硬件最优。	☆☆☆☆☆
QuantizedConvolutionDepthwise	当前性能硬件最优。	☆☆☆☆☆
FullyConnection	性能受DDR带宽限制，非算力受限算子，算法设计时合理配置权重大小。	☆☆☆☆☆
QuantizedFullyConnection	性能受DDR带宽限制，非算力受限算子，算法设计时合理配置权重大小。	☆☆☆☆☆
PoolingD	当前性能硬件最优。	☆☆☆☆☆
Scale	当前性能硬件最优。 Conv(depthwise)+Scale组合使用时，会进行图融合优化抵消。	☆☆☆☆☆
ShuffleChannel	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
ShuffleChannelV2	为了适配支持ANN场景算子，性能较差，仅支持功能。	☆
Softmax	当前性能硬件最优。 4维输入，axis=1，基于C通道做softmax时性能最优。	☆☆☆☆☆
TopK	为了适配支持ANN场景算子，性能较差，仅支持功能。	☆
LogSoftmax	当前性能硬件最优。	☆☆☆☆☆
Rank	shape推导类算子，模型构建时即可抵消。	☆☆☆☆☆
ScatterNd	非规则数据搬移，性能较差，不建议模型过多使用。	☆☆☆
LogicalXor	当前性能硬件最优。	☆☆☆☆☆
Threshold	当前性能硬件最优。	☆☆☆☆☆
AxisAlignedBboxTransform	当前性能硬件最优。	☆☆☆☆☆
Normalize	当前性能硬件最优。	☆☆☆☆☆
SVDF	当前性能硬件最优。	☆☆☆☆☆
ReduceMean	当前性能硬件最优。	☆☆☆☆☆
LayerNorm	当前性能硬件最优。 - 计算过程中计算均值方差，计算量较大，性能差于batchNorm。 - 主要用于图像增强，对精度计算较敏感，NPU使用FP16计算存在精度风险。	☆☆☆
InstanceNorm	当前性能硬件较优。 - 计算过程中计算均值方差，计算量较大，性能差于batchNorm。 - 主要用于图像增强，对精度计算较敏感，NPU使用FP16计算存在精度风险。	☆☆☆
PriorBox	当前性能硬件最优。	☆☆☆☆☆
LSTM	当前性能硬件较优，功能支持较窄。	☆☆☆☆

Math算子

IR算子	性能使用指导	推荐使用指数
Add	当前性能硬件最优。	☆☆☆☆☆
Mul	当前性能硬件最优。	☆☆☆☆☆
Expm1	当前性能硬件最优。	☆☆☆☆☆
Ceil	当前性能硬件最优。	☆☆☆☆☆
Sin	性能较差。	☆
Cos	性能较差。	☆
Floor	当前性能硬件最优。	☆☆☆☆☆
Log1p	当前性能硬件最优。	☆☆☆☆☆
LogicalAnd	当前性能硬件最优。	☆☆☆☆☆
LogicalNot	当前性能硬件最优。	☆☆☆☆☆
Maximum	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Minimum	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Equal	当前性能硬件最优。	☆☆☆☆☆
Reciprocal	当前性能硬件最优。	☆☆☆☆☆
Sqrt	当前性能硬件最优。	☆☆☆☆☆
Square	当前性能硬件最优。	☆☆☆☆☆
CastT	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Sign	当前性能硬件最优。	☆☆☆☆☆
Exp	当前性能硬件最优。	☆☆☆☆☆
FloorMod	当前性能硬件最优。	☆☆☆☆☆
GreaterEqual	当前性能硬件最优。	☆☆☆☆☆
Greater	当前性能硬件最优。	☆☆☆☆☆
Less	当前性能硬件最优。	☆☆☆☆☆
MatMul	当前性能硬件最优。	☆☆☆☆☆
RealDiv	性能较差，建议等效成mul或者Reciprocal+mul。	☆
Rint	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Round	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Rsqrt	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
Sub	当前性能硬件最优。	☆☆☆☆☆
Range	模型构建时最优。	☆☆☆☆☆
Acos	当前性能硬件最优。	☆☆☆☆☆
Asin	当前性能硬件最优。	☆☆☆☆☆
Log	当前性能硬件最优。	☆☆☆☆☆
LogicalOr	当前性能硬件最优。	☆☆☆☆☆
Neg	当前性能硬件最优。	☆☆☆☆☆
ReduceProdD	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
ReduceSum	当前性能硬件最优。	☆☆☆☆☆
Tan	性能较差。	☆
Power	当前性能硬件最优。	☆☆☆☆☆
Pow	性能较差。	☆
ArgMaxExt2	当前性能硬件最优。	☆☆☆☆
FloorDiv	性能较差，不建议使用。	☆
NotEqual	当前性能硬件最优。	☆☆☆☆☆
LessEqual	当前性能硬件最优。	☆☆☆☆☆
SquaredDifference	当前性能硬件最优。	☆☆☆☆☆
Atan	当前性能硬件最优。	☆☆☆☆☆
BatchMatMul	当前性能硬件最优。	☆☆☆☆☆
ClipByValue	当前性能硬件最优。	☆☆☆☆☆
L2Normalize	当前性能硬件最优。	☆☆☆☆☆
ReduceMax	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆
ReduceMin	kirin 9000芯片的手机性能较优，其余芯片的手机无性能优化，仅支持功能。	☆

Array算子

IR算子	性能使用指导	推荐使用指数
ConcatD	当前性能硬件最优。当Cin是16的倍数且Cout是16的倍数时，做图融合抵消，性能最优。	☆☆☆☆☆
FakeQuantWithMinMaxVars	当前性能硬件最优。	☆☆☆☆☆
Reshape	当前性能硬件最优。有些场景算子会被融合抵消掉。	☆☆☆☆☆
SplitD	当前性能硬件最优。当Cin是16的倍数且Cout是16的倍数时，做图融合抵消，性能最优。	☆☆☆☆☆
SplitV	由于是乱序的数据重排，性能较差。	☆
Unpack	由于是乱序的数据重排，性能较差。	☆
Flatten	由于是乱序的数据重排，性能较差。	☆
Slice	由于是乱序的数据重排，性能较差。	☆
ExpandDims	shape推导类算子，模型构建时即可抵消。	☆☆☆☆☆
GatherV2D	由于是乱序的数据重排，性能较差。	☆
GatherNd	由于是乱序的数据重排，性能较差。	☆
Pack	由于是乱序的数据重排，性能较差。	☆
SpaceToDepth	由于是乱序的数据重排，性能较差。	☆
DepthToSpace	由于是乱序的数据重排，大部分场景性能较差。针对4宫格场景（Cin=4，block=1）有特殊优化，性能较优。	☆☆
StridedSlice	由于是乱序的数据重排，性能较差。	☆
SpaceToBatchND	由于是乱序的数据重排，性能较差。	☆
BatchToSpaceND	由于是乱序的数据重排，性能较差。	☆
Tile	由于是乱序的数据重排，性能较差。	☆
Size	shape推导类算子，模型构建时即可抵消。	☆☆☆☆☆
Fill	由于是乱序的数据重排，性能较差。	☆
Select	仅支持功能。	☆☆
PadV2	针对HW方向补0的场景性能较优。其他场景由于乱序的数据重排，性能较差。	☆☆☆
Squeeze	shape推导类算子，模型构建时即可抵消。	☆☆☆☆☆
Pad	针对HW方向补0的场景性能较优。其他场景由于乱序的数据重排，性能较差。	☆☆☆
MirrorPad	其他场景由于乱序的数据重排，性能较差。	☆
OneHot	其他场景由于乱序的数据重排，性能较差。	☆
Shape	shape推导类算子，模型构建时即可抵消。	☆☆☆☆☆
Dequantize	当前性能硬件最优。	☆☆☆☆☆
Quantize	当前性能硬件最优。	☆☆☆☆☆

Detection算子

IR算子	性能使用指导	推荐使用指数
Permute	由于乱序的数据重排，虽然做了相关优化，但是硬件不适合过多此类操作。	☆☆☆
SSDDetectionOutput	当前性能最优。	☆☆☆☆☆

Image算子

IR算子	性能使用指导	推荐使用指数
ImageData DynamicImageData ImageCrop ImageChannelSwap ImageColorSpaceConvertion ImageResize ImageDataTypeConversion ImagePadding	AIPP相关图形处理算子，性能硬件最优。	☆☆☆☆☆
CropAndResize	仅功能支持，性能较差。	☆
ResizeBilinear ResizeBilinearV2 Interp	大部分场景性能硬件最优，个别场景待优化。	☆☆☆☆☆
ResizeNearestNeighbor Upsample	大部分场景性能硬件最优，个别场景待优化。	☆☆☆☆☆
Crop	仅功能支持，性能较差。	☆
NonMaxSuppressionV3D	仅功能支持，性能较差。	☆

性能友好计算结构

应用场景	网络类型	推荐指数	推荐说明
分类网络	AlexNet	☆☆☆☆	全连接层权重较大，推理过程带宽受限，可从Model Zoo中下载。
分类网络	VGG16	☆☆☆☆	全连接层权重较大，推理过程带宽受限，可从Model Zoo中下载。
分类网络	VGG19	☆☆☆	全连接层权重较大，推理过程带宽受限，可从Model Zoo中下载。
分类网络	ResNet18/34/50/101/152	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近100%，ResNet50可从Model Zoo下载。
分类网络	GoogleNet	☆☆☆☆	硬件算力利用率接近75%，可从Model Zoo中下载。
分类网络	InceptionV3	☆☆☆☆	硬件算力利用率接近85%，可从Model Zoo中下载。
分类网络	InceptionV4	☆☆☆☆	硬件算力利用率接近85%，可从Model Zoo中下载。
分类网络	Inception_Resnet_v2	☆☆☆☆	硬件算力利用率接近90%，可从Model Zoo中下载。
分类网络	Xception	☆☆☆☆	硬件算力利用率接近85%，可从Model Zoo中下载。
分类网络	MobileNet_v1	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%，可从Model Zoo中下载。
分类网络	MobileNet_v2	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%，可从Model Zoo中下载。
分类网络	MobileNet_v3	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%，可从Model Zoo中下载。
分类网络	SqueezeNet	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%，可从Model Zoo中下载。
分类网络	DenseNet	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%。
分类网络	ShuffleNet_v1 ShuffleNet_v2	☆	存在大量shuffleChannel操作，本身是内存搬移操作，非计算受限。此网络为带宽受限网络，shuffleChannel仅支持功能，性能不保证较优。
分类网络	Resnext	☆☆☆☆	硬件算力利用率接近85%。
分类网络	EfficientNet	☆☆☆☆☆	模型权重大小适中，硬件算力利用率接近95%。
分类网络	SENet	☆☆☆☆	硬件算力利用率接近75%。
目标检测	Faster_RCNN	☆☆☆☆☆	硬件算力利用率接近85%。
目标检测	SSD	☆☆☆☆	硬件算力利用率接近85%，当前仅支持通过omg流程生成。
目标检测	FPN	☆☆☆☆☆	硬件算力利用率接近90%，后处理不在模型中，由算法单独完成。
语义分割	FCN	☆☆☆☆☆	硬件算力利用率接近85%，由于模型计算量较大，实际部署时要做参数裁剪，可从Model Zoo中下载。
语义分割	DeepLabV3	☆☆☆	硬件算力利用率接近60%，可从Model Zoo中下载。
语义分割	Unet	☆☆☆	硬件算力利用率接近60%。
语义分割	MaskRcnn	☆☆	硬件算力利用率接近80%（仅限tf->om版本，IR对接方式不支持）。
语义分割	PSPNet	☆☆☆	不支持pyramid pooling算子，可以通过多个pool等效，性能一般。
超分	VDSR	☆☆☆☆☆	硬件算力利用率接近85%，可以达到实时超分要求，可从Model Zoo中下载。
超分	FSRCNN	☆☆☆☆	硬件算力利用率接近70%，可以达到部分实时超分要求，可从Model Zoo中下载。
超分	SRCNN	☆☆☆☆	硬件算力利用率接近70%，可以达到部分实时超分要求。
超分	DnCNN	☆☆☆☆	硬件算力利用率接近65%，计算量较大，可以达到部分实时超分要求。
超分	DRCN	☆☆☆☆	硬件算力利用率接近65%，计算量较大，可以达到部分实时超分要求。
超分	DRRN	☆☆☆	硬件算力利用率接近60%，计算量较大，可以达到部分实时超分要求。
超分	EnhanceNet	☆☆☆	硬件算力利用率接近60%，计算量较大，可以达到部分实时超分要求。
语音语义	RNN	☆☆	功能支持较为单一。
语音语义	LSTM	☆☆	功能支持较为单一。
语音语义	Transformer	☆☆☆☆	硬件算力利用率接近70%。
语音语义	Bert	☆☆☆☆	硬件算力利用率接近70%。

概述​

Model Zoo模型下载​

CANN算子性能指导​

NN算子​

Math算子​

Array算子​

Detection算子​

Image算子​

性能友好计算结构​

概述