Core Vision Kit简介

Core Vision Kit（基础视觉服务）提供了机器视觉相关的基础能力，例如通用文字识别（即OCR，Optical Character Recognition，也称为光学字符识别）、人脸检测、人脸比对以及主体分割等能力。

开发者可以结合Vision Kit的UI控件能力（例如：人脸活体检测），提升应用的智能化、便捷化交互体验。

场景介绍

Core Vision Kit可应用于各种场景，提升用户体验和应用效率。以下是一些典型的应用场景：

通用文字识别：可用于扫描和识别文档、名片、票据等印刷品中的文字内容，方便用户快速录入和存储信息。
人脸检测：应用于相册管理、照片美化等功能中，也可以用于自动检测和定位照片中的人脸。
人脸比对：常用于人脸认证、考勤打卡、门禁系统等需要验证用户身份的场景。
主体分割：可以检测出图片中区别于背景的前景物体或区域（即“显著主体”），并将其从背景中分离出来，适用于需要识别和提取图像主要信息的场景，广泛使用于前景目标检测和前景主体分离的场景。
多目标识别：帮助开发者从图片中识别常见的目标对象（动物、植物、建筑物、人、人脸、文本、表格等）并给出位置信息。通常用于端到端业务场景的前置检测功能，根据检测结果完成后续功能业务的入口提示，比如视觉搜索，文本检测。
骨骼点检测：人体骨骼关键点检测，主要检测人体的一些关键点，通过关键点描述人体骨骼信息。具体应用主要集中在智能视频监控，病人监护系统，人机交互，虚拟现实，人体动画，智能家居，智能安防，运动员辅助训练等等。

约束与限制

支持的设备

Phone、Tablet、PC/2in1。

支持的国家/地区

仅适用于中国境内（香港特别行政区、澳门特别行政区、中国台湾除外）。

能力限制

AI能力	约束
文字识别	- 支持的图片格式：JPEG、JPG、PNG。 - 支持的语言：简体中文、英文、日文、韩文、繁体中文。 - 文本长度：不超过10000字符。 - 支持文档印刷体识别，在识别手写字体方面能力有所欠缺。 - 输入图像具有合适成像的质量（建议720p以上），100px<高度<15210px，100px<宽度<10000px，高宽比例建议10:1以下（高度小于宽度的10倍），接近手机屏幕高宽比例为宜。 - 拍摄角度与文本所在平面垂直方向的夹角应小于30度。
人脸检测	- 输入图像具有合适的成像质量（建议720p以上），224px<高度<15210px，100px<宽度<10000px，高宽比例建议10:1以下（高度小于宽度的10倍），接近手机屏幕高宽比例为宜。 - 接口调用耗时较久，不适合在需要实时检测的场景下使用。
人脸比对	- 当前功能只支持1v1人脸比对。 - 输入的两张图像都需要合适的成像质量（建议720p以上），224px<高度<15210px，100px<宽度<10000px，高宽比例建议10:1以下（高度小于宽度的10倍），接近手机屏幕高宽比例为宜。
主体分割	- 某个物体占比不小于原图大小的千分之五才会被认定为“主体”，才会支持分割。 - 不建议用于处理包含较多文字内容的图片分析场景。 - 输入图像具有合适成像的质量（建议720p以上），20px<高度<9000px，20px<宽度<9000px，高宽比例建议3:1以下（高度小于宽度的3倍），接近手机屏幕高宽比例为宜。
多目标识别	- 输入图像具有合适成像的质量（建议720p以上），100px<高度<10000px，100px<宽度<10000px，高宽比例建议5:1以下（高度小于宽度的5倍），接近手机屏幕高宽比例为宜。 - 图片中的物体占比需要大于0.1%。
骨骼点检测	- 输入图像具有合适成像的质量（建议720p以上），100px<高度<10000px，100px<宽度<10000px，高宽比例建议5:1以下（高度小于宽度的5倍），接近手机屏幕高宽比例为宜。

Core Vision Kit的特性支持多用户同时接入，但是不支持同一用户并发调用同一个特性，如同一个特性被同一进程同一时间多次调用，则返回系统繁忙错误，不同进程调用同一特性，则同一时间只有一个进程业务在处理，其他进程进入队列排队。

模拟器支持情况

本kit暂不支持模拟器。

场景介绍​

约束与限制​

支持的设备​

支持的国家/地区​

能力限制​

模拟器支持情况​