图片/PDF文字识别功能 - 常见问题解答

pdf文字提取是系统先将上传的pdf转为一张张图片，再从图片中将文字提取出来，下面说明包含pdf的提取问题；

A：目前图片格式支持jpg、png、bmp，图片的长和宽要求最短边大于10px，最长边小于2048 px。

A：上传图片建议不要超过10M；最小边长不小于15，最大边长不超过4096，建议不要超过2048（最大边长超过2048或编码后大于1M的图像会被缩放，影响效果，建议控制输入图像大小）

A：文字识别的准确率跟拍摄光照、背景、清晰度等因素有关，可在图片采集端尽量缩小要识别文字区域，尽量保证图片清晰度人眼可以辨认；

A：字体没要求，但很特殊字体可能支持不好。

A：支持十国语言（中/英/日/韩/西班牙/法/德/俄/葡萄牙/意大利，语言类型有参数设置）

A：目前开放的自然场景下，通用文字识别接口也同样支持文档扫描图片。