数据分析师

手机号

验证码

30天自动登录

数据分析师

AI提供了一系列文档处理机会

来源:CPDA数据分析师网 / 时间:2021-05-20

现有的字符识别技术有其局限性
迄今为止,已经投入了大量资金来部署传统的识别技术,例如光学字符识别,智能字符识别和智能文字识别,以分析文档的内容并提高自动化程度,这仍然是一个增长领域,研究显示,到2025年,全球OCR市场预计将达到133.8亿元-与2019年相比,复合年增长率为13.7%,尽管如此,还是有局限性的,许多ICR / OCR引擎努力处理混合文档(包括结构化,半结构化和非结构化数据)以及草书手写,历史和旧文档,尤其是在文书的可读性较差的情况下,当交易量很大时,这种情况更加恶化。而且,没有任何一个传统的ICR / OCR引擎能够无缝处理多种语言-从英文文档跳到中文,等等。

有了这样的可变性
正确的读取率会显着下降-今天要获得90-95%以上的准确度仍然很困难-这样就要求工作人员然后手动重新输入信息,这既耗时,成本高昂,又引出了是否足够的问题,受过训练的员工可以做到这一点,当然与实际雇用人员以提高准确性相比,众包方法是一种好而又便宜的工作,数据片段被发送到登录到基于Internet的系统的在线录入员,然后在将其输入到业务系统之前对其进行检查,但是人工智能的希望-以及现在的现实是-使用强大的认知系统也可以解决这些挑战。

由AI驱动的解决方案现已可用于文档处理
利用神经网络,人工智能驱动的文档处理平台提供了超越传统识别技术的跨越式进步,首先要对系统进行“培训”,以便创建有关特定(口语)语言,表格和/或文档类型的综合核心知识库,用AI行话来说,这就是所谓的“推论”,随着越来越多的信息输入系统,该知识库随着时间的推移而扩展和增长,并且它可以自我学习–能够在文档及其内容到达时对其进行识别,如果使用了反馈“重新训练循环”(可以将其视为人工监督的监督学习),则可以实现此目的,从而可以在系统错误发生时进行纠正,以使推理(及其基础元数据)得以更新,可以学习并能够在下次出现类似情况时自行处理类似情况。

这与人脑的工作方式以及儿童学习语言的方式并无二致
换句话说,孩子说话,犯错误和被纠正的次数越多,他们的说话能力就越好。将AI应用于文档分析和处理时也是如此,推论变得越来越知识丰富和准确,可以训练基于AI的系统以自动识别特定形式,查看特定内容及其在页面上的布局,然后将草书手写转换为标准电子格式,例如PDF或JavaScript Object Notation(JSON),以进行分析或验证和验证工作流也发生了。,这也可以在基于字段的级别上完成,以便可以完成键值提取,诚然系统也可以做到这一点,但是它们难以识别草书手写体,并且需要复杂的算法来查找字段。

这里的好处是显而易见的
医疗保健提供者,银行和保险公司必须处理大量具有相同格式的手写表格,以用于各种目的,例如问卷,申请,个人贷款,抵押或索赔。从其中检索手写信息并将其转换为数字格式,而无需人工干预,从而减少了人为错误,降低了成本,允许进行大数据分析并大大加快了周转时间,这种基于AI的处理速度令人印象深刻。使用一台服务器,每小时可以完成多达50,000页的任何地方–添加更多计算能力时,更大的部署和云交付也可以实现。

可以使用不同的神经网络来摄取不同的常用文件

以进行分析,例如纯文本,PDF,TIFF,JPEG,GIF,PPM,PNG等,然后读取文本并对文本进行分类-无论是手写还是机器打印-借助“模糊搜索”可帮助文本转换为数字,除处理纸质文档外,的AI系统还可以处理图片,视频和音频,换句话说,它们与内容无关,并且可以处理任何源内容。



返回列表