国有大行OCR「进化论」：一个双剑合璧的「样本」

面对版式不固定、特殊字符

定制化OCR「不灵了」

在银行这片票据“集散地”上，OCR并非新鲜事物。

早在2017、2018年，随着银行各业务线数字化转型提速，涉及凭证票证类别的需求不断增加，各大银行就将大量定制化OCR模型引入业务系统。

这让原本全凭“手工劳作”的票据录入，搭乘上效率“直升机”，冲破了票据处理的效率屏障。

国有大行探索OCR的时间则更早。

2013年，在数字化号角还未吹得像今天这般响亮时，某国有大行便成立专门的技术研发团队，完成了OCR技术从0到1的探索。遵照“两录一校”的原则，原来需由两位录入员分别录入凭证信息的工作，随着OCR技术应用，替换成了一位人工录入，一位OCR录入，录入人员立马减半。

不过，随着在OCR领域的深入探索，这家大型银行也发现，现有OCR技术能识别身份证、银行卡等证件、增值税专用发票、增值税普通发票等有固定版式、文档相对简单的内容，但在面对银行许多长尾场景下偏复杂的识别时，就容易无能为力。

特别是遇到以下两种情况：第一票据版式不固定、样本量较少；第二文档中含有手写体、中英韩法等多种语言、特殊字符等，识别准确率大大降低。

过往，为应对这些棘手问题，他们只能在前端继续投入大量人力进行录入和校验，而在后端，则增加开发人员，对新出现的版式进行模型的重新配置。

众所周知，银行票据种类、版式多如牛毛，开发人员不断“打补丁”的方式也只是杯水车薪、隔靴搔痒。

腾讯云售前架构师阿凯说，今年年初，他与这家国有大行研发中心负责OCR的项目经理沟通时发现，对方已经围绕OCR的整体研发，打造了一支非常专业的团队。

到底如何提升OCR的能力，使其能对除固定版式、常规文档之外的版式、信息进行识别提取，并直接录入，且保证识别准确率？

今年年初，腾讯云副总裁、腾讯优图实验室总经理吴运声去到了银行，与对方金融科技院院长见了一面，让这一问题有了新的解法。

多模态融合技术

提升OCR模型泛化能力

事实上，腾讯优图也一直在尝试攻克版式不固定、识别准确性的问题。

去年到今年，他们在OCR技术上发表了一系列的论文。其中关注复杂场景文档信息提取的有三篇，分别着眼在大规模多模态文档预训练模型、泛化版式文档信息提取、表格等复杂关系提取。直面挑战，攻克业界难题。

这里需理解一下多模态和单一模态。多模态是融合视觉信息、语义信息、布局排版信息等单一模态的集合体。腾讯优图在多模态文档预训练的基础上，进一步统一了文档结构化信息提取范式，形成智能结构化基础模型，单一模型支持5000种以上版式。

就好比培养人的运动技能，基于常规多模态进行大规模训练的模型，只是针对一项基本能力，比如说腿部力量，进行重点训练；而基于智能结构化基础模型，则是提前教会你足球、篮球、网球多项等运动的关键动作，这样人们就能在日常生活中参与不同的运动。

放在金融文档识别场景中，基于这种方式训练出来的模型，泛化能力得到了极大提升，不论是银行单据、票证、凭证等，它都能进行高精度的信息提取。

而这也恰恰解决了该银行一直以来的困扰。

今年年初，在双方高层进行沟通后的短短一个月内，该银行就决定引入腾讯云TI-OCR产品，基于腾讯优图实验室在OCR领域多年的积累，来对银行业务处理票据录入过程中的十大重点场景进行优化升级，并把这一项目名称取名为“多模态融合应用于计算机视觉”。

腾讯云产品架构师阿凯表示：“不论是信息提取还是表格还原，都用了多模态技术，这也给整个项目定调。”

成立联合实验室

让技术与业务更相融

以往，腾讯云往往是通过向客户提供算法包、训练平台等原子化产品进行合作。但事实上，若要真正和客户的实际业务相结合，不免还需涉及一些工程业务方面的开发。

为让技术与业务更相融合，双方决定成立联合实验室，探索更深入的合作。然而，刚开展合作就遇到的一个难题：银行场景复杂多样，到底选择从哪一个场景开始下手？

腾讯优图算法研究员浩宇印象很深刻：“一开始确定业务场景时，行方一开始邀请我们分析了有差不多上千种场景，并梳理了其中痛点问题。”

通过反复分析，最终双方达成一致，先啃“硬骨头”，决定最先在托管对账单、提单以及集中录入这三个业务场景的结构化识别中用上多模态技术。

“托管对账单、提单这几个场景在业界比较接近天花板的难度。”交付架构师秋健对小编说。

提单样本图，图源网络

以基金公司托管对账单为例，各家基金公司在银行内部托管一个公共账号，记录了投资人每一时段各基金持有份额和所有交易明细等，以方便投资人定期了解自己的交易情况。

这场景最大的难点有三个：

第一，版式多、样本少。基金公司众多且每家公司的账单版式都不相同，且随着业务扩展或变更，账单板式也在发生变化。此外，也存在一些基金账单比较少的情况，这都十分考验OCR结构化提取模型。

第二，具有表格等复杂关系。多数基金账单都是以表格形式呈现，比如，XX在某年某月某日交易了XX金额，这需要OCR能够从表格里面去提取结构化信息，而这也是目前业界普遍面临的难点。

第三，还存在字段嵌套、容易混淆等问题。比如在基金单交易中，同时存在多个相同形式表格，但表头的时间或含义不同，这要求OCR能够区分出来各种表格对应的具体含义。

从实验室走向实际应用

还有两道坎要跨越

今年四月中旬，腾讯云动身派驻项目经理、算法研究员、交付架构师等项目成员去到该银行，了解其实际业务运行情况，并确定方案进行指导标注。

然后，在合作过程中，他们也发现，OCR技术从实验室走向实际应用时，也还有一些坎需要跨越：

如何让产品更满足业务的需求？

即便是在实验室打磨训练过多次的产品，在遇到复杂的业务场景时，难免还是“不够用”，需要项目团队在产品实际落地过程中结合业务进一步“查漏补缺”。

浩宇提到，他们在印鉴卡的问题分析过程中就曾遇到过一个类似刮奖的密码验证图层，在单据识别过程中，需验证涂层是否完整，以及识别密码涂层刮开后的文字。“这是我们在实验室中完全没见过的。”

与此同时，在实验室中对事物的重要性判断，和现实也可能会出现偏差。比如，实验室更看重如何对表格中的信息进行提取，但在实际业务层面，还需要关注表格信息的含义，比如这是当前的基金交易信息，还是历史交易信息。

双剑合璧

票据识别渐入「无人区」

面对这些分歧，双方共同协商讨论、解决问题也变得十分重要。

腾讯云、优图实验室项目团队交流中

经过半年的接触和交流，交付架构师少凯谈到，整个项目让他感触最深的有三个点，第一是银行的配合和参与，第二是银行的开放心态，第三是银行愿意学习的心态。

拿样本图举例，一般样本图都散落在各个业务部门，开发部门也需要内部协调才能拿到样本图，但银行每一次都会快速响应，及时从业务部门收集样本图。

与此同时，在整个合作过程，该银行也一直强调，这次合作不仅是要获得一套新工具，而且还要让自己内部员工学习如何进行模型训练，以及对模型训练平台有更深入了解，以便未来用到更多的场景中去。

托管对账单这一场景从今年7月份左右开始正式建模，经过双方的反复测试、沟通、改进，其字段识别准确率目前已达90%以上。此外，包括提单、集中录入等9个场景，也将陆续上线。

随着这种多模态技术加速渗透具体业务场景，该银行也初尝数字化的甜头，其前端录入环节将从单OCR录入改为双OCR录入，减少了至少1/3左右的成本投入。

而后端开发上，以前开发人员需花上两三天时间进行新版式的开发，现如今只需要拿几张图进行标注训练，一小时就能够完成整体的训练和上线的流程，极大提升了训练效率，减轻了开发人员负担。

接下来双方也将继续“双剑合璧”，通过联合开发，让票据识别向智能化、自动化迈进，让票据录入逐渐走入“无人区”。

本站部分文章来自互联网，文章版权归原作者所有。如有疑问请联系QQ：3164780！