文档智能国际权威榜单文档视觉问答DocVQA迎来了新霸主。百度提出跨模态文档理解模型ERNIE-Layout,首次将布局知识增强技术融入跨模态文档预训练,在4项文档理解任务上刷新世界最好效果,登顶DocVQA榜首。同时,ERNIE-Layout已集成至百度智能文档分析平台TextMind,助力企业数字化升级。
ERNIE-Layout登顶文档智能国际权威榜单DocVQA
文档视觉问答:检验文档理解能力的试金石
对多模态文档(如文档图片、PDF文件、扫描件等)的深度理解和分析,是文档智能的核心能力。文档智能应用行业包括金融、保险、能源、物流、医疗等,常见的应用场景包括财务报销、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等。针对不同行业和应用场景的需求,文档智能的技术方向囊括文档抽取、文档解析、文档比对等。
文档理解应用场景举例
文档视觉问答DocVQA是跨模态的文档抽取任务,要求文档智能模型在文档中抽取能够回答文档相关问题的答案,需要模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息,这比单一模态的信息抽取任务更具挑战性。
DocVQA文档视觉问答示例
上图是DocVQA的一个示例,关于这个文档内容的问题是:”手掌中的卡片上写了什么?”,模型需要对问题的核心语义(”手掌”、”卡片”)在文档图像中进行跨模态的语义对齐,准确找到图像中的”手掌”并确定其中”卡片”的位置,进而结合文档中文字和布局的信息得到答案是”Trabon”。
正是由于文档视觉问答任务需要结合视觉解析、布局分析、语义理解、信息抽取等一系列AI技术,是综合AI能力的集大成者,其技术挑战与实用价值正得到越来越多的重视。
ERNIE-Layout以世界领先的语义理解模型ERNIE为底座,创新提出布局知识增强技术,对文本、图像、布局等信息进行联合建模,取得该任务的世界最好水平,缩小了机器在文档理解能力上与人类的差距。
世界首创的布局知识增强文档理解模型ERNIE-Layout
对文档理解来说,文档中的文字阅读顺序至关重要,目前主流的基于OCR(Optical Character Recognition,文字识别)技术的模型大多遵循“从左到右、从上到下”的原则,然而对于文档中分栏、文本图片表格混杂的复杂布局,根据OCR结果获取的阅读顺序多数情况下都是错误的,从而导致模型无法准确地进行文档内容的理解。
ERNIE-Layout布局知识增强效果
而人类通常会根据文档结构和布局进行层次化分块阅读,受此启发,百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。TextMind平台上业界领先的文档解析工具(Document Parser)能够准确识别文档中的分块信息,产出正确的文档阅读顺序,将阅读顺序信号融合到模型的训练中,从而增强对布局信息的有效利用,提升模型对于复杂文档的理解能力。
基于布局知识增强技术,同时依托文心ERNIE,百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型ERNIE-Layout。如下图所示,ERNIE-Layout创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务,有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力。
ERNIE-Layout架构图
在取得权威视觉问答榜单DocVQA第一的同时,ERNIE-Layout还在文档信息抽取权威榜单SROIE登顶榜首。
ERNIE-Layout登顶文档信息抽取权威榜单SROIE
此外,ERNIE-Layout还在表单理解FUNSD、票据理解CORD等多个公开数据集上取得了目前业界最好的效果,其中FUNSD数据集F1大幅提升6.47%,进一步验证了ERNIE-Layout布局知识增强技术的有效性。
ERNIE-Layout在表单理解FUNSD数据集上的效果
ERNIE-Layout在票据理解CORD数据集上的效果
ERNIE-Layout技术已集成至百度智能文档分析平台TextMind!
2020年8月百度大脑语言与知识十周年技术峰会上,百度发布了智能文档分析平台TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。一年多以来,TextMind平台不断打磨功能、优化效果,基于百度领先的OCR和NLP技术,平台支持格式解析、内容抽取、内容比对、内容审查、内容理解5大核心功能。
TextMind产品架构图
截至目前,TextMind合作伙伴达到上百家,遍布银行、券商、法律、能源、传媒、通信、物流等众多行业,真正实现以AI助力企业的数字化转型。本次ERNIE-Layout集成至TextMind更是助力企业提高文档信息的提取效率和处理效率,显著减少人工成本和时间投入,加快企业数字化转型。
以财务报销智能审核为例,报销凭证数据量大、样式多样且复杂,依靠人工处理则审核人力成本高、效率低并且审核时间长。得益于ERNIE-Layout模型具备的多样化的文档布局理解能力和文本语义理解能力,TextMind的票据内容抽取功能,能够自动、快速、准确地提取不同样式票据中的关键信息。目前,该功能已为多家客户提供全流程、智能化的实时财务报销审核服务,提升企业审核效率5倍以上。
基于ERNIE-Layout模型的票据内容抽取示例
结束语
国家”十四五”规划提出数字中国战略,战略旨在激活数据要素潜能,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。企业80%以上数据都是非结构化数据(图片、文档),且文档数量和占比都在呈现指数级增长。因此,文档智能技术已成为企业数字化转型的关键技术。
百度提出的基于文档布局知识增强的跨模态预训练模型ERNIE-Layout,在4项文档理解任务上刷新世界最好效果,并在DocVQA上登顶榜首。通过引入层次化的文档布局知识信息,让机器可以像人一样阅读复杂排版的文档,学习文档的布局知识、语义知识以及视觉知识并相互增强,从而实现对文档的结构化、语义化理解。这项能力通过百度智能文档分析平台TextMind,提供一站式企业文档规范化解析方案,促进办公智能化升级和企业数字化转型。