发布日期:2024-12-13 09:48 点击次数:58
著述转自公众号老刘说NLP
昨天,咱们谈了谈对于阅读王法的问题,通过阅读王法,可以将一个文档按照东说念主类的阅读民俗进行成列。
而进一步的,淌若需要对文档进行进一步的组织,则需要对文档进行档次化的科罚,因为文档中存在着多级标题、段落、图表等,这些元素之间自己是造成了一定的结构,这种结构,可以使用markdown进行呈现,是以可以作念成目次,这么浅显进行索引,这也就对应着文档科罚领域的两个经典任务:pdf2markdown(markdown生成)以及pdf2TOC(目次生成),但这几个的要害时候,王人是文档层级结构识别时候。
是以,咱们来望望若何其具体杀青有筹画。
调研了一全,这个方针还挺冷门,找到三个代表有筹画:Detect-Order-Construct、HRDoc(一个数据集)和DocParser有筹画,三个有筹画王人是有监督想路,界说了不同的类别(parent of 居多),然后作念分类模子。
张开剩余82%供专家通盘参考。
一、Detect-Order-Construct有筹画先看第一个有筹画,《Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis》(https://arxiv.org/pdf/2401.11874),其给了一个好意思满的想路,检测、排序步调,这个很老例,要点在于文档结构分析的“构建(Construct)”阶段,其主要任务是从检测到的章节标题生成一个示意档次结构的目次树。
具体杀青想路如下:
最初,从统统页面临象的多模态示意中提真金不怕火每个章节标题的多模态示意。将统统章节标题的示意输入到一个Transformer编码器中,以进一步增强这些示意。与检测模块暖热序模块中使用的Transformer编码器不同,此处的输入序列是凭据王法模块展望的正确阅读王法成列的,因此可以加入位置编码来传达阅读王法信息。
其次,为了包含阅读王法序列中的相对位置信息并适应文档中较大的页码范畴,使用了旋转位置编码(Rotary Position Embedding, RoPE)。经过多模态特征增强模块的科罚后,生成章节标题的增强示意。
终末,引入一个树感知的目次商酌展望头来展望这些章节标题之间的目次商酌,该展望头包含两个不同类型的商酌展望头,辞别用于父子商酌和兄弟商酌,是以,这个有筹画的类别数有2种;
其中,每个商酌展望头使用一个多类(k类)分类器来筹算分数,意想secj成为seci的父节点约略兄弟的可能性。
二、HRDoc有筹画再看第二个有筹画,《HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structure》(https://arxiv.org/abs/2303.13839),建议了一个新的数据集HRDoc和一个基于编码器-解码器的档次化文档结构默契系统(DSPS)。
在商酌建模上,将统统semantic units分为14个类别: {Title, Author, Mail, Affiliation, Section,外汇投资 First-Line, Para-Line, Equation, Table, Figure, Caption, Page-Footer, Page-Header, and Footnote},商酌分为3类{Connect, Contain, Equality}。
其中,当两个单位在语义上连络时,段落中贯穿行之间的商酌称为Connect。举例,章节行与其第一个末节行之间的商酌称为Contain。当两个单位处于归并档次结构级别时使用Equality。
通过议论语义和视觉特征,DSPS分类效劳可以;
在编码器上,使用多模态双向编码器,输入镶嵌包括句子镶嵌、布局镶嵌、一维位置镶嵌、视觉镶嵌和页面镶嵌。通过Transformer架构的多模态双向编码器,生成每个语义单位的示意。句子镶嵌使用Sentence-Bert模子,布局镶嵌使用LayoutLMv2,视觉镶嵌使用ResNet-50和FPN,页面镶嵌使用统统位置镶嵌。
在解码器上,使用GRU网罗捕捉跨页面的信推辞换,并通过隆重力机制筹算每个语义单位的加权袒护景况,引入软掩码操作,应用领域特定学问调整隆重力踱步。
在商酌分类器上,在得回每个语义单位的父节点后,使用线性投影函数对每个子父对的商酌进行分类。
三、DocParser有筹画终末,咱们来看第三个有筹画,《DocParser: Hierarchical Structure Parsing of Document Renderings》(https://arxiv.org/pdf/1911.01702)
这个呢,先把各个区块截取出来,设定为entity,然后界说relations={parent of,followed by, null},进行分类。
想想很狰狞,举例,启发式礼貌基于鸿沟框的近似来礼聘父子商酌列表,然后再送入监督模子Mask R-CNN作念分类,效劳也并不很好。
其中,弱监督(WS)使用的数据集带有效于弱监督的噪声标签。
追忆本文主要讲了对于文档层级结构识别的三个代表有筹画:Detect-Order-Construct、HRDoc(一个数据集)和DocParser有筹画,三个有筹画王人是有监督想路,界说了不同的类别(parent of 居多),然后作念分类模子。
但内容上,在真正落地的经由当中,咱们陆续很少会有这类层级结构的分类数据,何况文档异常各种,模子的通用性不会太好。是以更多的也曾说使用一些礼貌的形势进行判定(天然彰着有许多bug)。
发布于:浙江省