如何识别文档的层级结构
2024-12-13Detect-Order-Construct、HRDoc、DocParser三个有筹画 著述转自公众号老刘说NLP 昨天,咱们谈了谈对于阅读王法的问题,通过阅读王法,可以将一个文档按照东说念主类的阅读民俗进行成列。 而进一步的,淌若需要对文档进行进一步的组织,则需要对文档进行档次化的科罚,因为文档中存在着多级标题、段落、图表等,这些元素之间自己是造成了一定的结构,这种结构,可以使用markdown进行呈现,是以可以作念成目次,这么浅显进行索引,这也就对应着文档科罚领域的两个经典任务:pdf2ma