本发明涉及人工智能技术领域,尤其涉及一种对文档结构的深度学习进而生成文档目录的方法、装置及计算机可读存储介质。
背景技术:
目前已有的提取文档目录的方法主要是通过poi(pointofinterest,兴趣点)读取一个word文档。现有技术只能按段落读取,无法识别文档的具体结构。此外,在文档中有多级标题的情况下,现有方法不能把文档中的目录结构完整、准确地提取出来。
技术实现要素:
本发明提供一种文档目录自动生成方法、装置及计算机可读存储介质,其主要目的在于提供一种对目标文档进行深度学习从而得到文档目录的方法。
为实现上述目的,本发明提供的一种文档目录自动生成方法,包括:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
可选地,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:
建立生成模型和判别模型;将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
可选地,所述生成正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
可选地,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
可选地,所述文档目录为可扩展标记语言;所述目标文档的文件格式为microsoftofficeword。
此外,为实现上述目的,本发明还提供一种文档目录自动生成装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文档目录自动生成程序,所述文档目录自动生成程序被所述处理器执行时实现如下步骤:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
可选地,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
可选地,所述生成正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机,其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;将构建的状态机转换成生成正则表达式所需要的格式并存储。
可选地,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
可选地,所述文档目录为可扩展标记语言;所述目标文档的文件格式为microsoftofficeword。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文档目录自动生成程序,所述文档目录自动生成程序可被一个或者多个处理器执行,以实现如上所述的文档目录自动生成方法的步骤。
本发明从目标文档中提取出初始标题规则,通过将所述初始标题规则输入至预先构建的生成对抗网络模型中训练并得训练后的标题规则,在不损失精准的同时,可高效的让计算机进行分析。进一步,根据训练后的标题规则配置正则表达式,最后再将所述目标文档中内容与所述正则表达式对比分析,提取出所述标题。因此本发明提出的文档目录自动生成方法、装置及计算机可读存储介质,可以实现精准高效且连贯的文档目录生成。
附图说明
图1为本发明一实施例提供的文档目录自动生成方法的流程示意图;
图2为本发明一实施例提供的文档目录自动生成装置的内部结构示意图;
图3为本发明一实施例提供的文档目录自动生成装置中文档目录自动生成程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文档目录自动生成方法。参照图1所示,为本发明一实施例提供的文档目录自动生成方法的流程示意图。所述文档目录自动生成方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文档目录自动生成方法包括:
s1、提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则。
所述目标文档为本发明中需要进行文档目录生成的文档对象,其中,所述目标文档为word格式。例如,所述目标文档可以是小说《边城》的word文本;《如何阅读一本书》的word文本等等不同类型的文本文档。本发明目的在于对所述目标文档的文本内容进行识别,提取出其中具有章节特征的内容,对所述具有章节特征的内容按照预设的规则进行排序,形成所述目标文档的文档目录。
本发明首先提取所述目标文档中的初始标题。所述初始标题是指目标文档中,标明文章、作品等内容的简短语句,一般分为总标题、副标题、分标题等。标题可以使读者了解到文章的主要内容和主旨。利用标题可以对章节、段落等形成自然分割。
进一步地,本发明基于所述初始标题确定所述目标文档的初始标题规则,包括:在提取目标文档中的初始标题之后,基于所述初始标题的具体形式(即初始标题实际具体所包含的语法、语义逻辑、各个标题的层级关系)抽象出初始标题的语法、语义逻辑、各个标题的层级关系等特征中的普遍规律来确定所述目标文档的初始标题规则。其中,初始标题规则指的是初始标题的种类、结构、语义逻辑、各个标题的层级关系。
具体地,所述语法是指所述初始标题中具体词语所属的词类和该类词的构成、词形变化(形态),如,文本文档《动物大全》中包含初始标题:哺乳类鸟类爬行类等,这些标题的语法为名词;所述语义逻辑是采用现代逻辑方法,揭示语言表达式及其意义之间关系,如,文本文档《动物大全》中包含初始标题:哺乳类猫科豹子猫,根据语义逻辑,标题猫和豹子都属于哺乳类,在语义逻辑上是包含关系;所述层级关系由大到小依次为:第x章、第一节、小节1.1.1、(1)等等。按照全部初始标题在文本中的层级关系;标题内容与其他文本内容的语义逻辑联系,可以确定出相应的标题规则。以文本《m公司知识型员工非物质激励策略研究》第一章为例,通过预设的层级关系逻辑,如章>节>小节。最高层级标题为:第一章绪论;第二层级标题为:第一节选题的背景第二节研究意义第三节研究内容第四节研究方法;第三层级标题为:小节1.2.1理论意义小节1.2.2实践意义。
s2、将所述初始标题规则输入至预先构建的生成对抗网络模型中训练并得训练后的标题规则。
较佳地,所述生成对抗网络模型包括生成模型和判别模型。所述生成模型和所述判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
本发明试图通过将所述初始标题规则输入生成网络模型中训练,得到虚拟标题规则数据(样本g(z)),然后再由判别模型d,对生成的虚拟标题规则数据进行判断以训练使其符合初始标题规则的特征,以得到所述训练后的最优化解,其中,所述最优化解包括所述训练后的标题规则。
举例说明,在构建好的对抗网络模型中训练并得训练后的标题规则包括:
首先,将所述初始标题规则作为变量z(以下简称变量z)输入至预先构建的生成对抗网络模型;
生成模型g在获得输入的所述初始标题规则后,生成服从真实数据分布的样本g(z);
接着将所述目标文档的文本内容以及样本g(z)都作为输入数据集,其中,所述输入数据集中可能包含所述目标文档的文本内容以及样本g(z)中的一种或者全部。
将所述输入数据集输入所述判别模型d中,其中所述判别模型d的作用是判别其输入数据是来自生成模型g还是来自真实数据即所述目标文档文本内容(此处真是数据指目标文档的文本真事具体的内容,而非经过学习后生成的虚拟数据样本g(z));如果本次输入数据集中的数据来自样本g(z),则将该次输入数据集标注为0并判别为伪,否则若本次输入数据集中的数据不是来自g(z),则本次输入数据集中的数据来自真实的数据,将该次输入数据集标注为1并判别为真。这里生成模型g的目标是使其生成的虚拟数据所述样本g(z)在判别模型d上的表现和真实数据(所述目标文档的文本内容)在d上的表现一致。
所述互相博弈学习包括:生成模型g和判别模型d互相博弈学习并迭代优化的过程使得生成模型g和判别模型d的性能不断提升,随着判别模型d的判别能力提升,并且无法判别输入判别模型d的数据来源时,就认为生成模型g已学到真实的数据分布。
将所述初始标题规则输入生成网络模型中训练,得到样本g(z),然后再由判别模型d,对生成的样本g(z)进行判断以训练使其符合初始标题规则的特征。通过输入所述初始标题规则在生成模型g和判别模型d之间互相博弈学习,得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
s3、基于所述训练后的标题规则,生成正则表达式。
根据所述生成正则表达式包括:
获取所述训练后的标题规则;
对所述训练后的标题规则进行语法分析,提取所述训练后的标题规则的句式主体;
获取所述句式主体的字词的语义槽;
根据所述句式主体、所述语义槽和所述训练后的标题规则中剩余的非主体部分生成正则表达式。
本发明的一些实施例中,在所述配置正则表达式之前,还包括:
基于训练后的标题规则生成状态机。
优选地,生成所述状态机是为了在生成所述正则表达式的过程中提供稳定的配置装置以及储存装置。本实施例中所述状态机是根据相应的标题规则而专门对正则表达式进行配置和储存的装置。所述状态机根据接收的所述正则表达式中的字符及位置信息在状态机中进行正则表达式的匹配。
其中,所述生成所述状态机包括以下步骤:
s301、对训练后的标题规则进行语法解析得到配置文件,该配置文件描述训练后的标题规则的每个状态的标识以及对各个事件的响应信息和状态转换信息,且描述多个状态间的层级关系。
s302、根据所述配置文件进行所述状态机构建。
s303、将构建好的所述状态机转换成生成所述正则表达式所需要的格式并存储。
在本发明的一些实施例中,状态机由状态寄存器和组合逻辑电路构成,能够根据控制信号按照预先设定的状态进行状态转移,是协调相关信号动作、完成特定操作的控制中心。
优选地,根据实际应用载体不同,所述状态机可以采用数据表项、链表、指令表项、状态图等方式来表示,本实施例不作限定。
s4、遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。根据本发明的一个实施例,读取所述目标文档,将所述目标文档中的内容与所述正则表达式对比分析,提取出目标文档的所述标题,包含以下步骤:
s401、从所述目标文档提取一个或多个感兴趣点(pointofinterst,poi)。
包括:基于所述正则表达式获得poi对象的数据信息,所述poi对象的数据信息至少包括句式主体;将获得的所述poi对象的数据信息与所述目标文档中内容进行逐一对比,提取所述目标文档中与所述poi对象的数据信息包含规则相同的部分作为所述poi。如,获得的poi对象数据信息为x,y;经过与目标文档中内容对比,发现该poi与目标文档中的内容包含规则相同(如逻辑规则、语法等规则),则提取该部分作为所述poi。
其中,所述感兴趣点是apache软件基金会的开放源码函式库,poi提供api给java程序对microsoftoffice格式档案读和写的功能。
在本发明较佳的实施例中,利用poi技术读取目标文档word正文段落内容。其中,一个word文档包含多个段落,一个段落包含多个runs,一个runs包含多个run,run是目标文档的最小单元。例如,一个所述段落包含了若干完整的句子,即所述runs;所述runs中又包含了若干词组,即所述run。具体地,通过poi读取word正文内容步骤如下:
(1)首先通过poi操作xwpfdocument中xwpfparagraph来获取目标文档的所有段落;
(2)通过xwpfparagraph.getruns()命令获取一个段落中的所有runs:
(3)通过xwpfruns.get(index)命令获取一个runs中的一个run;
(4)整体遍历文档,通过getppr().getoutlinelvl()命令获取word文档中所述标题。
基于上述过程遍历word文档内容并提取出word文档中的全部所述标题。
s402、通过所感兴趣点(poi)提取所述目标文档的内容,识别所述目标文档的大纲结构。所述识别所述目标文档的大纲结构是指把已经提出出来的全部所述标题按照的语义逻辑和前后顺序进行有层级、次序地排列,形成大纲结构。
s403、将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
s5、遍历所述目标文档全部内容,提取出全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
在本发明的较佳的实施例中,遍历word文档的全部段落内容,基于正则表达式对比识别文档内容标题,按照文档内容的顺序,先后遍历提炼文档标题,整合成新的文档,即为提取的完整的word文档章节目录。
发明还提供一种文档目录自动生成装置。参照图2所示,为本发明一实施例提供的文档目录自动生成装置的内部结构示意图。
在本实施例中,所述文档目录自动生成装置1可以是pc(personalcomputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文档目录自动生成装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文档目录自动生成装置1的内部存储单元,例如该文档目录自动生成装置1的硬盘。存储器11在另一些实施例中也可以是文档目录自动生成装置1的外部存储设备,例如文档目录自动生成装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括文档目录自动生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文档目录自动生成装置1的应用软件及各类数据,例如文档目录自动生成程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文档目录自动生成程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文档目录自动生成装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及文档目录自动生成程序01的文档目录自动生成装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文档目录自动生成装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有文档目录自动生成程序01;处理器12执行存储器11中存储的文档目录自动生成程序01时实现如下步骤:
步骤一、提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则。
所述目标文档为本发明中需要进行文档目录生成的文档对象,其中,所述目标文档为word格式。例如,所述目标文档可以是小说《边城》的word文本;《如何阅读一本书》的word文本等等不同类型的文本文档。本发明目的在于对所述目标文档的文本内容进行识别,提取出其中具有章节特征的内容,对所述具有章节特征的内容按照预设的规则进行排序,形成所述目标文档的文档目录。
本发明首先提取所述目标文档中的初始标题。所述初始标题是指目标文档中,标明文章、作品等内容的简短语句,一般分为总标题、副标题、分标题等。标题可以使读者了解到文章的主要内容和主旨。利用标题可以对章节、段落等形成自然分割。
进一步地,本发明基于所述初始标题确定所述目标文档的初始标题规则,包括:在提取目标文档中的初始标题之后,基于所述初始标题的具体形式(即初始标题实际具体所包含的语法、语义逻辑、各个标题的层级关系)抽象出初始标题的语法、语义逻辑、各个标题的层级关系等特征中的普遍规律来确定所述目标文档的初始标题规则。其中,初始标题规则指的是初始标题的种类、结构、语义逻辑、各个标题的层级关系。所述语法是指所述初始标题中具体词语所属的词类和该类词的构成、词形变化(形态),如,文本文档《动物大全》中包含初始标题:哺乳类鸟类爬行类等,这些标题的语法为名词;所述语义逻辑是采用现代逻辑方法,揭示语言表达式及其意义之间关系,如,文本文档《动物大全》中包含初始标题:哺乳类猫科豹子猫,根据语义逻辑,标题猫和豹子都属于哺乳类,在语义逻辑上是包含关系;所述层级关系由大到小依次为:第x章、第一节、1.1.1、(1)等等。按照全部初始标题在文本中的层级关系;标题内容与其他文本内容的语义逻辑联系,可以确定出相应的标题规则。以文本《m公司知识型员工非物质激励策略研究》第一章为例,最高层级标题为:第一章绪论;第二层级标题为:第一节选题的背景第二节研究意义第三节研究内容第四节研究方法;第三层级标题为:1.2.1理论意义1.2.2实践意义。
步骤二、将所述初始标题规则输入至预先构建的生成对抗网络模型中训练并得训练后的标题规则。
较佳地,所述生成对抗网络模型包括生成模型和判别模型。所述生成模型和所述判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
本发明试图通过将所述初始标题规则输入生成网络模型中训练,得到虚拟标题规则数据(样本g(z)),然后再由判别模型d,对生成的虚拟标题规则数据进行判断以训练使其符合初始标题规则的特征,以得到所述训练后的最优化解,其中,所述最优化解包括所述训练后的标题规则。
举例说明,在构建好的对抗网络模型中训练并得训练后的标题规则包括:
首先,将所述初始标题规则作为变量z(以下简称变量z)输入至预先构建的生成对抗网络模型;
生成模型g在获得输入的所述初始标题规则后,生成服从真实数据分布的样本g(z);
接着将所述目标文档的文本内容以及样本g(z)都作为输入数据集,其中,所述输入数据集中可能包含所述目标文档的文本内容以及样本g(z)中的一种或者全部。
将所述输入数据集输入所述判别模型d中,其中所述判别模型d的作用是判别其输入数据是来自生成模型g还是来自真实数据即所述目标文档文本内容(此处真是数据指目标文档的文本真事具体的内容,而非经过学习后生成的虚拟数据样本g(z));如果本次输入数据集中的数据来自样本g(z),则将该次输入数据集标注为0并判别为伪,否则若本次输入数据集中的数据不是来自g(z),则本次输入数据集中的数据来自真实的数据,将该次输入数据集标注为1并判别为真。这里生成模型g的目标是使其生成的虚拟数据所述样本g(z)在判别模型d上的表现和真实数据(所述目标文档的文本内容)在d上的表现一致。
所述互相博弈学习包括:生成模型g和判别模型d互相博弈学习并迭代优化的过程使得生成模型g和判别模型d的性能不断提升,随着判别模型d的判别能力提升,并且无法判别输入判别模型d的数据来源时,就认为生成模型g已学到真实的数据分布。
将所述初始标题规则输入生成网络模型中训练,得到样本g(z),然后再由判别模型d,对生成的样本g(z)进行判断以训练使其符合初始标题规则的特征。通过输入所述初始标题规则在生成模型g和判别模型d之间互相博弈学习,得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
步骤三、基于所述训练后的标题规则,生成正则表达式。
根据所述生成正则表达式包括:
获取所述训练后的标题规则;
对所述训练后的标题规则进行语法分析,提取所述训练后的标题规则的句式主体;
获取所述句式主体的字词的语义槽;
根据所述句式主体、所述语义槽和所述训练后的标题规则中剩余的非主体部分生成正则表达式。
本发明的一些实施例中,在所述配置正则表达式之前,还包括:
基于训练后的标题规则生成状态机。
优选地,生成所述状态机是为了在生成所述正则表达式的过程中提供稳定的配置装置以及储存装置。本实施例中所述状态机是根据相应的标题规则而专门对正则表达式进行配置和储存的装置。所述状态机根据接收的所述正则表达式中的字符及位置信息在状态机中进行正则表达式的匹配。
其中,所述生成所述状态机包括以下步骤:
s301、对训练后的标题规则进行语法解析得到配置文件,该配置文件描述训练后的标题规则的每个状态的标识以及对各个事件的响应信息和状态转换信息,且描述多个状态间的层级关系。
s302、根据所述配置文件进行所述状态机构建。
s303、将构建好的所述状态机转换成生成所述正则表达式所需要的格式并存储。
在本发明的一些实施例中,状态机由状态寄存器和组合逻辑电路构成,能够根据控制信号按照预先设定的状态进行状态转移,是协调相关信号动作、完成特定操作的控制中心。
优选地,根据实际应用载体不同,所述状态机可以采用数据表项、链表、指令表项、状态图等方式来表示,本实施例不作限定。
步骤四、遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。根据本发明的一个实施例,读取所述目标文档,将所述目标文档中的内容与所述正则表达式对比分析,提取出目标文档的所述标题,包含以下步骤:
s401、从所述目标文档提取一个或多个感兴趣点(pointofinterst,poi)。
包括:基于所述正则表达式获得poi对象的数据信息,所述poi对象的数据信息至少包括句式主体;将获得的所述poi对象的数据信息与所述目标文档中内容进行逐一对比,提取所述目标文档中与所述poi对象的数据信息包含规则相同的部分作为所述poi。如,获得的poi对象数据信息为x,y;经过与目标文档中内容对比,发现该poi与目标文档中的内容包含规则相同(如逻辑规则、语法等规则),则提取该部分作为所述poi。
其中,所述感兴趣点是apache软件基金会的开放源码函式库,poi提供api给java程序对microsoftoffice格式档案读和写的功能。
在本发明较佳的实施例中,利用poi技术读取目标文档word正文段落内容。其中,一个word文档包含多个段落,一个段落包含多个runs,一个runs包含多个run,run是目标文档的最小单元。例如,一个所述段落包含了若干完整的句子,即所述runs;所述runs中又包含了若干词组,即所述run。具体地,通过poi读取word正文内容步骤如下:
(1)首先通过poi操作xwpfdocument中xwpfparagraph来获取目标文档的所有段落;
(2)通过xwpfparagraph.getruns()命令获取一个段落中的所有runs:
(3)通过xwpfruns.get(index)命令获取一个runs中的一个run;
(4)整体遍历文档,通过getppr().getoutlinelvl()命令获取word文档中所述标题。
基于上述过程遍历word文档内容并提取出word文档中的全部所述标题。
s402、通过所感兴趣点(poi)提取所述目标文档的内容,识别所述目标文档的大纲结构。所述识别所述目标文档的大纲结构是指把已经提出出来的全部所述标题按照的语义逻辑和前后顺序进行有层级、次序地排列,形成大纲结构。
s403、将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
步骤五、遍历所述目标文档全部内容,提取出全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
在本发明的较佳的实施例中,遍历word文档的全部段落内容,基于正则表达式对比识别文档内容标题,按照文档内容的顺序,先后遍历提炼文档标题,整合成新的文档,即为提取的完整的word文档章节目录。
可选地,在其他实施例中,文档目录自动生成程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文档目录自动生成程序在文档目录自动生成装置中的执行过程。
例如,参照图3所示,为本发明文档目录自动生成装置一实施例中的文档目录自动生成程序的程序模块示意图,该实施例中,所述文档目录自动生成程序可以被分割为数据接收及处理模块10、正则表达式配置模块20、模型训练模块30、文档目录输出模块40示例性地:
所述数据接收及处理模块10用于:接收目标文档中的初始标题,并基于所述初始标题确定所述目标文档的标题规则。
所述正则表达式配置模块20用于:基于所述训练后的标题规则,配置正则表达式。
所述模型训练模块30用于:将所述所述初始标题规则输入至预先构建的生成对抗网络模型中训练并得训练后的标题规则。
所述文档目录输出模块40用于:接收用户输入的目标文档,进所述确定所述目标文档的标题规则,训练后标题规则以及配置正则表达式输入至所述文档目录自动生成模型生成文档目录并输出。
上述数据接收及处理模块10、正则表达式配置模块20、模型训练模块30、文档目录输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文档目录自动生成程序,所述文档目录自动生成程序可被一个或多个处理器执行,以实现如下操作:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的标题规则。
将所述初级文章数据集及初级摘要数据集进行词向量化及词向量编码后分别得到训练集及标签集。
将所述所述初始标题规则输入至预先构建的生成对抗网络模型中训练并得训练后的标题规则。
基于所述训练后的标题规则,配置正则表达式。
读取所述目标文档,将所述目标文档中内容与所述正则表达式对比分析,提取出所述标题。
遍历所述目标文档全部内容,提取出全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种文档目录自动生成方法,其特征在于,所述方法包括:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
2.如权利要求1所述的文档目录自动生成方法,其特征在于,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:
建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
3.如权利要求2所述的文档目录自动生成方法,其特征在于,所述生成正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
4.如权利要求3所述的文档目录自动生成方法,其特征在于,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
5.如权利要求1至4中任意一项所述的文档目录自动生成方法,其特征在于:
所述文档目录为可扩展标记语言;
所述目标文档的文件格式为microsoftofficeword。
6.一种文档目录自动生成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文档目录自动生成程序,所述文档目录自动生成程序被所述处理器执行时实现如下步骤:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
7.如权利要求6所述的文档目录自动生成装置,其特征在于,
所述文档目录自动生成方法还包括:构建所述生成对抗网络模型的构建,包括:
建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
8.如权利要求7所述的文档目录自动生成装置,其特征在于,所述配置正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
9.如权利要求8所述的文档目录自动生成装置,其特征在于,所述
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文档目录自动生成程序,所述文档目录自动生成程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的文文档目录自动生成方法的步骤。
技术总结
本发明涉及一种人工智能技术,揭露了一种文档目录自动生成方法,包括:提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得训练后的标题规则;基于训练后的所述标题规则,生成正则表达式;遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。本发明还提出一种文档目录自动生成装置以及一种计算机可读存储介质。本发明可以实现精准高效的文档目录自动生成功能。
技术研发人员:侯丽;佘昊天
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:.10.11
技术公布日:.02.28
如果觉得《文档目录自动生成方法 装置及计算机可读存储介质与流程》对你有帮助,请点赞、收藏,并留下你的观点哦!