您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 中文语料库 >

中文阅读理解语料库构建技术研究

发布时间:2019-07-08 21:24 来源:未知 编辑:admin

  我们参考复旦大学、哈工大等多家单位在问答系统的研究中设计的问句类型,选取以下7类作为中文阅读理解语料库编写问句的依据(如表1),依照以下规定为每一篇文章编写问句:问题的提法主要以理解原文主旨、主题为依据;问旬的语言表达流畅、自然;问句提出后,要标明问题类型;根据问句标号在原文中标明相应的答案句;问句类型标记,如(Q-TIME事件发生在1990年。(/a1)。对于中文阅读理解语料库问题类型统计如表2所示。中文阅读理解语料库的问句测试集分为两大类,即事实问题和描述问题。事实问题是指用户的提问基本上是客观事实,不是个人的主观想法或者意见,其答案类型是命名实体、词或短语,表1中的前五类问题:Q_HUMAN(人物)、Q_LOCATION(地)、Q_ENTITY(实体)、Q_TIME(时间)、Q_NUMBER(数值)都归为事实问题。描述问题则是要求系统给出对一个人、一件事物或组织的简写,或给出意义、方法、原因、定义等简短描述,表1中的Q_DISCRIBE(描述)类问题归为描述问题。关于它们的例子(去掉了句子标号,分词、词性标注标记)可以参看表3。对于每篇带有问题、答案句标记的文本语料,我们分别进行了以下步骤的加工:第一,指称指代关系标注;第二,句子切分;第三,分词、词性标注、命名实体识别;第四,语料库的目标词索引;第五,基于汉语框架语义知识库(CFN)的句法语义标注。受篇幅限制本文仅介绍基于CFN的句法语义标注技术。汉语框架语义知识库(CFN)是一个以Fillmore的框架语义学为理论基础、以伯克利FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义知识库,它包括框架库、句子库和词汇库三部分。CFN框架库的“框架”(Frame)是跟一些激活性语境(Motivating Context)相一致的一个结构化的范畴系统,是储存在人类认知经验中的图式化情境;框架中的各种参与者称为框架元素(Frame Ele-mentsc),它们在使用中与“语义角色”、“格角色”等概念相当。框架语义学认为,框架是词语理解的背景和动因,因此,可以根据背景框架的不同,对词语(主要是动词、形容词和事件名词)进行分类描述。传统的格语法的“格角色”是相对于所有词汇而言的,而框架元素仅适用于具有共同背景框架的一小组词语,摆脱了格语法难以确定的问题,具有个性特征的框架元素更适合用来描述自然语言语义。例如“波动、增加、提高、减少、降低”等汉语词语有共同的意义基础――都表示实体的某种属性从某个值变成另一个值,因此,汉语框架语义知识库(CFN)的框架库中用一个框架“量变”进行描述,该框架涉及的框架元素包括(括号中的字母是标记符号):ent(实体),att(属性),vall(初值),val2(终值),diff(变幅),val_ran(值区间)等等。框架元素分为核心框架元素和非核心框架元素。核心框架元素是一个框架在概念理解上的必有成分,它们在不同的框架中类型和数量不同,显示出框架的个性,以上所列举的框架元素都属于“量变”框架的核心框架元素。非核心框架元素并不显示框架的个性,表达时间、空间、环境条件、原因、目的等外围语义成分。CFN句子库中句子的标注是以框架库为基础,针对一个句子,确定一个目标词元和该目标词元所属框架,给框架元素所在的成分标记框架元素、短语类型和句法功能三种信息。一个框架涉及多个词元,用同一个框架的框架元素集合进行标注;反过来,一个多义词代表多个词元,属于几个不同的框架,即用不同的框架元素进行表示,有了这样的信息,一个应用系统就有可能区分出同一个词形在不同的使用环境中的不同意义。CFN词元库针对每一个词元,记录词元所在义项的具体含义以及该词元的句子标注报告,句子标注报告包括各个框架元素的句法实现情况以及目标词的语义搭配模式,它们是利用软件工具,从标注好的句子中自动汇总出来的。我们利用汉语框架语义知识库的框架库对每一组词元所描述的框架元素,按照汉语框架语义知识库(CFN)的三层标注方法,针对一个句子,给定一个目标词元和该词元所属框架,给框架元素所在的成分标记框架元素名称、短语类型和句法功能三种信息。课题组开发了《人机交互句子句法语义标注软件》,提高了人工标注的工作效率。例如,以动词“降低”、“增加”为目标词元,在中文阅读理解语料库中抽取该词所在的全部句子,利用“量变”框架,标注句子结果举4例如下(去掉了句子标号、分词、词性标注标记):.而,,对进入体内过多的水分,不能调节及排出体外,致血容量急剧增多,容易因急性心力衰竭而死亡。时间等是框架元素标记;np(名词短语)、pp(介词短语)等是短语类型标记;subj(主语)、adva(状语)和obj(宾语)等是句法功能标记。CFN对词语的注释是以词元为单位的,一个词元是一个词与它的一个意义的组合,同一个词在不同的句子中意义不同,对应不同的框架,例如以下两个句子可以说是动词“变成”的两个义项,意义非常相近,以至于许多词典在解释时有所合并,其核心都是“变化”,但各有侧重,分别属于两个框架“使变化”和“经历变化”:.这r种q拟南芥菜n含有v-m种q通常d到v秋季nt才d会vu发挥v作用n、w并d使v。w(使变化)(6).变质v作用n也d能vu形成v矿床n,w如v炭质页岩n或c煤n经过p变质v可以vu成为v石墨n矿n;w。w(经历变化)“使变化”框架涉及的核心框架元素包括(括号中的字母是框架标记符号):(agent)致动者、(cause)致因、(att)属性、(ent)实体、(inie)初范畴、(fine)终范畴、(iniv)初值、(tiny)终值等等。框架的定义为:致动者致使一个实体的所属范畴或属性值发生了变化。所属范畴的变化以初范畴和终范畴表达,属性值的变化以初值和终值来表达。“经历变化”框架涉及的核心框架元素包括(括号中的字母是框架标记符号):(att)属性、(ent)实体、(inie)初范畴、(finc)终范畴、(inlv)初值、(finv)终值、(range)变化范围等等。框架的定义为:一个实体的组成范畴或属性值发生了变化。组成范畴的变化用初范畴和终范畴表示,属性值的变化以初值和终值表示。例(5)中的“变化”存在造成实体变化的框架元素(cause)致因,因而属于框架“使变化”,而例中的“变化”不存在框架元素(agent)致动者或者(cause)致因,因而属于框架“经历变化”。每篇文章的每个句子只针对一个目标词进行标注,如果该句出现两次或两次以上目标词,则当作多个句子进行标注,每个例句仍只标注一个目标词,按该目标词元所属框架,给框架元素所在的成分标记框架元素名称、短语类型和句法功能。例如,以取自生物类第9篇文章第14句(句子编号为sw09014)为例,原句内容为:它们的唾液中含有一种奇特的化学物质,能够防止血液凝固,使其能顺利地吃个饱。句中有三个目标词元“含有”、“吃”、“防止”,按每个目标词元所属框架,给框架元素所在的成分标记框架元素名称、短语类型和句法功能三种信息。标注结果分别如下:支撑词是框架元素标记;np(名词短语)、pp(介词短语)等是短语类型标记;subj(主语)、adva(状语)、obj(宾语)、ext(外部论元)、comp(补语)和等是句法功能标记。阅读理解系统既有直接应用价值又有间接应用价值。例如,外语教学系统,第一语言阅读教学系统,用于出题的试题难度评估,以及指定在小范围的问答系统。更抽象地说,阅读理解系统提供了一个开发NLP、人工阅读理解及二者结合的环境。最后,阅读理解测试为自然语言技术提供了一个很好的评价手段:阅读理解评价是不依赖一定理论体系的、可驾驭的、促进实用的有前景的研究。在选择阅读理解任务的评价方法时,我们主要考虑了以下一些因素:评价自动化实现,不需要人参与;应该和人工评价的基准一致等。评分标准采用国际上通用的MRR(Mean Reciprocal Rank)、准确率(P)、召回率(R)和F-Measure(F)。只是针对不同的问题类型,答案的具体要求和打分标准也有所差异。初步拟定,事实问题采用MRR打分标准。即,每个事实问题,问答系统可以给出按照概率大小排列的三组[问题编号答案句编号]对。系统返回的答案和手工给出的答案相比较,如果第一个答案是对的,那么这个问题就得1分,如果第二个答案是对的,那么这个问题得1/2分,如果第三个答案是对的,那么这个问题得1/3分。如果所有给出的答案都是错误的,那么就得0分。把每个问题所得的分加起来再除以问题的总数就可以得到整个事实问题测试集的MRR。MRR越高,说明该系统的准确率越高。具体参见公式(1)。说明:如果标准答案存在于系统给出的排序结果中的多个位置,以排序最高的位置计算;如果标准答案不在系统给出的排序结果中,本题得0分。对每一个描述问题,评测员会列出一个基本信息和可接受信息的表单。基本信息是指这一问题的答案中不可缺少的描述部分。可接受信息是指可以构成一个正确的答案的,但还不是必需的信息。超出基本信息和可接受信息的部分将在评分体系中给予扣分。用片断召回率(NR)、片断准确率(NP)和F-Measure来评测一个描述提问的得分。具体参见公式(2)~(4)。同样,所有描述问题的NR,NP和F-Measure是单个描述问题NR,NP和F-Measure的算术平均值。本文介绍了一个中文阅读理解语料库(CRCC)的研制技术。我们采集了多种主题的阅读理解问答系统原始数据,设计了问题句,标记了答案句,并开发了辅助工具,进行了分词、词性标注、命名实体识别、语料库的目标词索引等加工处理,尤其是基于汉语框架语义知识库(CFN)对语料进行了句法功能、短语类型和框架元素三个层面的深加工。中文阅读理解语料库为中文阅读理解问答系统的研究提供了高质量的、句法语义深加工的、可共享的语料库,解决了中文阅读理解问答系统研究的资源瓶颈;不仅如此,它也为其他自然语言处理研究提供共享资源,该语料在选材、主题分布上有科学的理论体系作为指导,在语料库加工方面采用了框架语义标注,这属于创新技术,具有重要的研究价值。很显然,目前的中文阅读理解语料库还不成熟,无论是语料库的规模、合理性与否,还是评价标准都有待进一步探索。我们计划下一步工作重点主要是以中文阅读理解语料库为基础,开发基于统计机器学习的中文阅读理解自动问答系统,度量语料的测试结果。将来继续扩大现有类型提问的测试规模、构建更为合理的测试问题集、逐步扩大用户提问的广度和深度,继续测试结果的比较和改善。

  郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

  本站发布此信息目的在于传播更多信息,与本网站立场无关,本站不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。

http://gibsonfabrics.com/zhongwenyuliaoku/234.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有