隐式篇章关系分析

小组成员:程伟 2120160984

1.摘要 篇章分析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子、从句或段落)间的语义关系。它是一种续词、句子之后的文本分析粒度,需要对文本单元的上下文进行全局分析。识别隐式篇章关系是篇章分析领域中非常有挑战的一个任务。传统的方法注重篇章中的概念和意义特征,导致系统的性能不高,本次任务建立神经网络来表示句子的深层语义,融入额外的世界知识,进而对隐式篇章关系进行分类。

2.背景 篇章分析旨在确定文本的内在结构,篇章语义关系识别是篇章分析的重要组成部分,它对自然语言处理的其他任务(如信息抽取,自动摘要以及统计 机器翻译等)起着重要的作用,近年来已逐渐成为研究的热点之一。篇章语义关系包含两类:显式篇章关系,即文本单元间存在显式的篇章连接词(如because,but,so等等);隐式篇章关系,即文本单元间没有显式的连接词,它们间的逻辑语义关系可根据上下文推理出来。已有的相关研究表明,由于篇章连接词在表达的逻辑语义上极少有歧义,相对于隐式篇章关系的识别,显式篇章关系的识别要容易的多,性能也更好。例如,在PDTB体系下,仅使用连接词及其前后一个词作为特征,英文显式篇章关系识别在顶层的四大类上就取得96%的F1值。另一方面,没有了连接词的指引,隐式篇章关系识别任务要困难得多。考虑词法、句法、语义、依存,以及其他大量上下文统计信息,PDTB体系下,顶层四大类隐式关系识别的性能仍然低于50%。但PDTB语料的统计表明,英文中隐式篇章关系约占篇章关系的40%。显然,隐式篇章关系识别的性能已成为篇章关系识别,以及整个篇章分析的瓶颈。 而篇章关系也是自然语言处理中面临的瓶颈问题,正确识别篇章关系对于机器翻译、文本分类等任务具有重大意义,目前显式篇章关系识别已经取得了很好的效果,而传统的基于特征工程的方法在隐式篇章关系识别中效果并不理想。本课题希望建立神经网络来表示句子的深层语义,融入额外的世界知识,进而对隐式篇章关系进行分类。神经网络是当前比较前沿的机器学习模型,模型结构也比传统机器学习模型复杂。

3.PDTB数据集 近年来,篇章理论的发展以及大规模篇章语料的构建,使得篇章级的分析应用越来越受到研究者的关注。2008年发布的最新版的宾州篇章树库(the PennDiscourse Treebank,PDTB)是一个在D-LTAG框架下标注的篇章级语料库。它以词法为基础,标注了谓词论元形式的篇章结构。该语料库同时还和宾州树库(the PennTreebank, PTB)进行了对齐,研究者可以很方便的从词法、句法、语 义等多个视角分析篇章。PDTB语料库标注了显式和隐式两类关系。其中显式关系由连接词触发,驱动两个论元Arg1和Arg2,形成的关系都具有明确的语义类别。 此外,PDTB体系还提供了三层篇章语义关系的分类体系,表1给出了前两层的语义关系。本文侧重第一层四大类语义关系的研究。第二层包含16种语义关系,但类别太细,使得数据稀疏和分布不均衡问题更加严重。此外,顶层的四大类语义信息已经能很好的满足大多数其他应用的需求。

4.模型与方法 4.1 数据获取及预处理 PDTB数据集共包含24个文件夹,2074个文件。因为数据量比较大,人工整理比较困难,便使用程序自动化抽取数据生成样本。 其中每个文件部分结构如下图所示,包含显式隐式关系类别,论元外文本Text,特征Features,篇章关系Relation,论元1 Arg1,论元2 Arg2,论元文本Text,以及词语在原文中的位置index。 这里我们需要的信息主要是,显式或隐式类别,篇章关系,以及Arg1和Arg2文本。抽取出原数据集中的相关信息生成模型训练测试所需的样本。 源数据中存在一个例句包含多种篇章关系的情形,这时需要用该例句为每一个对应的关系生成一个相同Text内容的样本。 自动抽取之后,其中包含隐式篇章关系的样本共有16224个。在隐式篇章关系中,Expansion篇章关系的样本有8728个,Contingency篇章关系的样本有4193个,Comparison篇章关系的样本有2448个,Temporal篇章关系的样本有855个。 本组采用的方案是用多个二分类器联合完成此次的多分类任务,例如本次实验一共训练了4个分类器,各个分类器的任务分别是识别Expansion关系和非Expansion关系,识别Contingency关系和非Contingency关系,识别Comparison关系和非Comparison关系,以及识别Temporal关系和非Temporal关系。 由于不同类别的样本数量差距很大,这会导致分类器效果不佳,所以需要做类别平衡相关的工作。即让每个二分类器训练样本中的正样本和负样本数量一致,以避免不平衡的训练样本给模型训练过程带来负面效果。 这里主要采用的是降采样方案。最后各个二分类器训练样本和测试样本数量如下表所示。 关系类别 训练集 测试集 正样本 负样本 正样本 负样本 Expansion 7050 7050 504 446 Contingency 3950 3950 243 807 Comparison 2300 2300 148 872 Temporal 770 700 85 7005 4.2模型选择 本次任务中我们采用了单层双向LSTM来构建模型。LSTM(Long Short Term)网络,是一种RNN特殊的类型,可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber (1997)提出,并在近期被Alex Graves进行了改良和推广。在很多问题,LSTM 都取得相当巨大的成功,并得到了广泛的使用。 LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为,而非需要付出很大代价才能获得的能力。所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中,这个重复的模块只有一个非常简单的结构,例如一个 tanh 层。 其网络结构即计算公式如下所示:

双向LSTM即将两个方向的LSTM加以结合结合,分别对应句子从左到右的方向和从右到左的方向。这样做的意义在于使得LSTM的每个step既能包含上文信息,也能包含下文信息。双向LSTM结构图如下所示。
双向LSTM是对每个论元(Arg1和Arg2)分别建模,用来表示各个论元的文本信息。然后构建两层全连接网络,将双向LSTM的两个论元表示向量加以拼接作为后续MLP网络的输入。对最后一层神经网络加以softmax归一化,使其赋予概率含义,并以此得到最终的篇章关系预测结果。

5.实验结果 最终对各个类别的二分预测结果如下表所示: Relation Expansion Contingency Comparison Temporal F1 69.47 54.30 35.82 31.01

其中,Expansion篇章关系分类效果最佳,Temporal篇章关系分类效果最差。各个类别的预测结果与其样本数量成正相关,这也说明了神经网络在小样本数据上建模,其性能对样本数量很敏感。
总的来说,双向LSTM模型能较好得表示论元信息。而多层感知机理论上虽然能模拟任意函数,但是因为参数较多,当训练数据较少时容易造成模型过拟合。这就使得最终的预测效果变差,如上表中的Comparison篇章关系和Temporal篇章关系的分类模型。
今后,可以尝试融合更多的外界知识来加强模型对篇章关系的预测能力。这对只有小样本数据的模型来说尤为重要。样本不够,知识来凑。知识不止作为一种先验,更是一种约束,这种约束使得模型在有限的约束空间下求解,这比在其参数空间下的任意空间中求解更有效。