项目进展报告

数据获取及预处理

描述项目中使用的数据来源，数据的规模等情况数据是否需要预处理

数据来自于PDTB2.0(Penn Discourse Treebank)数据集，该数据是华尔街日报新闻标注后的文本语料。其中包含2163个文本文件，共计26MB大小。涉及到18459个显式关系样本和16053个隐式关系样本，624个显隐式兼具的关系样本，5210个实体关系样本，254个没有关系的样本。 624 Alternative Lexicalizations 5210 Entity Relations 254 No Relations 原数据是按新闻语句划分成各个文件的，所以需要将该数据集中需要的信息抽取并汇总到一个文件中。主要是将其中的论元1、论元2，以及篇章关系信息抽取出来。在实际情况中，有一些错误数据是无法解析的，需要去除这部分样本。另外，对于包含多个关系的样本需要将其拆分成多个单个关系的样本。

数据分析与可视化

描述对数据进行探索性分析的结果，采用可视化的技术呈现

原数据是文本数据，每个句子的长度都不一致。其中，对于论元1句子平均长度是12.8个词，其众数是14个词；对于论元2句子平均长度是13.2个词，其众数是15个词。论元1的取值共有177种可能，而论元2的取值共有388种可能，后者远超过前者。将每个句子的论元1和论元2的这些特征信息作为X属性，将其篇章关系作为Y属性，利用PCA降维，绘制三维散点图。将每个句子的句子向量作为X属性，将其篇章关系作为Y属性，利用PCA降维，绘制三维散点图。上述两种散点图难以将样本分隔开，各类数据混杂在一起。

模型选取

选择了哪些数据挖掘方法对数据进行分析与挖掘，及选择的理由

使用LSTM神经网络模型来处理该分类问题。原任务是个4分类问题，由于各个类别的比例很不平衡，导致多分类的效果比较差。故而采用多个二分类来模拟多分类，其中每个二分类都使用平衡样本来训练(即正负样本数据量一致)。具体模型描述如下：首先利用预先训练好的词向量来构建每个论元的表示向量，这里主要采用双向单层的LSTM模型来产生每个论元的表示。然后将论元1和论元2的表示拼接产生新的向量，最后通过两层全连接神经网络来预测最终的类别。选用多个二分类来模拟多分类的好处如前面所言，能应对样本不平衡的问题，能提高模型预测的精度。选用BiLSTM来生成论元表示的原因在于该模型能很好存储记忆序列信息，而句子正是一种基于序列表示的信息。

挖掘实验的结果

进行数据挖掘后得到的结果

该模型对各个二分类准确率都达到0.6以上，F1值则区别较大。其中样本数量较多的类别F1值较高，而样本数量较少的类别F1值偏低。总的来说，因为数据样本较少，对于神经网络模型而言大数据是保障准确率的一个重要因素。

存在的问题

到目前为止，遇到哪些问题，及解决方法或思路

如上述所言，数据样本较少导致准确度不高。可以自己额外在网络上爬取一些显式关系的数据，将其加入模型来训练。另外，可以考虑加入世界知识，这对于篇章分析任务而言很重要。因为人在分析篇章关系的时候主要就是利用了很多额外的世界知识，从而能精准判别。借鉴人的思考方式，将知识融入模型应该也能提升精度。

下一步工作

准备如何完成后续的工作

针对上述两个问题加以完善：1、额外扩充训练样本；2、融入世界知识