基于递归神经网络的隐式篇章关系分析
小组成员
- 许志凤
- 耿瑞莹
- 姜林
问题描述
1、 问题背景分析
篇章关系是自然语言处理中面临的瓶颈问题,正确识别篇章关系对于机器翻译、文本分类等任务具有重大意义,目前显式篇章关系识别已经取得了很好的效果,而传统的基于特征工程的方法在隐式篇章关系识别中效果并不理想。本课题希望建立递归神经网络来表示句子的深层语义,融入句子的结构信息,进而对隐式篇章关系进行分类。递归神经网络是当前比较前沿的机器学习模型,模型结构也比其他同类深度神经网络复杂。
2、 问题描述
(1) 选择数据集:使用附有篇章结构和篇章语义的大型语料库Penn Discourse Treebank 2.0。 (2) 词向量表示:使用embedding layer和Bi-LSTM表示词之间的相似性,并消除词语歧义问题。 (3) 通过树状神经网络获取句法结构并对其组合、分类:模仿Shift-Reduce解析器过程,设置一个堆栈和一个缓冲区,最后将输出传给多层感知机。 (4) 使用数据集训练模型,预测英语中的隐含篇章关系。
目标
经过以上实验证明树状神经网络可以很好地表示篇章语义,并可以被用来预测篇章关系。
项目分工
- 许志凤:负责数据的采集和清洗
- 耿瑞莹:负责训练模型
- 姜林:负责撰写报告