项目题目
隐式篇章关系分析
成员
程伟 2120160984
问题描述
1、问题背景分析
篇章关系是自然语言处理中面临的瓶颈问题,正确识别篇章关系对于机器翻译、文本分类等任务具有重大意义,目前显式篇章关系识别已经取得了很好的效果,而传统的基于特征工程的方法在隐式篇章关系识别中效果并不理想。本课题希望建立神经网络来表示句子的深层语义,融入额外的世界知识,进而对隐式篇章关系进行分类。神经网络是当前比较前沿的机器学习模型,模型结构也比传统机器学习模型复杂。
2、问题描述
2.1. 数据准备 数据集:使用附有篇章结构和篇章语义的大型语料库Penn Discourse Treebank 2.0,下载相应数据集并做好预处理。
2.2. 模型建立 利用babelnet中的词语之间的关系来建立argument1和argument2的联系,构建循环神经网络模型表示句义,并融合babelnet中的知识。总的来说这属于一个分类模型,最终模型会对句子的篇章关系做分类。
项目评估
篇章关系粗分有4类,最终的评价标准就是多分类以及多个二分类的准确率和F1值。本项目因为考虑到了额外的世界知识,这对篇章关系分析至关重要,最终的结果也将优于缺乏世界知识的模型。
项目分工
程伟 – 所有工作