基于增强语义关系表示的深度同义句识别

成员

刘啸 2120161017
盛伟 2120161036

问题描述

1、问题背景分析

同义句识别时用来判断两个任意长度的文本是否具有相同的意义。同义句识别在自然语言处理中有很多应用，其被广泛用于处理网络上的重复信息，它也被用于文本中重叠的语法成分。除此之外，它还被用于语义消岐、自动文摘、自动辞典抽取、问答生成、机器翻译和相似关系识别等。判断两段文本是否同义，可以从词义表示、句义表示、句法结构等不同层面进行语义分析和相似度计算。本课题将使用深度学习的方法，从加强语义关系表示的角度，深入研究同义句识别的方法，为下游任务提供更好的结果。

2、问题描述：

寻找开放数据集确定评测指标。
文本预处理。包括对文本进行分词、去停用词、清洗乱码等，获得较为规则的数据集。
进行基线实验。使用word2vec词向量的平均值、开放预训练模型的句子向量工具skip thoughts和DSSM获得句子向量，再使用余弦相似度评估是否为同义句。
通过模型架构简单的深度学习的方法获得更能表现语义的句子向量，并在此之上使用不同分类方法进行训练。

目标

经过以上步骤，通过同义句识别这个任务，基本得到了能表现语义的句子向量，为下游任务提供更好的结果。

项目分工

盛伟：环境搭建、数据预处理、方法研讨
刘啸：编码实现、文档整理、方法研讨