基于增强语义关系表示的深度同义句识别

成员

  • 刘啸 2120161017
  • 盛伟 2120161036

问题描述

1、问题背景分析

同义句识别时用来判断两个任意长度的文本是否具有相同的意义。同义句识别在自然语言处理中有很多应用,其被广泛用于处理网络上的重复信息,它也被用于文本中重叠的语法成分。除此之外,它还被用于语义消岐、自动文摘、自动辞典抽取、问答生成、机器翻译和相似关系识别等。判断两段文本是否同义,可以从词义表示、句义表示、句法结构等不同层面进行语义分析和相似度计算。本课题将使用深度学习的方法,从加强语义关系表示的角度,深入研究同义句识别的方法,为下游任务提供更好的结果。

2、问题描述:

  1. 寻找开放数据集确定评测指标。
  2. 文本预处理。包括对文本进行分词、去停用词、清洗乱码等,获得较为规则的数据集。
  3. 进行基线实验。使用word2vec词向量的平均值、开放预训练模型的句子向量工具skip thoughtsDSSM获得句子向量,再使用余弦相似度评估是否为同义句。
  4. 通过模型架构简单的深度学习的方法获得更能表现语义的句子向量,并在此之上使用不同分类方法进行训练。

目标

经过以上步骤,通过同义句识别这个任务,基本得到了能表现语义的句子向量,为下游任务提供更好的结果。

项目分工

  • 盛伟:环境搭建、数据预处理、方法研讨

  • 刘啸:编码实现、文档整理、方法研讨