基于深度模型的影评情感分析

一、小组成员

  • 赵冬迪 2120161081
  • 夏光敏 2120161064
  • 解亚东 2120161004
  • 杨雅婷 2120161070

二、 内容与意义

随着网络上评论信息爆炸式的增长,以人工的方法很难应对海量评论信息的收集和处理,情感分析技术随之产生。本课题以电影影评为例,拟采用深度学习的方法对电影评论进行情感分析。

一个电影评论网站允许用户提交关于他们针对某部电影的带有感情色彩的主观评论。充分挖掘这些评论继而生成有价值的元数据,可以让我们以一个宏观的角度来理解观众对于这部电影的情感,我们可以对主观内容做出一个客观的分析,使我们能更好的理解产品和服务的趋势,为观众和其他电影参与方提供更好的决策建议。相比较于单纯的评分,基于影评内容的分析更能体现一个人的主观情绪。

通过训练得到的影评情感分析模型,可以对微博、Twitter等社交媒体中包含的影评内容进行分析,从而理解不同类型用户对于电影的真实情感。

三、目标与功能

我们的目标是利用深度模型进行影评情感分析,训练出来的情感评估模型可以用作以下用途:

  • 用户电影推荐
  • 影院电影排片推荐
  • 演员导演的能力评估
  • 电影种类受欢迎程度评估

三、 数据集

利用爬虫程序从豆瓣等影评网站爬取数据,并从中抽取用户名、评分、影评等内容。训练情感分类模型,并基于这些内容挖掘相关知识。

目前已经按照电影类别从豆瓣上爬取了近20万条影评作为模型的训练与测试集,主要涵盖了科幻、爱情、动画、文艺、战争、恐怖六大类,数据的清洗已经完成,将标签不明显、不完整的数据删除。

四、 原理与算法

拟采用基于LSTM神经网络训练情感分析模型。使用结巴分词工具对影评语料进行分词,很多词语的意思是向多个方向发散开的,因此将词语对应位一个多维向量,采用开源工具Word2Vec,用高维向量表示词语,使具有相近意思的词语处于相近的位置。将词语转换为高维向量后,句子就对应着词向量的集合,也就是矩阵。采用循环神经网络,将矩阵形式的输入编码为较低维度的一维向量,而保留大多数的有用信息。

根据搭建好的影评情感分析模型对正在上映的电影影评或历史影评数据进行分析,可以对特定电影的未来观影趋势进行分析,或对历史数据中蕴藏的知识和规律进行挖掘。

五、项目分工

  • 夏光敏: 负责数据的收集与清洗
  • 赵冬迪: 负责训练模型
  • 解亚东、杨雅婷:负责具体数据挖掘应用的实现与分析