基于TextRank与情感分析的电影多维度评判
成员
- 易鑫(3120191066)
- 刘金田(3220190844)
- 吴嘉豪(3220190894)
- 李祥潮(3220190830)
- 孙玥(3120191046)
问题描述
1、问题背景及分析
1.1 相关的问题引入
微博等网络评论往往能在一定程度上代表了社会公众对于某些突发事件、热点事物的看法与评价,大多数的网络使用者都会倾向于使用微博等社交网络工具表达对于事件、人物、电影等的看法,同时人们也会在浏览微博的同时被微博的相关舆论趋势所引导。鉴于此,微博评论等往往能够对有关公司、相关人员产生极大的影响与作用。如何利用好这些评价结果,分析得到网络上的主流意见,并加以可视化、分析乃至利用是一个更加值得关注的问题。
1.2 相关的领域知识
为了解决类似的评论处理任务,衍生出了文本情感分析这样的自然语言处理技术。简单而言该技术实际上是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。在这样的基础上潜在的目标对象就可以通过浏览这些总结分析来了解大众舆论对于某一事件或产品的看法。
1.3 问题的初步剖析
本项目旨在对微博、豆瓣、新闻等相关文本资源进行收集、分类、统计、分析与可视化,并针对去年过年时期的《流浪地球》进行相关评论的情感分析,这部电影在去年的大众网评曾经出现过较大的波动与两极分化,故此希望通过相关数据挖掘技术与情感分析算法找出大众的对该片的情感意见。
项目拟通过爬虫等方法对网络上该电影的相关文本评论加以收集,拟采用词频统计、TextRank算法实现关键词等词向量的表示,拟采用TextRank算法对爬取的新闻进行重要性排序从而得到电影从上映前、放映时到上映后的事件脉络,拟使用LSTM等深度学习算法完成对文本评论的情感判断,并使用词频直方图、词云等可视化方法展示该项目得到的相关结论,针对高频词汇,尝试使用Apriori算法或者FD-tree对其进行频繁模式挖掘和关联规则分析。
2、问题描述
2.1 数据准备
本项目拟使用爬虫的数据挖掘手段对有关《流浪地球》的相关文本评论进行收集,预计使用包括python中的爬虫库以及相关的数据库,分别对豆瓣电影短评、新闻与微博相关电影评论进行爬取。并且对爬虫得到的相关数据进行预处理、过滤无意义评论和刷评评论等数据处理操作。
2.2 准备采用的方法或模型
预计使用的算法包括使用网络爬虫进行数据的收集;使用中文文本分词相关技术与TextRank相关方法完成词频分析与关键词统计;基于TextRank算法对爬取的新闻进行重要性排序,得到电影从放映前到放映后的事件脉络;拟使用LSTM等深度学习模型完成文本评论的情感分析;拟使用Apriori算法或者FD-tree对高频词汇进行频繁模式挖掘和关联规则分析;拟使用词云等手段完成该项目的可视化与结果阐释部分。
2.3 预期的挖掘结果
预计得到相关的《流浪地球》相关影视评价、新闻报道的词频分布、关键词与重要性排序、高频词相关性度量等相关指标,同时通过LSTM情感分类与相关可视化技术,结合结果分析得到对电影的大众评价分布与情感分析结果。
项目评估
项目爬取电影相关文本评论和新闻,基于TextRank算法提取评论关键词、提取有代表性的新闻进行分析展示,并针对爬取的文本进行基于深度学习算法的情感分析。如若处理得当:
- 可以够得到一个较为完整的关于电影上映前后的事件脉络。
- 能够通过词云等得到大众对该电影的总体评价。
- 能够得到不同性别观众、不同平台用户对该电影的情感对比结果。
- 情感分析模型可从准确率、loss值等指标进行评估。
项目分工
- 吴嘉豪(3220190894) :项目设计、算法实现
- 刘金田(3220190844) :数据处理、算法实现
- 易鑫(3120191066):数据处理、结果分析
- 孙玥(3120191046):数据获取、文档编写
- 李祥潮(3220190830):可视化、文档编写