大众点评用户评论大数据分析

题目确定时间:2015.6.1

成员

  • 龚静 2120141006
  • 陈凤娇 212014

数据集

大众点评用户评论网页 100万个

处理步骤

整个文本数据研究分析主要分如下几个步骤:

  1. 用数据爬虫从网站上面抓取用户评论的网页。
  2. 文本预处理,对文本数据进行去重和过滤掉那些没有实际意义的评论和词。
  3. 分词,使用中科院发布的分词系统ICTCLAS,产品的属性或特征一般是名词或者名词短语,在评论数据中,大部分是一些复杂的长短句。
  4. 抽取产品特征词和评分词,找出所有文本评论中的高频名词和名词短语( 特征) ; 并将评分词量化,赋予评分。
  5. 用相似性匹配法,将上面找出的名词和名词短语归类入评价体系中,并用递推的 方法统计各层级的权重。
  6. 根据模糊综合评价法,得出每个特征层面的评分高低、出现次数和权重,计算出一级维度的评分高低和总出现次数,再由三级构念的信息推算出二级构念,由二级构念的相关信息推算出一级构念,最后得出总体的评价结果。

目标

找出各个指标所占的比例。找出对用户影响较大的因素。

  • 分析用户评价的时间、数量、分值1-5分 直接的关系,所占比重。
  • 分析一家店中各个品牌的
  • 分析 几人就餐的比较多
  • 分析下单时间的分布
  • 分析用餐时间的分布
  • 分析 用户青睐的口味
  • 分析用户喜欢的菜系分布
  • 分析用户喜欢的特色饮食的分布

项目分工:

  • 龚静: 负责数据预处理及分析结果
  • 陈凤娇: 负责算法设计及实验部分