大众点评用户评论大数据分析
题目确定时间:2015.6.1
成员
- 龚静 2120141006
- 陈凤娇 212014
数据集
大众点评用户评论网页 100万个
处理步骤
整个文本数据研究分析主要分如下几个步骤:
- 用数据爬虫从网站上面抓取用户评论的网页。
- 文本预处理,对文本数据进行去重和过滤掉那些没有实际意义的评论和词。
- 分词,使用中科院发布的分词系统ICTCLAS,产品的属性或特征一般是名词或者名词短语,在评论数据中,大部分是一些复杂的长短句。
- 抽取产品特征词和评分词,找出所有文本评论中的高频名词和名词短语( 特征) ; 并将评分词量化,赋予评分。
- 用相似性匹配法,将上面找出的名词和名词短语归类入评价体系中,并用递推的 方法统计各层级的权重。
- 根据模糊综合评价法,得出每个特征层面的评分高低、出现次数和权重,计算出一级维度的评分高低和总出现次数,再由三级构念的信息推算出二级构念,由二级构念的相关信息推算出一级构念,最后得出总体的评价结果。
目标
找出各个指标所占的比例。找出对用户影响较大的因素。
- 分析用户评价的时间、数量、分值1-5分 直接的关系,所占比重。
- 分析一家店中各个品牌的
- 分析 几人就餐的比较多
- 分析下单时间的分布
- 分析用餐时间的分布
- 分析 用户青睐的口味
- 分析用户喜欢的菜系分布
- 分析用户喜欢的特色饮食的分布
项目分工:
- 龚静: 负责数据预处理及分析结果
- 陈凤娇: 负责算法设计及实验部分