项目题目

电商产品评论数据的异常检测

成员

孙澈 黄文举 姜玮 程显达

问题描述

1、问题背景分析

异常检测是一个重要的数据挖掘活动,用于发现数据集合中与其他数据不同的对象。现如今电子商务发展迅速,产生了大量的电商产品评论信息,这些信息对消费者选择购买有着重要的导向作用,异常的评论信息,如虚假的好评信息和恶意攻击的差评信息等,对消费者和店家都有不好的影响。因此如何从海量的商品评价信息中挖掘出异常的评论信息是一个值得研究的课题。筛选出异常的评论信息不仅有助于消费者选择合适商品,还使得电商市场变得更加公平合理,这也是我们本次实验的研究意义。

2、问题描述

2.1. 数据准备 从网站上下载Web data: Amazon review数据库,这是一个亚马逊网站评论的数据集,包括各种各样的产品的评论信息,我们选择某些种类的电子产品的评论信息并作相应的预处理。 2.2. 模型建立 选择合适的训练模型,将评论数据映射到低维度空间,使得正常的数据和异常的数据在该空间中分离开,同时使用后续的聚类算法区分异常和正常数据。

项目评估

项目采用深度自编码模型降维,然后采用高斯混合模型聚类正常数据,不属于所有聚类中心的数据属于异常数据,实验流程预计如下: 1.寻找开放数据集并确定评测指标。 2.数据分析和数据预处理。 3.采用深度自编码模型将数据降维,然后采用高斯混合模型聚类。 4.编写实验报告。

项目分工

数据采集及预处理:程显达 模型训练以及数据降维和聚类:孙澈 数据可视化实现:黄文举 结果报告及展示:姜玮