异常检测-信用卡欺诈分析
成员
- 赵一诺 (3120191078)
- 葛 晶(3120190991)
- 李世林 (3120191017)
- 谢斌辉( 3120191059 )
- 吴楠楠( 3220190895 )
问题描述
1、问题背景及分析
在数据挖掘中,异常检测(也称为离群值检测)是对罕见项目,事件或观察结果的识别,这些事务与大多数数据有显着差异,从而引起怀疑。异常检测是一种用于识别不符合预期行为的异常模式的技术,称为异常值。异常值检测在在商业中有许多应用,例如:入侵检测(识别可能表明黑客入侵的网络流量中的异常模式)、系统健康监控(在MRI扫描中发现恶性肿瘤)以及检测信用卡交易中的欺诈。
信用卡公司能够识别欺诈性的信用卡交易非常重要,这样就不会向客户收取未购买商品的费用。在本项目中,我们将以信用卡欺诈检测为案例研究。采用基于机器学习的方式对数据进行分类建模。 然后,使用该模型来识别新交易是否为欺诈行为。
2、问题描述
2.1 数据准备
用于信用卡欺诈检测的数据集来自Kaggle:Credit Card Fraud Detection
数据集概述
- 该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。此数据集显示了两天内发生的交易,在284,807笔交易中有492起欺诈。数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172%。
- 数据集包含来自28个“主成分分析(PCA)”转换特征的数值,即V1至V28。 此外,由于没有提供的原始特征的元数据,因此无法进行预分析或特征研究。
- 数据集中没有缺失值。
2.2 准备采用的方法或模型
采用SVM,LOF,Isolation Forest三种方法对带标签的数据进行分类建模。
用FP-growth算法对属性V1—V28以及是否发生欺诈进行关联分析,找出所有大于最小支持度的频繁项集,然后由频繁项集产生关联规则。
2.3 预期的挖掘结果
根据三种建模方式预测新的信用卡交易是否发生欺诈,根据得到的关联规则得到发生欺诈与其他属性之间的关系。
项目评估
三种分类建模主要应用精确率、召回率以及F1值进行评估。
关联规则挖掘应用Lift和Jaccard进行评估。
项目分工
- 赵一诺: 数据预处理与可视化
- 吴楠楠:关联挖掘
- 李世林、葛晶:算法设计与实现
- 谢斌辉:结果分析与评估