异常检测-信用卡欺诈分析

成员

  • 赵一诺 (3120191078)
  • 葛 晶(3120190991)
  • 李世林 (3120191017)
  • 谢斌辉( 3120191059 )
  • 吴楠楠( 3220190895 )

问题描述

1、问题背景及分析

在数据挖掘中,异常检测(也称为离群值检测)是对罕见项目,事件或观察结果的识别,这些事务与大多数数据有显着差异,从而引起怀疑。异常检测是一种用于识别不符合预期行为的异常模式的技术,称为异常值。异常值检测在在商业中有许多应用,例如:入侵检测(识别可能表明黑客入侵的网络流量中的异常模式)、系统健康监控(在MRI扫描中发现恶性肿瘤)以及检测信用卡交易中的欺诈。

信用卡公司能够识别欺诈性的信用卡交易非常重要,这样就不会向客户收取未购买商品的费用。在本项目中,我们将以信用卡欺诈检测为案例研究。采用基于机器学习的方式对数据进行分类建模。 然后,使用该模型来识别新交易是否为欺诈行为。

2、问题描述

2.1 数据准备

用于信用卡欺诈检测的数据集来自Kaggle:Credit Card Fraud Detection

数据集概述

  • 该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。此数据集显示了两天内发生的交易,在284,807笔交易中有492起欺诈。数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172%。
  • 数据集包含来自28个“主成分分析(PCA)”转换特征的数值,即V1至V28。 此外,由于没有提供的原始特征的元数据,因此无法进行预分析或特征研究。
  • 数据集中没有缺失值。

2.2 准备采用的方法或模型

采用SVM,LOF,Isolation Forest三种方法对带标签的数据进行分类建模。

用FP-growth算法对属性V1—V28以及是否发生欺诈进行关联分析,找出所有大于最小支持度的频繁项集,然后由频繁项集产生关联规则。

2.3 预期的挖掘结果

根据三种建模方式预测新的信用卡交易是否发生欺诈,根据得到的关联规则得到发生欺诈与其他属性之间的关系。

项目评估

三种分类建模主要应用精确率、召回率以及F1值进行评估。

关联规则挖掘应用Lift和Jaccard进行评估。

项目分工

  • 赵一诺: 数据预处理与可视化
  • 吴楠楠:关联挖掘
  • 李世林、葛晶:算法设计与实现
  • 谢斌辉:结果分析与评估