异常检测-信用卡欺诈分析

成员

赵一诺（3120191078）
葛晶（3120190991）
李世林（3120191017）
谢斌辉（ 3120191059 ）
吴楠楠（ 3220190895 ）

问题描述

1、问题背景及分析

在数据挖掘中，异常检测（也称为离群值检测）是对罕见项目，事件或观察结果的识别，这些事务与大多数数据有显着差异，从而引起怀疑。异常检测是一种用于识别不符合预期行为的异常模式的技术，称为异常值。异常值检测在在商业中有许多应用，例如:入侵检测（识别可能表明黑客入侵的网络流量中的异常模式）、系统健康监控（在MRI扫描中发现恶性肿瘤）以及检测信用卡交易中的欺诈。

信用卡公司能够识别欺诈性的信用卡交易非常重要，这样就不会向客户收取未购买商品的费用。在本项目中，我们将以信用卡欺诈检测为案例研究。采用基于机器学习的方式对数据进行分类建模。然后，使用该模型来识别新交易是否为欺诈行为。

2、问题描述

2.1 数据准备

用于信用卡欺诈检测的数据集来自Kaggle：Credit Card Fraud Detection

数据集概述

该数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。此数据集显示了两天内发生的交易，在284,807笔交易中有492起欺诈。数据集高度不平衡，阳性类别（欺诈）占所有交易的0.172％。
数据集包含来自28个“主成分分析（PCA）”转换特征的数值，即V1至V28。此外，由于没有提供的原始特征的元数据，因此无法进行预分析或特征研究。
数据集中没有缺失值。

2.2 准备采用的方法或模型

采用SVM，LOF，Isolation Forest三种方法对带标签的数据进行分类建模。

用FP-growth算法对属性V1—V28以及是否发生欺诈进行关联分析，找出所有大于最小支持度的频繁项集，然后由频繁项集产生关联规则。

2.3 预期的挖掘结果

根据三种建模方式预测新的信用卡交易是否发生欺诈，根据得到的关联规则得到发生欺诈与其他属性之间的关系。

项目评估

三种分类建模主要应用精确率、召回率以及F1值进行评估。

关联规则挖掘应用Lift和Jaccard进行评估。

项目分工

赵一诺：数据预处理与可视化
吴楠楠：关联挖掘
李世林、葛晶：算法设计与实现
谢斌辉：结果分析与评估