注意: 上方的内容不要删除
对时间序列的异常点识别
成员
- 叶超 3220180894
- 王宇 3220180871
- 岳鑫 3220180898
- 刘张敏 3220180832
问题描述
1、问题背景分析
异常点识别是数据挖掘中重要的数据分析方法。异常点也被称为离群点,异常点的来源包括航天设备故障信息、金融领域中金融诈骗、银行资产安全中欺诈信息…在数据异常点识别算法中,对于时间序列的异常点检测更为常用和重要,该项目根据股票实时交易数据构建异常点识别模型,用于实时检测股票交易中出现的异常数据。
2、问题描述
2.1 数据准备
(1)数据预处理。包括对股票数据的获得,清洗(剔除非交易日、停牌日的数据),标准化。
(2)处理数据中的缺失值,用众数替代缺失值。
2.2 模型建立 (1) 时间序列构造模块 给定一段时间的数据,时间序列模块会学习这段序列数据的特征,并试图重新构建一个和原序列尽量接近的序列。 (2) 异常点检测模块 新序列和原序列一同送入异常检测模块,基于不同的算法(原则,阈值),异常点会被标记出来。 (3) 可视化模块 将标记后的实时数据进行可视化展示。
2.3 预期的结果
较为准确预测指定时间段内的道异常点。
项目评估
项目最后用MAE和RMSE两种方法,来测量测试样本中的误差
项目分工
- 叶超:负责数据获取及处理。
- 岳鑫:负责算法设计与实现。
- 王宇:可视化、数据分析、文档编写。
- 刘张敏:负责相关实验与实验结果整理。