注意: 上方的内容不要删除

对时间序列的异常点识别

成员

  • 叶超 3220180894
  • 王宇 3220180871
  • 岳鑫 3220180898
  • 刘张敏 3220180832

问题描述

1、问题背景分析

异常点识别是数据挖掘中重要的数据分析方法。异常点也被称为离群点,异常点的来源包括航天设备故障信息、金融领域中金融诈骗、银行资产安全中欺诈信息…在数据异常点识别算法中,对于时间序列的异常点检测更为常用和重要,该项目根据股票实时交易数据构建异常点识别模型,用于实时检测股票交易中出现的异常数据。

2、问题描述

2.1 数据准备

(1)数据预处理。包括对股票数据的获得,清洗(剔除非交易日、停牌日的数据),标准化。

(2)处理数据中的缺失值,用众数替代缺失值。

2.2 模型建立 (1) 时间序列构造模块 给定一段时间的数据,时间序列模块会学习这段序列数据的特征,并试图重新构建一个和原序列尽量接近的序列。 (2) 异常点检测模块 新序列和原序列一同送入异常检测模块,基于不同的算法(原则,阈值),异常点会被标记出来。 (3) 可视化模块 将标记后的实时数据进行可视化展示。

2.3 预期的结果

较为准确预测指定时间段内的道异常点。

项目评估

项目最后用MAE和RMSE两种方法,来测量测试样本中的误差

项目分工

  • 叶超:负责数据获取及处理。
  • 岳鑫:负责算法设计与实现。
  • 王宇:可视化、数据分析、文档编写。
  • 刘张敏:负责相关实验与实验结果整理。