项目进展报告

成员

  • 叶超 3220180894
  • 王宇 3220180871
  • 岳鑫 3220180898
  • 刘张敏 3220180832

###项目数据获取及预处理

数据可以从网易财经频道直接下载,选取了深市编号从1到1000的的股票数据,日期是从2017年1月1日到2017年12月31日,其中并不是每一个编号都对应一支真实的股票,实际股票数量略少于1000,但已经能满足数据挖掘的需要。 数据的预处理首先需要对从网易财经获得的深证综值进行清洗,具体包括: (1)填补日期,并对非交易日的数据进行剔除; (2)除去股票中不需要的属性;保留日期、开盘价、最高价、最低价、收盘价、成交量这六个基本变量 (3)将获取的原始数据转换成时间序列数据,用于之后的计算和建模

###实验环境:

python3

本实验所需程序包: numpy,matplotlib,sklearn,scipy等

###股票评价指标: s_xl 当日涨幅 (当日收盘价一前第ii日收盘价)/前第n日收盘价x 100% s_x2 2曰涨幅
s_x3 5日涨幅
s_x4 10日涨幅 s_x5 30日涨幅
s_x6 10日涨跌比率ADR 10日内股票上涨天数之和/N日内股票下跌天数之和 s_x7 10日相对强弱指标RSI RSI= ]00xRS/(l+RS). RS = n日的平均上涨点数/n日的平均下跌点数 s_x8 当日K线值 (收盘价-开盘价) / (最高价-最低价) s_x9 3日K线值 (收盘价一3日前开盘价) / (3日内最高价-3日内最低价) s_xl0 6日K线值 (收盘价一6日前开盘价)/ (6日内最高价-6日内最低价) s_xl1 6日乖离率(BIAS) 乖离率=[(当日收盘价一6日平均价)/6日平均价]x 100% s_xl2 10日乖离率(BIAS) 乖离率=[(当日收盘价-10日平均价)/1〇日平均价]x 100% s_xl3 9 曰 RSV (n日收盘价-n日最低价)/(n日最高价一n日最低价)x 100% s_xl4 30 日 RSV
s_xl5 90 日 RSV
s_xl6 当日OBV量比 n 曰 OBV / 5 曰 OBV s_xl7 5日OBV量比 s_xl8 10日OBV量比
s_xl9 30日OBV量比
s_x20 60日OBV量比

###建立模型

对于采集到的实时数据,利用Sliding Window对数据进行分割,采用LOF和Isolation Forest算法对于分割后的数据进行异常点检测,对于超过或者低于阈值的数据点进行标记。

###待完成工作

目前已完成阈值异常点检测,下一步对于时间序列数据进行趋势异常点检测,对数据进行回归分析,对不符合预测趋势的数据进行警报。