项目进展报告
成员
- 叶超 3220180894
- 王宇 3220180871
- 岳鑫 3220180898
- 刘张敏 3220180832
###项目数据获取及预处理
数据可以从网易财经频道直接下载,选取了深市编号从1到1000的的股票数据,日期是从2017年1月1日到2017年12月31日,其中并不是每一个编号都对应一支真实的股票,实际股票数量略少于1000,但已经能满足数据挖掘的需要。 数据的预处理首先需要对从网易财经获得的深证综值进行清洗,具体包括: (1)填补日期,并对非交易日的数据进行剔除; (2)除去股票中不需要的属性;保留日期、开盘价、最高价、最低价、收盘价、成交量这六个基本变量 (3)将获取的原始数据转换成时间序列数据,用于之后的计算和建模
###实验环境:
python3
本实验所需程序包: numpy,matplotlib,sklearn,scipy等
###股票评价指标:
s_xl 当日涨幅 (当日收盘价一前第ii日收盘价)/前第n日收盘价x 100%
s_x2 2曰涨幅
s_x3 5日涨幅
s_x4 10日涨幅
s_x5 30日涨幅
s_x6 10日涨跌比率ADR 10日内股票上涨天数之和/N日内股票下跌天数之和
s_x7 10日相对强弱指标RSI RSI= ]00xRS/(l+RS). RS = n日的平均上涨点数/n日的平均下跌点数
s_x8 当日K线值 (收盘价-开盘价) / (最高价-最低价)
s_x9 3日K线值 (收盘价一3日前开盘价) / (3日内最高价-3日内最低价)
s_xl0 6日K线值 (收盘价一6日前开盘价)/ (6日内最高价-6日内最低价)
s_xl1 6日乖离率(BIAS) 乖离率=[(当日收盘价一6日平均价)/6日平均价]x 100%
s_xl2 10日乖离率(BIAS) 乖离率=[(当日收盘价-10日平均价)/1〇日平均价]x 100%
s_xl3 9 曰 RSV (n日收盘价-n日最低价)/(n日最高价一n日最低价)x 100%
s_xl4 30 日 RSV
s_xl5 90 日 RSV
s_xl6 当日OBV量比 n 曰 OBV / 5 曰 OBV
s_xl7 5日OBV量比
s_xl8 10日OBV量比
s_xl9 30日OBV量比
s_x20 60日OBV量比
###建立模型
对于采集到的实时数据,利用Sliding Window对数据进行分割,采用LOF和Isolation Forest算法对于分割后的数据进行异常点检测,对于超过或者低于阈值的数据点进行标记。
###待完成工作
目前已完成阈值异常点检测,下一步对于时间序列数据进行趋势异常点检测,对数据进行回归分析,对不符合预测趋势的数据进行警报。