域名服务器信息挖掘
成员
- 王恒怿
- 郑越
- 苏思悦
1.问题概述:
主要对收集到的七天的DNS会话集进行预处理,实现了频繁域名路径解析和域名服务器流量预测。在域名路径解析过程中,我们使用java编程实现了Apriori算法。在服务器流量预测过程中,我们实现了论文中[2]提出的算法,使用Apriori算法查找频繁段,并在此基础上,创新使用了后缀数组算法处理数据,很大的提升了算法的速度。查找到的频繁段用于聚类域名服务器,方便服务器的部署优化,并可预测流量攻击。
2.基于Apriori的频繁连续时间片段选择算法
本算法的实现步骤如下,已实现部分有具体的实现细节描述:
(1)数据清理。
(2)找出每天频繁访问的域名。
(3)七天的频繁域名信息集成。
(4)统计各频繁域名的单位时间访问流量。
(5)挖掘各频繁域名的频繁项集。
(6)频繁序列筛选。
3.基于Apriori的频繁域名解析路径分析算法
本算法的实现步骤:
(1)数据清理。
(2)数据处理。
(3)频繁项集的获取。
4.组内分工
(1)王恒怿:负责组内任务分配,数据处理和数据分析工作
(2)郑越:负责基于Apriori的频繁连续时间片段选择算法研究和实现
(3)苏思悦:基于Apriori的频繁域名解析路径分析算法研究和实现