域名服务器信息挖掘

成员

  • 王恒怿
  • 郑越
  • 苏思悦

1.问题概述:

主要对收集到的七天的DNS会话集进行预处理,实现了频繁域名路径解析和域名服务器流量预测。在域名路径解析过程中,我们使用java编程实现了Apriori算法。在服务器流量预测过程中,我们实现了论文中[2]提出的算法,使用Apriori算法查找频繁段,并在此基础上,创新使用了后缀数组算法处理数据,很大的提升了算法的速度。查找到的频繁段用于聚类域名服务器,方便服务器的部署优化,并可预测流量攻击。

2.基于Apriori的频繁连续时间片段选择算法

本算法的实现步骤如下,已实现部分有具体的实现细节描述:

(1)数据清理。

(2)找出每天频繁访问的域名。

(3)七天的频繁域名信息集成。

(4)统计各频繁域名的单位时间访问流量。

(5)挖掘各频繁域名的频繁项集。

(6)频繁序列筛选。

3.基于Apriori的频繁域名解析路径分析算法

本算法的实现步骤:

(1)数据清理。

(2)数据处理。

(3)频繁项集的获取。

4.组内分工

(1)王恒怿:负责组内任务分配,数据处理和数据分析工作

(2)郑越:负责基于Apriori的频繁连续时间片段选择算法研究和实现

(3)苏思悦:基于Apriori的频繁域名解析路径分析算法研究和实现