尽管研究人员提出了多种检测方法,但恶意URL会采用多种逃避检测的方法,如用代码混淆来逃避静态点。分析中的特征提取使基于静态特征的方法失效;利用客户端环境检测识别用户客户端类型,避免基于行为的动态实施检测;并利用页面重定向跳转逐渐将用户引导到真正的恶意网站,从而避免静态特征提取。这些逃避方法给恶意URL的检测带来了挑战。针对以上问题,本文从三个方面对恶意URL的检测特性进行了扩展,补充了重定向跳跃、客户端环境检测等特性,并结合不同特性提出了恶意URL检测方法。主要内容如下:
(1)在特征选择方面,整合了页面内容、JavaScript函数参数和Web会话流程的25个特征,提出了恶意URL检测方法——HADMW,包括重定向跳转、客户端检测和HTML5新标签。
从JavaScript函数的参数长度和参数内容中提取的函数参数特征,以及从会话过程中的协议、响应码和响应资源类型中提取的Web会话过程特征;
(2)通过HpHosts和Zeustracker等公开网站收集了1万多个恶意URL数据集,并输入了提出的检测方法。
测试结果表明,HADMW组合方法相比,HADMW好的准确性和召回率,分别达到96.2%和94.6%,表明特征集成有效提高了分类器的准确性;
(3)将HADMW与现有开源项目和免费版本的安全软件进行对比测试,结果表明:与现有检测人员相比。
HADMW取得了更好的检测效果。本文第一节介绍了相关工作。第二节详细介绍了选择的特点和原因。第三节介绍了本文检测方法的基本思想。
目前,国内外安全制造商和研究人员对恶意URL的检测方法进行了各种研究,并提出了各种检测方法。
包括基于黑名单过滤和签名匹配的方法,以及基于特征的检测方法。基于黑名单过滤是一种常见的方法,通过维护黑名单列表来检测恶意URL。著名的谷歌SafeBrowsing是谷歌公司基于这种方法提供的工具,用于保护浏览器用户的安全。基于签名匹配的方法通过匹配页面源代码和签名来检测恶意URL。由于页面中的恶意代码变化非常快,因此基于签名匹配的方法很难全面检测恶意URL。基于特征的检测方法根据安全专家的相关经验和知识选择不同类型的特征。
基于静态页面特征的方法是从页面源代码中选择特征,基于启发式规则和机器学习进行分类检测。
常见的页面特征包括隐藏标签的数量、字符串的最大长度和页面中URL的数量。提出从页面中。
HTML、JavaScript和URL分别选择特征进行检测。文献提出根据长字符串和编码函数的数量,结合机器学习算法进行分类。文献[6]以字符串的最大熵值和长度为特征,并训练多个分类器检测恶意代码。基于静态页面特征的方法检测速度快,适合快速筛选可疑页面,但存在误判率高的问题。认为网页中的单词语义包含了钓鱼网页行为和内容的线索,提出了一种基于上下文内容和关键词密度的钓鱼网页检测方法,从HTML中判断网页中是否存在关键词集合,并提取关键词集合的频率和密度。