网站webshell木马后门的检测最新算法

              伴随着Internet的普及,网络上的共享资源成为黑客攻击的主要目标。随着网络攻击的快速增加和影响的恶化,信息安全已经成为人们越来越关注的焦点。当今社会,计算机网络在政府、军事组织和企业等许多关键基础设施领域发挥着极其重要的作用。因此,研究如何成功防止恶意网络黑客入侵,使网络系统和计算机处于安全正常的运行状态,无疑是网络管理者的迫切任务。webshell是以php或asp等网页文件的形式存在的命令执行环境,也称为网页后门。一般来说,攻击者入侵一个网站后,会将这些asp、php木马的后门文件放入网站的web目录中,与正常的网页文件混合,其命名可能与正常文件的命名非常相似,使人无法通过文件名第一眼判断为后门文件。然后,入侵者可以通过web请求控制网站的服务器,包括上传或下载文件、检索数据库数据、执行恶意命令程序等一系列未经授权的入侵行为。

outputo-20210907-092708-322-eiem.png

主要研究webshell文件检测,具体工作包括三个方面。首先,通过预处理将jsp类型文件转换为java汇编码,将php类型文件转换为opcode码,大大减少混淆绕过技术的干扰;然后,在此基础上建立词袋模型,利用TF-IDF算法在词频的基础上使用加权处理技术,减少高频无意义词汇的干扰,进一步提高数据质量;最后,引入综合性能优异的XGBOOTS算法模型,对数据集进行学习和训练。十折交叉验证测试结果表明,与其他机器学习检测算法相比,使用XGBost算法的Webshell文件检测模型具有更好的准确性、准确性和召回率,其综合性能处于领先水平。在PHP类型文件中使用TF-IDF作为特征训练,选择XGBoost算法的准确率为98.09%,在PHP类型文件中使用TF-IDF作为训练特征选择XGBoost算法的准确率为97.09%。

Webshell的编写非常灵活,有很多变体。根据脚本程序的不同功能,Webshell通常可以分为三种:大马、小马和一句话木马。越来越多的Webshell通过绕过和混淆技术干扰了现有Webshell检测工具的检测性能。传统的基于特征的静态检测方法已经不能适应复杂多变的攻击环境,因此有必要设计一套更有效的算法模型来提取和检测Webshell的特征。本研究对不同类型的Webshell进行了不同的预处理。因此,系统首先对Webshell进行分类,然后以不同的方式对PHP代码和JSP代码进行转码处理。最后,通过TF-IDF提取其相关特征后,使用SVM、随机森林和XGBoost三种机器学习算法构建模型。

分享: