程序具体有3个控制模块:1)数据收集控制模块,键入是英国国家漏洞库NME和常用漏洞,导出是漏洞数据信息和补丁下载资料;2)数据处理方法控制模块,键入是多源收集的补丁下载资料,导出是解决过后的简化补丁下载库;3)数据信息转化成控制模块,键入是返回上一步导出的补丁下载库和开源项目网站源码,导出是粗粒度漏洞样例资料。
在数据收集控制模块,大家对专业漏洞库NME的数据信息开展具体分析和得到,得到结构型的漏洞特性数据信息。更进一步对流行开源项目的漏洞参照超链接开展程序的具体分析与探讨,寻找存有漏洞的网站超链接,得到来源于不一样安全发布网站的漏洞修复资料,有利于得到漏洞样例,并为深度神经网络网站漏洞扫描探讨的数据信息支撑点。大家提到了一种根据多源补丁下载的数据信息自动化技术收集实体模型,根据3种方法自动化技术收集补丁下载。第一类是以补丁下载的安全漏洞发布网站、软件商自个的漏洞发布网站、源代码管理仓库得到补丁下载,对数百种补丁下载发布平台开展了程序的具体分析和汇总,梳理出二十多种多样补丁下载自动化技术收集网站,如图所示2所显示。第二类是以“CVE”关键字进行过滤GitHub的过去更改Commit,寻找对于CVE的更改纪录,自动化技术的进行过滤过去更改。第三类是在缺点追踪网站Bugzilla上检索与NVDReference中CVE配对的bugid,得到对应的bug修复资料即补丁下载。
图2补丁下载由来网站
在数据处理方法控制模块,大家对多源补丁下载构造、文件格式开展了程序的具体分析,归纳总结出规范的补丁下载资料构造及其具体内容数据信息,将多种多样收集方法得到的补丁下载资料开展并入与去沉余解决,同样软件版本沉余如图所示3所显示,不一样版本号软件沉余如图所示4所显示。大家提到了一个根据多类数据信息的补丁下载实效性的评定体制,融合得到的漏洞文件夹名称、函数公式名和补丁下载由来的网站,对补丁下载资料和漏洞关联性开展分辨。若补丁下载立即是对于漏洞函数公式的修复,则做为最精准的种类1;若补丁下载是对于漏洞资料的修复,则做为次精准种类2;若补丁下载没法分辨是不是对于漏洞函数公式、漏洞资料开展修复,可是能够 分辨补丁下载是对于该CVE的修复,即是种类3;若没法根据原有数据信息断定的,须要人为更进一步解决的,暂做为种类4解决。