哈尔滨师范大学 计算机科学与信息工程学院,黑龙江 哈尔滨 150025
摘 要:本文将深度学习应用到物联网入侵检测中,基于降噪自动编码器的特征提取方法和基于随机森林的分类方法提出了一种新的入侵检测模型。仿真试验证明该模型降低了特征提取的复杂度,有效地防止了过拟合,提高了准确率并降低了误报率。
关键词:物联网;入侵检测;降噪自动编码器;随机森林
中图分类号:TP393.08 文献标识码:A
0 引言
随着物联网技术在研究与应用中广泛兴起,物联网中的网络安全问题越来越得到人们的关注。因此,入侵检测技术作为一种网络安全保护技术成为当今物联网安全领域的研究热点。传统的入侵检测技术难以满足物联网异构性的特点,为此智能学习算法与物联网入侵检测技术相结合的研究应运而生。
机器学习方法已经被广泛应用于识别各种类型的攻击,机器学习方法可以有效的来防止入侵[1]。然而,传统的机器学习方法大多属于浅层学习,往往强调手动选择特征,并不能有效地解决实际网络应用环境中出现的海量入侵数据分类问题。深度学习能够从大量高维数据中提取更好的特征,从而建立起更好的特征提取模型。文献[2]提出一种基于主成分分析法(Principal Component Analysis, PCA)和随机森林(Random Forest, RF)分类的入侵检测算法。Yin Chuan-long[3]等人提出了一种使用递归神经网络(Recursive Neural Network, RNN)进行入侵检测的深度学习方法。
根据物联网网络结构并结合自动编码器(Denoising Autoencoder, DAE)的特点,本文提出了一种基于降噪自编码器降维,随机森林算法分类的物联网入侵检测模型。在模型中,采用降噪自编码器作为特征的降维处理,然后使用随机森林算法对物联网入侵的行为识别和分类。使用公共数据集 NSL-KDD 验证所提出模型的可行性和性能。
1 物联网入侵检测模型
由于物联网入侵数据的多样化和复杂化,结合DAE在特征学习方面的优异特性。设计了一个DAE-RF的物联网入侵检测模型,模型过程由数据预处理、特征提取、分类三个主要模块组成。
数据预处理
1.1.1 归一化处理
不同的特征属性其数据量纲和对应取值范围都有明显的差异,为了方便仿真试验结果分析,采用最小-最大归一化方法(即Min-Max方法)将数值型数据统一映射到[0,1]区间,使得数据处于同一量级。
1.1.2 独热编码
由于自动编码器的输入应为数字,而数据集中个别特征为符号特征,因此需要对符号特
征进行独热编码(one-hot encoding)处理。
基于DAE-RF的入侵检测模型
基于DAE-RF的入侵检测模型由DAE和RF算法两个主要部分组成,以DAE作为特征提取器提取用于分类的关键特征,输出的特征作为RF网络的输入,由RF算法给出分类结果。
1.2.1 基于DAE的特征提取
降噪自编码器是Bengio在08年提出的,其结构如下图所示,降噪自编码器是在自动编码器的基础之上,为防止过拟合问题而对输入的数据加入噪音,使学习得到的编码器具有较强的鲁棒性,从而增强模型的泛化能力。经过DAE网络进行特征提取后,得到低维的数据特征。
1.2.2 基于RF的分类
随机森林将决策树用作bagging中的模型。首先,用bootstrap方法生成n个训练集,然后,对于每个训练集,构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到能使得指标最大的,而是在特征中随机抽取一部分特征,在抽到的特征中间找到最优解,应用于节点,进行分裂。随机森林的方法由于有了bagging集成的思想在,实际上相当于对于样本和特征都进行了采样,所以可以避免过拟合。
图1 DAE模型图
2 仿真试验分析
本实验是在64位Ubuntu 20操作系统下,使用keras2.2.4和TensorFlow1.13.1版本进行编码并进行实验。
硬件配置:Intel(R) Core(TM) i7-7800CPU、64GB内存、GTX-1050Ti GPU。
本文试验数据采用NSL-KDD数据集[4]。
2.1 评价指标
实验结果采用准确率(Accuracy,ACC)、精度(Precision)、召回率(Recall)和F1-score作为评价指标。
2.2 仿真试验结果分析
本文将所提出的入侵检测模型DAE-RF与分别简单的降噪自动编码器和随机森林相比较。仿真试验结果如表1所示。
表1 不同模型指标对比(%)
模型 | ACC | Precision | Recall | F1-score |
DAE-RF | 91.56 | 78.57 | 84.86 | 81.59 |
DAE | 90.84 | 81.54 | 69.31 | 74.92 |
RF | 84.22 | 84.73 | 57.14 |
表1分别给出了几种模型的准确率、精度、召回率和F1分的分类的实验对比。从表1可以知道,在各种模型中本文提出的DAE-RF模型的总体性能最好且可行。本文模型的准确率在三种模型里最高,虽然精度方面稍低于其它两种模型,但是F1分高于其他两种模型,这说明在综合精度和召回率的角度来看,本文模型仍是最优,这得益于DAE对于特征提取工作的提升。
3 结论
在分析入侵检测相关工作基础上,提出了一种新型入侵检测模型,使用降噪自动编码器做特征提取器,随机森林算法进行分类。仿真试结果表明,提出的模型在准确率,F1-Score方面都有不错的提高。
参考文献
[1]刘金鹏.基于机器学习技术的网络安全防[J].网络空间安全,2018,9(09):96-102.
[2]林伟宁, 陈明志, 詹云清等. 一种基于PCA和随机森林分类的入侵检测算法研究[J]. 信息网络安全, 2017(11): 54-58.
[3] Yin C, Zhu Y, Fei J, et al. A deep learning approach for intrusion detection using recurrent neural networks [J]. IEEE Access, 2017, 5: 21954-21961.
[4] Dhanabal L, Shantharajah S P. A study on NSL-KDD dataset for intrusion detection system based on classification algorithms[J]. International journal of advanced research in computer and communication engineering, 2015, 4(6): 446-452.