恐怖主义是人类的共同威胁,打击恐怖主义是每个国家应该承担的责任。对恐怖袭击事件相关数据的深入分析有助于加深人们对恐怖主义的认识,为反恐防恐提供有价值的信息支持。
依据危害性对恐怖袭击事件分级(问题 1)首先对数据库原始数据进行预处理,包括无关信息剔除,缺失信息填充,数据归一化,获得 14 维可能与恐怖袭击事件分级相关的特征向量。利用 PCA 算法对特征向量进行进一步地特征提取和降维最终获得 10 维与恐怖袭击事件分级关联性较强的特征向量。在已知分级为 5 类的前提下,提出了一种基于初始质心选取优化的 K—means 改进算法,经检得其 DVI 系数为 0.04262,轮廓系数为 0.3950, ,改进后 K—means 算法相比于传统方法就有更好的分类准确性。基于改进后的聚类算法,可得各典型事件危害级别如表 4.7 所示。选取恐怖袭击事件分级最高的集合(1 级),再次利用 PCA算法对于各恐怖袭击事件进行危害等级打分排序,建立量化的评价系统,最终获得近二十年来危害程度最高的十大恐怖袭击事件如表 4.11 所示。基于聚类结果的 PCA 恐怖袭击排序有利于降低运算量,提高排名准确率。
依据事件特征发现恐怖袭击事件制造者(问题 2) 根据问题要求界定处理对象的范围;分析数据源信息, 剔除冗余的数据信息,对数据进行降维处理,并筛选出核心关联要素特征,并将其数值规范化处理;采用逻辑回归的数据挖掘方法,对事件样本进行数据关联,进而建立逻辑回归预测模型,计算得出恐怖袭击事件的分类, 根据危害性大小排序标出前 5 号组织, 并对问题给出的恐怖袭击事件进行了嫌疑人的分析排序;最后对逻辑回归预测模型的结果进行 ROC 曲线分析,验证了本文所建立逻辑回归预测模型的准确度。
对未来反恐态势的分析(问题 3) 为了提高数据处理效率,同时兼顾准确性的要求,以三个月(一个季度)为统计步长对 2015 年—2017 年的各指标进行提取,并对三年来的变化规律进行可视化统计分析。考虑到新提取的统计数据,带有明显的时间序列特征,同时在数据规模属于小样本数据,故考虑采用灰色预测模型进行建模分析,并对未来各地区恐怖袭击事件进行预测。结果表明,采用灰色预测算法相比较于数据拟合方法,具有较高的预测准确性,其和方差为 0.2143,均方根为 0.158,确定系数为 0.9223。最后根据可视化的统计规律和灰色预测模型,给出了反恐斗争的建议和见解。
数据的进一步利用(问题 4) 根据问题 1 中改进的 K—means 算法获得了各类恐怖袭击事件的分级标签,原本无监督学习样本,转化成了有监督的学习样本,我们反过来对获得分级标签的恐怖袭击事件样本建立有监督的机器学习模型,利用 Matalab 机器学习分类工具箱设计不同的分类器(共 22 种)对数据进行训练,结果表明不同机器学习模型最高识别准确率为 89.4,测试结果最高识别准确率为87.8%,反过来证明了问题 1 中聚类结果具有较高的准确性。同时采用 NCA 近邻分析法对各特征向量进行权重打分,其排序结果与问题 1 中 PCA 权重分析表现出很高的一致性,进一步验证了基于 PCA 的特征向量提取与分级权重计算的有效性。
关键词:改进 k-means 主成分分析 逻辑回归 灰色预测 机器学习
C18101830161
下载