近年来,大气污染问题日趋严重,对人民的生命健康和地球的生态环境造成了严重危害。建立空气质量预报模型是提高环境空气质量的有效手段,但由于气象场数据和污染排放数据具有不确定性,与此同时科研人员也不能完全明晰各污染物的生成机理,现行常用的WRF-CMAQ预报模型的预报结果准确度有限。因此,如何在WRF-CMAQ模型一次预报结果的基础上,综合更多数据源进行二次建模,以实现预报准确度的提高,成为当下空气污染物防治领域内的研究重点之一。
本文针对空气质量二次预报模型的设计与优化进行了研究,以污染物浓度、AQI等作为指标,通过相关性分析和聚类处理得到影响指标的关键属性,并分析了不同气象条件特征下的污染物浓度变化,为数据降维创造条件,进而构建天气质量二次预报模型,优化了原一次预报相对误差较大的问题。之后在上述独立预报模型的基础上引入监测点间直线距离、风力影响距离等变量,充分利用邻近地区的位置与天气条件的相关性,构建二次预报的协同预测模型,进一步增强了模型预测准确度,提升了天气质量预报模型的价值。
对于问题一,依据附录中AQI(即空气质量指数)计算与评价的方法,使用监测点A长期空气质量预报基础数据中的污染物浓度每日实测数据,计算自2020年8月25日到8月28日期间,监测点A每日实测的AQI和首要污染物,并得出这四天的空气质量等级。
对于问题二,通过拉格朗日插值、箱线图等方法处理原数据集中的缺失值与异常值,构建能够描述监测点A一个时间周期内气象条件变化量与各污染物浓度变化量的新数据集,并对气象条件与各污染物浓度做相关性分析。使用基于EM算法的高斯混合模型对新数据集进行聚类处理,并使用t-SNE降维可视化技术展示聚类结果。结果共分为6类,分别对应6种气象条件对污染物的扩散或沉降造成的影响。结合相关性分析结果与气象相关文献,对聚类结果进行解读,并阐述各类气象条件的特征。
对于问题三,横向合并监测点A、B、C数据集,使用问题二中的方法处理缺失值与异常值。将预处理后的数据集拆分为三个数据集,据此建立三个基于XGBoost 算法的二次预报预测模型,分别用于预测未来第一天数据、未来第二天数据、未来第三天数据,每个模型由六个子模型组成,对应每种污染物浓度值的预测。通过数据降维、参数调优等方法提高模型精度。通过与一次预报模型的对比与任意选取数据测试,证明二次预报模型的优越性,在对臭氧浓度、AQI以及首要污染物的预测上体现的尤为明显。最后,使用二次预报模型预测了A、B、C三点在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算出相应的AQI和首要污染物。
对于问题四,纵向合并监测点A、A1、A2、A3的数据集,使用问题二、三中的数据预处
理方法对数据初步处理。根据平面上四监测点的相对位置关系,计算它们之间的直线距离,将风向变量转化为更容易度量的风力影响距离变量—一每个监测点与其余三个监测点的风向的垂直距离,使得监测点附近地区的风力、温度、湿度等天气影响因子能更准确地作用于协同预报模型之中:并在问题3中的XGBoost 独立二次预报预测模型的基础上进行优化,构建四个协同预报子模型,分别用来预测监测点A、A1、A2、A3的污染物浓度值以及相应的AQI和首要污染物。经过数据测试,本文证实了所建立的协同预报模型相比于独立模型具有更高的准确性,同时说明了协同预报模型能够提升针对监测点A的污染物浓度预报准确度。
关健词:空气质量二次预报;EM算法;GMM模型:t-SNE:XGBoost算法:协同预报
链接:https://pan.baidu.com/s/1vFqa3MsFpP5PisTOY6QybQ?pwd=9hyg
提取码:9hyg