尽管目前已有WRF-CMAQ模拟体系对空气质量进行预报,但由于部分污染物生成机理不完全明晰以及排放清单不确定等因素,空气质量的预报结果并不理想。因此,在WRF-CMAQ模型一次预报的基础上进行更加准确的二次预报对提前获知大气污染并采取相应控制措施具有深远的意义。
本文针对各监测点空气质量预报数据进行量化分析,对各监测点2021年7月13日至2021年7月15日的污染物浓度值和温度等气象条件特征值进行预测,分析时间、气象条件特征值以及污染物浓度三者之间的关系,并构建相应的数学模型。文章综合采用了K-means++聚类算法、BP神经网络模型、随机森林算法、皮尔逊相关性分析等方法研究污染物浓度、气象条件特征值的分析预测问题。
针对问题一,首先提取监测点A从2020年8月25日至8月28日的逐日污染物浓度实测数据,根据附录中空气质量指数(AQI)的计算公式与首要污染物的选择标准,通过MATL.AB编程得到8月25日至8月28日的AQI分别是60、46、109、138,除8月26日无首要污染物外。其余三天的首要污染物均为03.
针对问题二,首先定性分析气象条件与污染物浓度之间的关系,由于污染物浓度变化直接受限于当时的气象条件,而与监测时间并非直接相关,所以在数据预处理方面直接删除监测点A逐小时实测数据表中与异常数据同监测时间的所有数据,不考虑时间轴可能不完整的情况,仅分析气●条件与污染物浓度之间的相关性。此外,参考AQI计算公式计算各监测时间的实时AQI,根据空气质量等级划分表得到各监测时间的实时空气质量等级,并赋予一定的分值得到实时空气质量等级分数,将实时AQI与实时空气预置等级分数纳入到气象条件与污染物浓度的相关性分析中,用以描述污染物扩散或沉降会导致AQI下降的现象,接着采用z-score标准化方法处理数据,并运用K-means++景类算法进行兼类分析,最终得到5类气象账件。其中,对污染物浓度影响最大的是瓢度与风意,湿度、风速越大,空气质量越好,各污染物浓度越小。
针对问题三,首先对数据表中的异常数据进行近邻均值填补,因为污染物浓度与监测时间并非直接相关,而是通过气象条件进行联系,所以可以将原先的二次预测问题变成一个两阶段预测问题。第一阶段是根据预测气单条件的时序预测问题,采用各监测点逐小时气象实测数据与对应的时间数据构建数据集,建立BP 神经网络模型进行训练,利用训练好的BP神经网络预测各监测点2021年7月13日至2021年7月15日的气象条件特征值。第二阶段先分析各监测点逐小时污染物浓度、气象条件实测与一次预报的差异性(一次预报值取当天预报值,数据从2020年7月23日开始),发现误差虽大,但总体走向大致相同.
接着,计算各监测点污染物浓度、气象条件的一次预报误差,构建随机柰林预测祺型。采用输入为气象条件一次预报误差、输出为污染物浓度一次预报误差的数指集进行训练,将第一阶段预测的气象条件视作实测值与相应时间的一次预报值作差后代入到训练好的随机森林预测模型中得到各监测点从7月13日到7月15日的污染物浓度修正预测值,再与相应时间的一次预报值累加得到相应的二次预报值。运用问题1中的程序计算得到监测点A三天的AQ1分别是56、62、80,首要污染物均为03.监测点B三天的AQ1分则是20、22、23,均没有首要污热物;监测点C三天的AQI分别是77、74、91。首要污染物均为o3·
针对问题四,采用与问题三大致相同的预测流程,但在训练随机森林预测模型时进行改进,将监测点A、A1、A2、A3的污染物浓度、气象条件的一次误差合并为一个数据集进行训练,构建随机森林协同预测模型,并按照问题三中的计算流程得到监测点入三关的AQI分别是48、53、52n7月13日没有首要污染物,14日、15日首要污染物均为O:1篮测点AI三天的AQI分别是56、64、59。首要污染物均为O监测点A2三天的A@I分别是49、53、49,7月14日首要污染物为03,13日、15日均没有首要污染物;监测点A3.三天的AQI分别是46、49、52,7月15日首要污染物为03,13日、14日均没有首要污染物。最终比较问题三与问题四中监测点A的预测结果,比较了A、Al、A2、A3之间的距离大小与皮尔逊相关性大小,最终得出协同预报模型不能提升污染物浓度预测准确度的结论。
关健词:空气质量预报:K-means++素类算法BP神经网络:随机森林。修正预测值:协同预报
链接:https://pan.baidu.com/s/1U0bLYJ9YQbz-xWaApxo43Q?pwd=4j2i
提取码:4j2i