摘 要:
汽油精制研究更趋数据化和智能化,这对国家发展,科技创新,环境保护,企业效益等
诸多方面有着巨大的影响,如何降低汽油精制过程中的辛烷值损失已经成为了汽油精制领
域的一大挑战。本文主要采用皮尔森相关分析、遗传算法、LightGBM 算法和粒子群算法
等,对数据进行了深入的挖掘,建立了主要变量对汽油精制过程中辛烷值损失的数量关系,
具体做法如下:
针对问题 1,首先,以拉伊达准则为依据,剔除异常测量值,运用最大最小限幅法,剔
除异常操作值;其次,我们设置一个数据缺失比例阈值,直接剔除有效数据量低于数据缺
失比例的位点,其余数据缺失的位点以平均值法补全数据;最后得到 285 号和 312 号的修
正数据(见表 5.2),填入附件一,以供后续研究。
针对问题 2,由于样本数据变量过多(多达 365 个),直接进行主要变量筛选存在较
大困难。为此,我们采用二级逐次降维。首先,根据皮尔森相关系数过滤掉无关变量实现
第一级变量降维,得到相关性较强的 57 个变量(见表 6.3);接着,采用遗传算法过滤强
耦连变量(冗余变量)实现第二级变量降维;然后,为了平衡数据之间的差异性,我们将
数据进行数据清洗、归一化处理和完整度分析;此外,在算法中我们使用独热编码方案和
能区分样本差异的余弦相似度作为适应度函数;最后,得到 30 个建立降低辛烷值损失模型
的主要变量(见表 6.7)。
针对问题 3,结合样本数据中主要变量之间高度非线性和数量较多的特征,我们选择
了非线性预测模型来建模主要变量和辛烷值损失之间的关系,再考虑到训练数据少,深度
学习算法容易造成过拟合和计算资源多、运行时间长的实际,我们选取了普通机器学习中
的轻型梯度提升机(LightGBM)算法来学习非线性模型中各变量的数量关系,得到了辛烷
值损失预测模型(见 7.4 小节),同时,我们筛选出了线性回归、深度神经网络、决策树、
支持向量机回归和梯度提升决策树等五种预测方法来对 LightGBM 算法进行对比,并利用
Python 和 Matlab 等工具,将对比结果可视化,直观地验证了 LightGBM 算法的有效性。
针对问题 4,基于问题 2 的主要变量筛选过程,我们首先计算各个变量对于硫含量的
皮尔森系数剪裁无关变量,然后使用遗传算法筛选出了 30 个影响产品硫含量的主要变量,
接着采用问题 3 中已验证的最优 LightGBM 算法,用于估算对应操作条件的硫含量。最后
我们建立了辛烷值损失优化模型,对所有样本进行优化,利用全局寻优能力较强的粒子群
算法求解,计算辛烷值损失降幅并给出降幅超过 30%的优化后操作条件,见附件 5。
针对问题 5,我们将操作变量调整过程的变化值梯度化,共 10 个梯度,这样有利于观
察逐步调整的过程,也利于工厂的实际操作和自动化。最终,我们利用 python 画出从原始
操作调整到辛烷值损失最优化后的操作过程中对应的汽油辛烷值和硫含量的变化轨迹,如
图 9.2 和图 9.3 所示。
链接:https://pan.baidu.com/s/1lC2a4VE4ukDZCreKB6jYvQ
提取码:rc4w