第18届研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模(2)

链接:https://pan.baidu.com/s/1Q44saCOOeFNASpzZ4Y4FJA?pwd=6aqk
提取码:6aqk

乳腺癌是目前世界上最常见,致死率较高的癌症之一,研究抗乳腺癌候选
药物的优化建模,具有重大的现实意义。本文采用距离相关系数、随机森林、
XGBoost、遗传算法等数学算法,对数据进行了深度的挖掘,发现了显著影响化
合物生物活性的分子描述符,建立了生物活性与分子描述符的量级关系,并构建
了化合物
ADMET 性质与分析描述符的定性关联,具体作法如下:
针对问题
1,考虑到数据维度较大,直接进行特征选择存在一定挑战。为此
我们在数据标准化的基础上,提出了三次特征筛选方法,首先使用灰色关联度分
析,进行第一次特征筛选,得到具有相关性的
70 个变量(见图 4-4);其次使用
距离相关系数,进一步细筛,剩余
37 个相关性较强的变量;最后使用随机森林
分析变量之间和变量与化合物活性之间的关联,得到
20 个与生物活性显著相关
的重要分子描述符(见表
1)。
针对问题
2,在上一问分析显著性的基础上,我们首先使用最大信息系数法
和递归特征消除法分析变量之间的独立性,并将高斯混合模型、改进的随机森
林方法作为特征选择的对照方法进行对比,从而选出用于化合物生物活性预测
的变量,并对预测特征进行独立性检验;其次考虑到数据样本存在高度的非线
性、强耦合、稀疏性、训练样本稀少,深度算法易于造成过拟合问题,我们选取
XGBoost 算法来学习化合物生物活性与分子描述符之间的定量关系,与随机
森林、
GDBT、集成学习等进行对比实验;最后在定性与定量的角度进行了可视
化展示(见图
5-13 与表 5),直观的证明了本文方法的效果。
针对问题
3,对于 ADMET 五个分类变量,我们在进行数据标准化的基础上,
分别使用随机森林对数据进行降维处理,并使用遗传算法选择对其性质具有显
著影响的变量。其次使用
XGBoost ADMET 五个性质单独建立分类模型,并设
置一组对照实验,以验证本文使用方法的性能。最后我们展示了特征选择模型和
ADMET 性质分类模型的可视化结果,并进行了实验分析(见表 13 与图 6-13)。
针对问题
4,基于第二、三问构建的预测模型,以生物活性最高和 ADMET
性质最好作为目标,以二、三两问筛选出的分子描述符作为决策变量,构建优化模型。考虑到本优化问题搜索空间大,全局最优解寻找难度大的特点,我们采用
了遗传算法对这一优化问题进行求解。由于分子描述符超过一定范围在应用中
不具有实际意义,我们利用所给数据的范围来表示分子描述符的取值范围。利
Python 编程实现,得到了一组分子描述符和其相应的取值,使得化合物对抑
ERα 具有更好的生物活性,同时具有更好的 ADMET 性质。最后,进行算法
对比分析,证明了遗传算法的有效性和优越性(见图
7-3)。

关键字: 三次特征筛选方法 递归特征消除法 随机森林 XGBoost 遗传算
法 相关性分析 独立性分析

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注