第18届研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模(1)

链接:https://pan.baidu.com/s/1fr7SrS_oJ47nrFlvTo_xYw?pwd=5uv3
提取码:5uv3

在研发治疗乳腺癌药物的过程中, 能拮抗 ERα活性的化合物是治疗乳腺癌的重要候选
药物,同时也要考虑到化合物在人体内具备良好的药代动力学性质和安全性
(ADMET 性质)
如果吸收性能、 代谢速度、 毒副作用等性质不佳, 依然很难成为药物。 本文对给定的
1974
个化合物的分子描述符、 生物活性以及 ADMET 性质进行处理分析, 探寻对生物活性有重
要影响的分子描述符, 构建化合物生物活性的定量预测模型和
ADMET 性质的分类预测模
型, 并基于两个模型构建目标优化模型, 找出具体的分子描述符范围。 文章综合运用了内
置随机森林重要性、 基于排列的重要性、
SHapley Additive exPlanation 特征重要性排序、
决策树、 逻辑回归、
Light Gradient Boosting MachineLightGBM) 、 相关性分析、 证据
权重
WOE 和信息值 IV 筛选、 过采样、 机器学习、 XGBoost 分类、 RandomForest 分类、
粒子群算法、 主要目标法等经典机器学习算法和分析方法对相关问题进行量化分析和数学
建模, 使用了
PythonMATLAB 等软件实现模型并得到问题答案。
针对问题一(变量选择) , 通过观察发现, 数据中存在稀有变量和异常值的现象, 首
先, 剔除
270 个稀有变量及使用均值法填充少量异常值, 然后, 通过 Spearman 相关性分
析发现
729 个分子描述符之间存在一些相关性很高的变量, 对相关性较高的 213 个变量以
及与生物活性相关性较低的
50 个变量进行初步筛选, 最终得到 196 个分子描述符。 随后,
构建随机森林模型, 利用基于内置随机森林重要性、 基于排列的重要性、 基于
SHapley
Additive exPlanation
的重要性三种特征重要性计算方法进行特征重要性排序, 筛选出前
20 个对生物活性最具有显著影响的分子描述符, 发现 MDEC-23LipoaffinityIndex
maxHsOH 在三种特征重要性计算算法下均排名前三, 随后选择可解释性的 SHAP 算法分
析前
20 个分子描述符对生物活性的正负影响程度。
针对问题二(生物活性定值预测) , 首先, 本文构建了基于决策树、 逻辑回归、 线性
回归、
Light Gradient Boosting MachineLightGBM) 等十二类算法的 ERα生物活性的定
量回归预测模型, 为了更好地筛选出重要的描述符, 在次选择的变量为问题一中经过预处
理和相关性筛选后的变量, 随后采用
MSERMSE 等指标对各个模型的性能进行评估。
结果发现, 基于
LightGBM 算法的生物活性定值回归预测模型表现效果最好, MSE 值为最
0.4424。 随后, 本文计算基于 LightGBM 算法的分子描述符的 SHAP 值, 并与问题一得
2
到的前 20 个对生物活性最具有显著影响的分子描述符进行对比, 选择出了交叉的 15 个分
析描述符作为特征, 对模型的参数(如
max_depth num_leaves) 进行调整, 得到性能最
优的生物活性定值回归预测模型, 最后, 对文件
“ERα_activity.xlsx”test 表中的 50 个化合
物进行
pIC50 值预测, 并通过 pIC50 值计算对应的 IC50 值。
针对问题三(分类模型构建和预测) , 首先, 基于证据权重
WOE 和信息值 IV 方法,
对影响化合物的
Caco-2CYP3A4hERGHOBMN 五种 ADMET 性质的分子描述符进
行筛选, 确定用于预测不同
ADMET 性质的变量类型。 其次, 对五种 ADMET 性质的分类
变量数据分布进行分析, 采用过采样方法均衡数据样本。 再次, 构建
13 种分类模型, 包
11 种机器学习模型和 2 种深度学习模型(LSTMCNN) , 通过对各个模型准确率、
精度、召回率、
F1 值、ROC 曲线、AUC 值及对数损失等指标的评价和比较,确定预测 Caco-2
CYP3A4hERG 三种 ADMET 性质的最佳模型为 XGBoost 分类模型, 预测 HOBMN
两种 ADMET 性质的最佳模型为随机森林(RandomForest) 分类模型。 然后, 为了预测
test 集合中的 ADMET 性质, 一方面, 评估了最佳模型的泛化能力, 结果表明各个模型泛
化能力较强,在测试集上的学习能力分数都达到了
0.9 以上,其中,预测 MN RanomForest
分类模型和预测 CYP3A4 XGBoost 分类模型在测试集上学习能力分数超过了 0.96;另一
方面, 为了提高模型预测的准确率, 基于十折交叉验证方法, 在训练集上对获得的最佳模
型进行参数调优, 以获得最优模型, 并基于最优参数下的最优模型预测
ADMET 性质, 结
果表明在参数调优下,预测
Caco-2XGBoost模型准确率最高可达到93.9%;预测 CYP3A4
XGBoost 模型准确率最高可达到 96.8%; 预测 hERG XGBoost 模型准确率最高可达
92.6%; 预测 HOB RandomForest 模型准确率最高可达到 92%; 预测 MN
RandomForest 模型准确率最高可达到 97.8%。 最后, 本文对 5 个分类模型的特征重要性排
序和重要变量的关系进行简要的可视化分析, 结果表明不同分类模型的重要特征具有明显
差异, 不同重要变量的组合对分类结果的影响也有明显差异。
针对问题四(优化选取分子描述符并估计范围) , 本文构建了以提高抑制
Erα的生物
活性和提高
ADMET 性质为目标的多目标优化模型, 根据前文进行数据清理得到的主要分
子描述符, 基于问题二、 三所构造的回归模型和分类模型构造出符合题目要求的多目标优
化模型, 然后通过粒子群算法权衡两个目标函数之间的关系, 求解
Pareto 解集, 之后再通
过主要目标法将模型再次求解验证答案的有效性, 并从中选出部分分子描述符展示目标函
数最优的取值范围, 并且通过散点图可视化部分分子描述符的重要影响和取值范围。

关键词: 生物活性分析; 逻辑回归; 分类预测; 随机森林; XGBoost; 机器学习; 相
关性分析; 粒子群算法; 多目标优化

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注