第18届研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模(5)

链接:https://pan.baidu.com/s/16OrYWgS4oRlXa2W-NmQcCA?pwd=gzj4
提取码:gzj4

乳腺癌是目前世界上最常见, 致死率较高的癌症之一。 ERα被认为是治疗乳腺癌的重
要靶标,能够拮抗
ERα活性的化合物可能是治疗乳腺癌的候选药物。本文在保证了 ADMET
性质优越的情况下建立了化合物活性预测模型, 来确定影响化合物活性的主要分子描述符
及其取值范围, 为生产中抗乳腺癌化合物的选择提供理论依据。
针对第一问, 筛选出影响生物活性最显著的
20 个分子描述符。 首先, 本文对数据进
行了预处理: 将含
0 比例大于 90%的特征剔除, 剔除了 344 个特征; 用拉依达准则对剩余
数据进行异常检测, 剔除异常值数量在
100 以上的特征, 有 26 个特征被剔除; 对于异常
值数量在
100 以内的特征, 将异常值进行限幅。 然后, 把 pIC50 作为因变量, 用随机森林
和熵值法对剩余
359 个特征进行分析, 分别筛选出 30 个主要变量, 并分别画出二者 30
变量的相关性图, 对比发现随机森林筛选的特征更具有代表性。 接着, 对随机森林筛选的
30 个变量进行 Pearson 相关性分析, 将强关系的变量进行逐一剔除, 最终获得影响生物活
性的
20 个主要变量。
针对第二问, 构建化合物对
ERα生物活性的定量回归预测模型。 首先, 以 pIC50 为因
变量, 第一问筛选的
20 个变量作为自变量, 建立支持向量机、 神经网络、 梯度提升和随
机森林的回归预测模型, 并用随机搜索方法搜索四种模型的最佳超参数。 然后, 用
MAE
RMSE 和拟合度 3 个评价指标对四种模型进行评价,并画出四种模型对测试集前 20 组数据
实际值和预测值的拟合图, 观察发现随机森林效果最佳。 最后, 用随机森林预测题目中给
50 组化合物的 pIC50, 并通过公式求解出 IC50_nM
针对第三问, 分别构建五种化合物的分类预测模型。 首先, 使用第一问中数据预处理
之后剩余的
359 个特征数据作为自变量, 五个化合物的二分类数据作为因变量。 然后, 构
建五种化合物的四个二分类模型: 支持向量机、 随机梯度下降、 神经网络和随机森林。 以
ROCAUC 和准确率作为模型评价标准, 用随机搜索对五个化合物分类模型分别进行最佳
超参数搜索, 最终发现随机森林对五种化合物的分类效果均优于其他模型。 确定使用随机
森林作为五种化合物的分类预测模型, 并对题中给的
50 组数据进行分类预测。
对于第四问, 建立化合物活性优化模型, 来选取适合的分子描述符及其范围。 使用第
二问
pIC50 回归模型和第三问的 ADMET 分类模型对此问进行求解。以 pIC50 为优化目标,
ADMET 最少三个性质较好为约束条件, pIC50 回归模型中的 20 个变量作为决策变量, 建
立目标规划模型。 然后, 使用遗传算法对该目标规划模型进行求解。 在求解过程中, 画出
来了优化迭代曲线, 并对比了优化后和优化前的
pIC50 分布, 可以清晰地看出优化后 pIC50
平均值明显增大, 波动变小。 由此可得出 20 个决策变量对优化模型有较强的优化效果,
把这 20 个变量作为要寻找的分子描述符变量, 并取它们的最大最小值作为优化取值范围。
最后, 对
20 个分子描述符进行敏感性分析, 采取控制变量法观察自变量在-50%-50%范围
内以
1%步长浮动时对因变量的影响, 来进一步修正 20 个分子描述符的取值范围。

关键词: 化合物活性优化模型、 支持向量机、 神经网络、 梯度提升、 随机森林的回归预测、
随机梯度下降、 目标规划、

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注