第18届研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模（3）

链接：https://pan.baidu.com/s/1UeLCbcemP7lr8Z-o93ICkA?pwd=kkqu
提取码：kkqu

研究发现，雌激素受体a亚型(ERa) 是治疗乳腺癌的重要靶标，能够拮抗ERa活性
的化合物可能是治疗乳腺癌的候选药物。一个化合物想要成为候选药物，除了需要具备.
良好的生物活性外，还需要在人体内具备良好的药代动力学性质和安全性。通常采用建
立化合物生物活性预测模型的方法来筛选潜在活性化合物。本文构建化合物生物活性的定
量预测模型和ADMET性质的分类预测模型，从而为同时优化ERa拮抗剂的生物活性和
ADMET性质提供预测服务。
本文所做的工作可概括为以下几点:
问题一:首先通过低方差滤波去除225个单- -值特征变量，再对剩余的504个变量进
行灰色关联分析筛选出前200 名的特征变量，将样本特征比提高至接近10:1. 接着使用
基于随机森林的递归特征消除算法选取前30 名的特征变量，考虑到算法的随机性影响，
将算法试验50次，对每次选出的30个变量计数，最后得到出现频数最高的30个变量。
因得到的30个变量只有计数，没有得分排名，再对选出的30个变量做10次随机森林回
归，取10次回归的平均值作为30个变量最终的相关性得分，选出排名靠前的20个变量。
同时，对得分靠前的20个变量分别计算其与pICso的最大互信息系数得分，距离相关性系
数得分，皮尔森系数得分，验证变量选取的合理性.
问题二:结合问题1递归特征消除选出的和生物活性相关性最高的30个特征变量，
将变量按对生物活性相关性从高到低排序，求出变量与变量之间的距离相关系数，再通
过类似非极大值抑制的方式，对分数高的变量删去和其距离相关系数为强相关的变量(系
数>0.6)，从而保证所选变量的独立性，保证选出的特征子集尽可能最优。接着选用5种
最常用的非线性模型支持向量回归模型，随机森林回归模型，梯度提升回归树模型，
XGBoost模型和BP神经网络来建立生物活性预测模型。将1974 个样本划分成80%训练集
和20%的测试集，用训练集训练模型，用测试集对模型进行检验，分别得到5种模型的三
个评价指标MSE, MAE, R2,通过比对这三个指标，最终确定了拟合优度R2为0. 8076的梯度
提升回归树预测模型。使用模型对test文件中的50个化合物预测pICso，并通过pICso与
ICso之间的转换公式得到50个ICso的结果。
问题三:首先对每个ADMET性质分别进行最优特征子集的选取，每个性质特征子集选
取的步骤相同，以Caco-2为例，第一步滤去数据集中225 个单一值特征变量，第二步使
用最大互信息系数求取与Caco-2相关性最高的200个变量，第三步使用基于随机森林的
递归特征消除算法选取变量，试验50次，每次选出40个变量，挑选出现频数大于40的
特征变量，第四步，按随机森林得分排序变量，第五步使用问题二中提出的类似非极大
值抑制的独立性变量剔除算法选出最优的特征子集。得到了5个性质各自的特征子集后，
选用5种分类预测模型，通过在测试集上的准确率比较，确定最终各ADMET性质的分类预
测模型。-共选出三个支持向量机分类模型和两个XGBoost分类模型，使用模型对test
文件中50个化合物预测5个性质的分类结果。
问题四:筛选样本数据，分析主要变量分布，选定需要优化的变量。为满足ADMET中
至少有三个性质较好及各变量上下限的约束条件下，以最大化pICso 为目标，建立单目标
优化模型。通过差分进化算法求解，得到满足约束条件下的pICso最优解为9. 5537.进行
多次迭代，获得的多组最优解差异浮动最大值仅为2. 06%，验证了模型的稳定性和合理性。

关键诃:灰色关联分析:支持向机;梯度提升回归树; RFE-RF; 差分进化算法; pIC50

小小程序网

第18届研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模（3）

发表评论取消回复

为您推荐

第21届研究生数学建模竞赛F题——X 射线脉冲星光子到达时间

第21届研究生数学建模竞赛E题——高速公路应急车道紧急启用模型

第21届研究生数学建模竞赛D题——大数据驱动的地理综合问题

第21届研究生数学建模竞赛B题——WLAN 组网中网络吞吐量建模

第21届研究生数学建模竞赛C题——数据驱动下磁性元件的磁芯损耗建模

第21届研究生数学建模竞赛A题——风电场有功功率分配优化模型

发表评论 取消回复

发表评论取消回复