链接:https://pan.baidu.com/s/1UeLCbcemP7lr8Z-o93ICkA?pwd=kkqu
提取码:kkqu
研究发现,雌激素受体a亚型(ERa) 是治疗乳腺癌的重要靶标,能够拮抗ERa活性
的化合物可能是治疗乳腺癌的候选药物。一个化合物想要成为候选药物,除了需要具备.
良好的生物活性外,还需要在人体内具备良好的药代动力学性质和安全性。通常采用建
立化合物生物活性预测模型的方法来筛选潜在活性化合物。本文构建化合物生物活性的定
量预测模型和ADMET性质的分类预测模型,从而为同时优化ERa拮抗剂的生物活性和
ADMET性质提供预测服务。
本文所做的工作可概括为以下几点:
问题一:首先通过低方差滤波去除225个单- -值特征变量,再对剩余的504个变量进
行灰色关联分析筛选出前200 名的特征变量,将样本特征比提高至接近10:1. 接着使用
基于随机森林的递归特征消除算法选取前30 名的特征变量,考虑到算法的随机性影响,
将算法试验50次,对每次选出的30个变量计数,最后得到出现频数最高的30个变量。
因得到的30个变量只有计数,没有得分排名,再对选出的30个变量做10次随机森林回
归,取10次回归的平均值作为30个变量最终的相关性得分,选出排名靠前的20个变量。
同时,对得分靠前的20个变量分别计算其与pICso的最大互信息系数得分,距离相关性系
数得分,皮尔森系数得分,验证变量选取的合理性.
问题二:结合问题1递归特征消除选出的和生物活性相关性最高的30个特征变量,
将变量按对生物活性相关性从高到低排序,求出变量与变量之间的距离相关系数,再通
过类似非极大值抑制的方式,对分数高的变量删去和其距离相关系数为强相关的变量(系
数>0.6),从而保证所选变量的独立性,保证选出的特征子集尽可能最优。接着选用5种
最常用的非线性模型支持向量回归模型,随机森林回归模型,梯度提升回归树模型,
XGBoost模型和BP神经网络来建立生物活性预测模型。将1974 个样本划分成80%训练集
和20%的测试集,用训练集训练模型,用测试集对模型进行检验,分别得到5种模型的三
个评价指标MSE, MAE, R2,通过比对这三个指标,最终确定了拟合优度R2为0. 8076的梯度
提升回归树预测模型。使用模型对test文件中的50个化合物预测pICso,并通过pICso与
ICso之间的转换公式得到50个ICso的结果。
问题三:首先对每个ADMET性质分别进行最优特征子集的选取,每个性质特征子集选
取的步骤相同,以Caco-2为例,第一步滤去数据集中225 个单一值特征变量,第二步使
用最大互信息系数求取与Caco-2相关性最高的200个变量,第三步使用基于随机森林的
递归特征消除算法选取变量,试验50次,每次选出40个变量,挑选出现频数大于40的
特征变量,第四步,按随机森林得分排序变量,第五步使用问题二中提出的类似非极大
值抑制的独立性变量剔除算法选出最优的特征子集。得到了5个性质各自的特征子集后,
选用5种分类预测模型,通过在测试集上的准确率比较,确定最终各ADMET性质的分类预
测模型。-共选出三个支持向量机分类模型和两个XGBoost分类模型,使用模型对test
文件中50个化合物预测5个性质的分类结果。
问题四:筛选样本数据,分析主要变量分布,选定需要优化的变量。为满足ADMET中
至少有三个性质较好及各变量上下限的约束条件下,以最大化pICso 为目标,建立单目标
优化模型。通过差分进化算法求解,得到满足约束条件下的pICso最优解为9. 5537.进行
多次迭代,获得的多组最优解差异浮动最大值仅为2. 06%,验证了模型的稳定性和合理性。
关键诃:灰色关联分析:支持向机;梯度提升回归树; RFE-RF; 差分进化算法; pIC50