链接:https://pan.baidu.com/s/1UBvA6G4vBGOki7fP64d8FQ?pwd=asqh
提取码:asqh
乳腺癌是目前世界上常见的高致死率癌症之一,严重威胁了人类的生命健康。抗癌药
物的筛选具有重要研究意义和价值。本文基于数据挖掘和机器学习技术,研究抗癌药物筛
的优化建模问题,具有一定的现实意义。
针对问题一, 首先对数据进行了预处理,剔除数据中存在的缺失值、异常值、异常变
量和异常样本。 在变量筛选过程中,考虑了变量之间的线性和非线性关系。首先,采用
LASSO 回归、 person 相关系数、随机森林和互信息 4 种方法分别得到排序前 40 的变量。
然后,采用投票加权的方式,找到综合排序前 40 的变量子集。最后,通过高相关滤波方法
向后迭代去除相关性较高的变量,得到最终的 20 个最优变量,保证提取的变量具有代表性
和独立性。
针对问题二,首先基于筛选的 20 个变量建立了基于直方图的梯度增强回归树的回归
预测模型 HGBRT。在训练过程中将 1973 个样本按照 8:2 分为训练集和测试集,采用 K-折
交叉验证方法对模型在训练集进行预训练,在测试集上完成测试与验证。 然后,将该模型
与多种经典的回归模型如:支持向量回归 SVR、神经网络 MLP 和随机森林 RF 等方法进
行对比验证, 依据算法在测试集上的预测误差表明采用的 HGBRT 具有最小的误差和更好
回归预测效果。最后,通过网格搜所对模型的超参数寻优,确定了模型最优超参数。
针对问题三,首先, 采用问题一的方法分别筛选针对化合物 Caco-2、 CYP3A4、 hERG、
HOB 和 MN5 个因变量相关的 20 个最优变量。 然后,基于筛选的变量建立了基于直方图
的梯度增强分类树的分类预测模型 HGBCT。 在训练过程中,考虑到 5 个化合物分类中 0-1
样本分布不均衡可能对模型分类精度影响,通过增加对小样本分类错误的惩罚因子 C 来解
决该问题。通过在测试集上与多种分类模型对比,发现 HGBCT 具有较高的分类精度,同
时随机森林方法也具有近似的分类精度。最后,通过调节惩罚因子 C 可以得到当惩罚因此
C 取值为 3~5 之间时, HGBCT 分类准确率最高。
针对问题四, 首先基于问题二和问题三提取的相关变量进行投票加权选择评分较高的
变量作为优化变量集。 变量集中的变量对 ERα 生物活性和 ADMET 药性具有联合的影响。
然后,基于 HGBRT 值和 HGBCT 构建双目标优化模型,以函数取值最大为目标函数,变
量的给定范围为约束,求解使得目标函数最大值时变量的取值; 考虑到活性因素和药性因
素占比, 增加权重参数 λ。 模型求解采用第三代非支配排序遗传算法(NSGA-III)进行启发式
寻优。最后,通过对算法的初始化参数进行调试,初步确定了 NSGA-III 比较优化的初始化
参数, 并给出权重参数 λ=0.5 时的一组最优解。 经过验证, 模型求解结果符合要求。 同时,
对权重 λ 的占比进行求解发现 λ 取值在 0.5~0.6 之间, 模型可以取得最大值, 该区间可以
作为参数优化的参考区间。
关键词:相关性分析, HGBRT, HGBCT, NSGA-III,机器学习,数据挖