2016研究生数模B题——具有遗传性疾病和性状的遗传位点分析(3)

对于问题 1, 传统的基于碱基的编码方式是以碱基为基本单位, 对 C,T,A,G 四个碱基对应编码 0(00),1(01),2(10),3(11)四个数字。 由于本文所有数据最小分析单元为位点, 每个位点的观测对应两个碱基, 因此我们以位点为基本单位, 对等位基因 TT,TC,CC编码 0(00),1(01),2(10), 相比传统的的编码方式, 基于位点的碱基对数值编码方式能有效减少内存, 便于数据分析。对于问题 2, 首先对位点数据进行预处理, 考虑到基因的遗传必须满足基本的传统统计特征,因此,在一定的显著性水平阈值下,基于最小等位基因频率和 Hardy-Weinberg平衡定律对题目所给的全基因组进行分析, 从而剔除了 97 个不满足条件的位点。 在预处理之后, 为寻找与疾病 A 可能相关的位点, 采用列联表分析方法, 通过卡方检验和Fishers 精确检验, 计算每个 SNP 等位基因与疾病 A 的统计量, 统计检验显著的位点即为与疾病 A 相关联的致病位点。 为进一步筛选出与疾病 A 关联性较强的位点, 我们引入了在信用评分、 营销响应预测中常用的变量选择方法——信息值 IV, 通过计算每个位点关于疾病 A 的 IV 值, IV 值越大则影响度越高。 综合对比两种方法所得的致病位点, 并通过具体分析排除信息值为无穷大的特殊位点, 最终, 我们认为, 与疾病 A 最有可能关联的致病位点是 rs2273298。对于问题 3, 考虑基因与疾病之间的关联性, 实际上是个分类预测问题, 即当个体拥有某基因时, 判断其进入健康组或患病组的概率, 因此, 我们采用决策树的方法求解。考虑到若直接对 300 个基因分别做决策树, 判断基因与疾病的关联性, 计算量过大, 故我们采取降维的思想。 由于 300 个基因中位点对应唯一基因, 因此我们先以位点为研究对象, 基于问题 2 的统计检验结果和相关挑选规则, 选出满足筛选条件的 10 个位点,也即 10 个基因。 在此基础上, 我们对每个基因做决策树, 以混淆矩阵和 ROC 曲线作为评价标准, 比较各决策树的优劣程度。 最终发现 gene102 和 gene55 的准确率最高, 分别为 63.8%和 61.6%。 因此我们认为这两个基因与疾病 A 的关联性最强。对于问题 4, 由于观测样本包含 10 个性状的不同观测的组合, 其理论的性状类别有210 即 1024 种, 即使考虑 1000 个样本的实际性状表现不超过 1000, 显然维度过高, 因此先对样本的性状表现做聚类分析, 提出出有代表性的综合性状。 我们考虑基于类平均法的距离公式, 对样本进行系统聚类, 以 R2 和偏 R2 为参考指标, 最终确认了7,16,20,50,100 等不同的聚类数。 在确认聚类数后, 利用 k-均值聚类法, 计算出基于2每一个聚类数所得的综合性指标, 类似于问题 2, 再将综合指标关于位点做统计检验,找出与综合指标有显著关联的 10 个位点。 进而, 为了考察所选位点的正确性, 我们进一步对所选的 10 个位点和原始 1000 个样本的 10 个性状做关联性分析, 统计结果显示所挑选的 10 个位点中的 8 个位点, 都与题目所给的 10 个初始性状中的一个或多个性状高度相关。 因此, 我们认为与 10 个关联性状所有表现出的综合性状相关的位点有rs12746773, rs4584380, rs11249201, rs12139270, rs2075972, rs1985278, rs6603797,rs10917268。

关键词: 位点识别 全基因组关联分析 IV 值 决策树 聚类分析
B10273004

链接:https://pan.baidu.com/s/1yF3v5WFHCKS0253b1pCnKA 密码:jpp4

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注