2016研究生数模B题——具有遗传性疾病和性状的遗传位点分析(2)

本文针对具有遗传性疾病和性状的遗传位点分析问题, 使用假设检验的方法,分别采用卡方检验、逻辑回归、 SKAT 以及 metaCCA 方法建立数学模型,使用 MATLAB 和 R 语言及其工具包进行编程,在合理的假设下,确定了与遗传性疾病或相关性状有关联的位点和基因,并且对发现的致病位点及基因从理论上进行了统计分析及检验。
针对问题一,结合生物学意义,以等位基因在样本中出现频率为依据区分同一位点的两种等位基因,并且根据基因型进行 0,1,2 三个数值编码。针对问题二,首先依据最小等位基因频率(MAF)控制以及 Hardy-Weinberg平衡控制对题目所给数据进行 SNP 质量筛选,剔除 97 个不符合质量要求的位点;然后分别使用卡方检验方法和逻辑回归模型对剩余位点进行建模,最后通过显著性检验对位点与遗传疾病 A 进行显著性水平分析,找出显著的致病位点,并结合两种模型综合分析确定了致病位点的合理性。针对问题三,分别采用逻辑回归模型和 SKAT 模型对由位点组合的基因进行建模,通过假设检验的方法,确定了致病基因,最后结合问题二的结果以及对两种模型分别对其自变量的独立性假设分析,说明 SKAT 模型的结果比逻辑回归的结果更可靠。针对问题四,首先采用 metaCCA 算法,得到位点与性状之间的典型关联系数, 随后通过统计检验的方法,确定了与相关性状整体相关联的位点。该模型解出的最优位点 rs12746773 与其余位点显著性水平差异巨大,说明该位点与题目所给的 10 个性状具有很强的关联。本文亮点在于: 1)对题目所给数据进行合理预处理,筛选出部分质量不达标位点; 2)对发现的致病位点或基因都采用多种模型进行统计分析与检验,并且从理论上分析对比了不同模型的合理性; 3) 模型的扩展性和可移植性比较强。

关键词: 位点(SNPs) , 卡方检验,逻辑回归, 典型关联分析(CCA)
B10248299

链接:https://pan.baidu.com/s/1vK9FqwmcX_rLlzctHhnBKg 密码:uh60

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注