在上期中,我们分享了进行GWAS分析所需的数据格式以及不同格式之间的转换。现在,当我们准备好表型数据和基因数据后,是否急于想进行关联分析呢?切忌心急,进行关联分析之前,我们需要一系列的数据质量控制,以确保分析结果的准确性,去除不合格的样本和变异数据。
1. SNP及个体缺失过滤
在手动采集的数据中,位点基因型和个体基因数据可能存在缺失(如果表型缺失则直接去掉)。这些缺失会影响关联分析的准确性,因此需要将缺失率控制在一定标准以下。建议首先以宽松的阈值(如0.2,即20%)进行初步过滤,以去除缺失率较高的SNP和个体;然后,再使用更严格的阈值(如0.02,即2%)进行二次过滤。
$plink --noweb --bfile ${project}rawmark --geno 0.2 --allow-no-sex --make-bed --out ${project}filtermds1
$plink --noweb --bfile ${project}filtermds1 --mind 0.2 --allow-no-sex --make-bed --out ${project}filtermds2
注意:以上步骤中需将参数更改为更严格的标准再进行过滤。
2. 性别和亲缘关系检测(可选)
性别检测基于X染色体近交系(纯合性)进行估算。一般而言,女性受试者的F值应小于0.2,而男性受试者的F值接近0.8,满足这些条件的样本将被标记为正常。在性别检测后,输出结果将保存在plinksexcheck
文件中,我们可以提取性别异常的个体进行后续处理。
$plink --noweb --bfile ${project}rawmark --check-sex
若需删除性别异常个体,建议谨慎操作,仅在确认该样本数据确实存在污染时方可进行。
$plink --noweb --bfile ${project}rawmark --remove sex_removelist.txt --make-bed --out ${project}rawmark2
亲缘关系检测基于样本的遗传信息,通过状态同源(IBS)和血缘同源(IBD)进行判断。尽管IBD无法直接观察,但IBS可通过两个个体的基因型计算得出。同时,我们需要推断IBD,以避免在关联分析中出现假阳性。
$plink --noweb --bfile ${project}rawmark --genome
3. 哈迪-温伯格平衡过滤
哈迪-温伯格原则是群体遗传中最重要的法则之一,指出在没有突变、迁移和选择绝对随机交配的理想群体中,基因频率与基因型频率将代代保持不变。若某一位点的遗传分布显著偏离这一原则,则可能表明数据质量存在问题。
$plink --noweb --bfile ${project}rawmark --hwe 1e-10 --hwe-all --make-bed --out ${project}filterhaw
4. 最小等位基因频率过滤
最小等位基因频率(MAF)是指在特定人群中某种不常见等位基因的发生频率。若MAF极小(如低于0.02),则说明大部分位点可能都是相同的基因型,这会导致假阳性结果。因此,我们需要根据MAF进行过滤。
$plink --noweb --bfile ${project}rawmark --maf 0.05 --allow-no-sex --make-bed --out ${project}filtermaf
5. 群体分层
群体分层是关联分析中的常见差异来源,指的是case和control组的样本来源于不同祖先群体。这种情况下,SNP频率的差异会导致假阳性结果。因此,分析前需进行群体分层校正。
$plink --noweb --bfile ${project}rawmark --pca 10 --out pca
6. 杂合性过滤
杂合性指的是在某个位点上存在不同的等位基因,常用来衡量群体遗传的多态性。通过连锁过滤得到不连锁的SNP后,我们可以进行杂合性分析,以识别杂合度较高的个体。
$plink --noweb --bfile ${project}rawmark --indep-pairwise 50 5 2 --out indepSNP
$plink --noweb --bfile ${project}rawmark --extract indepSNP.prune.in --het --out hetSNP
通过上述流程,我们可以有效地进行数据的质量控制,以确保GWAS分析的准确性。如需进一步的帮助,请咨询尊龙凯时,我们提供专业的生物医疗数据分析支持。