GWAS(全基因組關聯研究,Genome-Wide Association Study)是一種通過掃描全基因組范圍內的遺傳變異(如單核苷酸多態性,SNP),尋找與特定性狀或疾病顯著關聯的基因位點的方法。
在進行GWAS分析之前,需要選擇合適的群體,進行數據收集。實際工作中發現有些客戶根本不知道GWAS分析需要什么數據,耽誤分析進度,那需要收集哪些數據呢?主要需要兩個數據:表型數據和基因型數據。
01 表型數據
談起表型數據,我們先來了解下GWAS的表型性狀。GWAS中的表型性狀可以分為以下三類:
① 數量性狀(Quantitative Traits):是指可以用數字值來描述的性狀。比如身高(cm)/體重(kg)/籽粒數(個)/產量(kg/畝),分析時表型直接使用具體數值;
② 質量性狀(Qualitative Traits):與數量性狀相反,其無法用固定數值表示,而是表現出一種狀態。比如花色(紅、黃、白等)/果實形狀(圓、橢圓等)/疾病(有或無),表型可以用數值簡化表示;
③ 分級性狀(Ordinal Traits):是介于質量性狀和數量性狀之間的一類性狀,表現為有序的類別,但這些類別之間的差異不是連續的。比如病毒抵抗性水平(高、中、低)/籽粒顏色(淺黃、深黃、棕色等)/植株高度級別(高、中、低),這些性狀可以用數字值(1、2、3等)來描述。
那表型文件長啥樣呢?這里以常見疾病研究為例,文件一般包含3列:樣本(Sample)、性別(Sex)和表型(Phenotype)。
注意:性別用數值表示,0表示未知、1表示男、2表示女、-9表示缺失;表型也用數值表示,0表示未知、1表示對照組、2表示實驗組、-9表示缺失。不要出現空缺值!
02 基因型數據
基因型是指一個個體在某個特定基因位點上所擁有的等位基因的組合。每個基因位點可以有不同的等位基因,這些等位基因是由父母各自傳遞的一個單倍體組成。
那基因型數據從哪里獲取呢?通常有兩種方式可以獲取:
① 基于SNP芯片獲取基因型數據
② 基于基因組測序獲取基因型數據
這里我們以VCF文件為例,從”#CHROM”列開始就是變異數據:
注意:由于原始變異文件中有大量不可靠變異,建議使用過濾后的VCF文件(比如篩選PASS)進行后續分析。
由于GWAS分析需要動輒幾百上千例的數據,客戶很難湊齊那么多樣本,特別還要額外的正常樣本作為對照,對客戶而言又是一筆很大的支出!這個時候我們可以采用既有的正常人數據作為對照組,最典型的就是使用千人基因組計劃數據為對照。
現在表型數據和基因型數據都有了,該如何使用呢?由于整個關聯分析流程是基于PLINK軟件,那么就需要將基因型數據轉換為PLINK軟件能識別的格式,同時也利于提高數據處理效率。PLINK中有兩類數據格式,在分析過程都會用到:
1. ped/map格式
> ped格式文件:
包含每個樣本的基本信息(族系、名稱、性別等)、表現型信息(phenotype)、基因型信息(第7列之后)。每行表示一個樣本,該文件沒有表頭,具體列數取決于該樣本所含SNPs位點數。
第一列:Family ID,族系ID;
第二列:Individual ID,個體(如樣本間無族系聯系,Family ID和Individual ID可以一樣);
第三列:Paternal ID,父系ID,0表示未知,-1表示無父親/缺失;
第四列:Maternal ID,母系ID,0表示未知,-1表示無母親/缺失;
第五列:Sex,性別,1 男,2 女,0 或 其他值 表示未知;
第六列:Phenotype,表型值,根據研究類型定義;
后續列:從第七列開始,每兩列代表該樣本所含的一個SNP的基因型:如第七、八列代表第一個基因型(GG),第九、十列代表第二個基因型(GG)等等。
> map格式文件:
記錄每個 SNP 的染色體位置和遺傳學信息。每行對應一個 SNP,該文件沒有表頭,每行包含四列。
第一列:染色體編號;
第二列:變異標識符,這里是rs編號(有的話)或其他方式;
第三列:遺傳距離(摩爾根,單位cM),未知情況下寫0即可;
第四列(可選):SNP在染色體上物理位置,跟第三列必有一列。
2. bed/bim/fam格式
> bed格式文件:
存儲基因型信息(二進制),每行對應一個樣本。由于是二進制格式不能直接打開。
第一列:樣本的 ID(需與 .fam 文件中的 IID 一致);
后續列:每兩列為一個 SNP 的兩個等位基因(按順序排列,如 A/C 或 0/1)。其中0、1、2分別對應了aa、Aa或aA和AA。
> bin格式文件:
存儲每個 SNP 的元信息(染色體位置、遺傳學距離等)。每行對應一個SNP。
第一列:Chr,染色體編號;
第二列:SNP,標記名稱;
第三列:GD,遺傳距離(摩爾根),未知情況下寫0;
第四列:BPP,變異位點物理位置(單位:bp);
第五列:Allele 1,一般情況下為次要等位基因;
第六列:Allele 2,一般情況下為主要等位基因。
> fam格式文件:
存儲樣本的家系關系和表型信息,每行對應一個樣本。
第一列:FID,家系ID;
第二列:IID,個體ID;
第三列:父本個體ID,沒有用0表示,-1表示缺失;
第四列:母本個體ID,沒有用0表示,-1表示缺失;
第五列:SEX,性別,1表示男性,2表示女性,0表示未知;
第六列:Phenotype,表型值。
小結:fam文件就是ped文件前六列。此外這里可以通過手動添加補全表型、性別信息。
那怎么通過vcf格式數據得到ped/map格式和bed/bim/fam格式數據呢?直接上命令:
vcf轉ped/map格式:
plink --vcf test.vcf.gz --recode --out test
vcf轉bed/bim/fam格式:
plink --vcf test.vcf.gz --make-bed --out test
ped/map轉bed/bim/fam格式:
plink --file test --make-bed --out test
bed/bim/fam轉ped/map格式:
plink --bfile test --recode --out test
以上就是本期分享的內容,下一期我們將講解如何對plink格式數據進行質控過濾。