亚州综合一区_啪啪av大全导航福利_韩国一级片免费看_国产对白做受_夜夜躁很很躁日日躁2020_第一色网站

English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > GWAS全基因組關(guān)聯(lián)分析第一期:數(shù)據(jù)及格式轉(zhuǎn)換

GWAS全基因組關(guān)聯(lián)分析第一期:數(shù)據(jù)及格式轉(zhuǎn)換

瀏覽次數(shù):122 發(fā)布日期:2025-6-12  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)

GWAS(全基因組關(guān)聯(lián)研究,Genome-Wide Association Study)是一種通過掃描全基因組范圍內(nèi)的遺傳變異(如單核苷酸多態(tài)性,SNP),尋找與特定性狀或疾病顯著關(guān)聯(lián)的基因位點(diǎn)的方法。

在進(jìn)行GWAS分析之前,需要選擇合適的群體,進(jìn)行數(shù)據(jù)收集。實(shí)際工作中發(fā)現(xiàn)有些客戶根本不知道GWAS分析需要什么數(shù)據(jù),耽誤分析進(jìn)度,那需要收集哪些數(shù)據(jù)呢?主要需要兩個(gè)數(shù)據(jù):表型數(shù)據(jù)和基因型數(shù)據(jù)。

01 表型數(shù)據(jù) 

談起表型數(shù)據(jù),我們先來了解下GWAS的表型性狀。GWAS中的表型性狀可以分為以下三類:
① 數(shù)量性狀(Quantitative Traits):是指可以用數(shù)字值來描述的性狀。比如身高(cm)/體重(kg)/籽粒數(shù)(個(gè))/產(chǎn)量(kg/畝),分析時(shí)表型直接使用具體數(shù)值;
② 質(zhì)量性狀(Qualitative Traits):與數(shù)量性狀相反,其無法用固定數(shù)值表示,而是表現(xiàn)出一種狀態(tài)。比如花色(紅、黃、白等)/果實(shí)形狀(圓、橢圓等)/疾病(有或無),表型可以用數(shù)值簡(jiǎn)化表示;
③ 分級(jí)性狀(Ordinal Traits):是介于質(zhì)量性狀和數(shù)量性狀之間的一類性狀,表現(xiàn)為有序的類別,但這些類別之間的差異不是連續(xù)的。比如病毒抵抗性水平(高、中、低)/籽粒顏色(淺黃、深黃、棕色等)/植株高度級(jí)別(高、中、低),這些性狀可以用數(shù)字值(1、2、3等)來描述。

那表型文件長(zhǎng)啥樣呢?這里以常見疾病研究為例,文件一般包含3列:樣本(Sample)、性別(Sex)和表型(Phenotype)。

圖片

注意:性別用數(shù)值表示,0表示未知、1表示男、2表示女、-9表示缺失;表型也用數(shù)值表示,0表示未知、1表示對(duì)照組、2表示實(shí)驗(yàn)組、-9表示缺失。不要出現(xiàn)空缺值!

02 基因型數(shù)據(jù) 

基因型是指一個(gè)個(gè)體在某個(gè)特定基因位點(diǎn)上所擁有的等位基因的組合。每個(gè)基因位點(diǎn)可以有不同的等位基因,這些等位基因是由父母各自傳遞的一個(gè)單倍體組成。

那基因型數(shù)據(jù)從哪里獲取呢?通常有兩種方式可以獲取:
① 基于SNP芯片獲取基因型數(shù)據(jù)
② 基于基因組測(cè)序獲取基因型數(shù)據(jù)

這里我們以VCF文件為例,從”#CHROM”列開始就是變異數(shù)據(jù):

圖片

注意:由于原始變異文件中有大量不可靠變異,建議使用過濾后的VCF文件(比如篩選PASS)進(jìn)行后續(xù)分析。

由于GWAS分析需要?jiǎng)虞m幾百上千例的數(shù)據(jù),客戶很難湊齊那么多樣本,特別還要額外的正常樣本作為對(duì)照,對(duì)客戶而言又是一筆很大的支出!這個(gè)時(shí)候我們可以采用既有的正常人數(shù)據(jù)作為對(duì)照組,最典型的就是使用千人基因組計(jì)劃數(shù)據(jù)為對(duì)照。

現(xiàn)在表型數(shù)據(jù)和基因型數(shù)據(jù)都有了,該如何使用呢?由于整個(gè)關(guān)聯(lián)分析流程是基于PLINK軟件,那么就需要將基因型數(shù)據(jù)轉(zhuǎn)換為PLINK軟件能識(shí)別的格式,同時(shí)也利于提高數(shù)據(jù)處理效率。PLINK中有兩類數(shù)據(jù)格式,在分析過程都會(huì)用到:

1. ped/map格式

> ped格式文件:
包含每個(gè)樣本的基本信息(族系、名稱、性別等)、表現(xiàn)型信息(phenotype)、基因型信息(第7列之后)。每行表示一個(gè)樣本,該文件沒有表頭,具體列數(shù)取決于該樣本所含SNPs位點(diǎn)數(shù)。

圖片

第一列:Family ID,族系ID;
第二列:Individual ID,個(gè)體(如樣本間無族系聯(lián)系,F(xiàn)amily ID和Individual ID可以一樣);
第三列:Paternal ID,父系ID,0表示未知,-1表示無父親/缺失;
第四列:Maternal ID,母系ID,0表示未知,-1表示無母親/缺失;
第五列:Sex,性別,1 男,2 女,0 或 其他值 表示未知;
第六列:Phenotype,表型值,根據(jù)研究類型定義;
后續(xù)列:從第七列開始,每?jī)闪写碓摌颖舅囊粋(gè)SNP的基因型:如第七、八列代表第一個(gè)基因型(GG),第九、十列代表第二個(gè)基因型(GG)等等。

> map格式文件:
記錄每個(gè) SNP 的染色體位置和遺傳學(xué)信息。每行對(duì)應(yīng)一個(gè) SNP,該文件沒有表頭,每行包含四列。

圖片

第一列:染色體編號(hào);
第二列:變異標(biāo)識(shí)符,這里是rs編號(hào)(有的話)或其他方式;
第三列:遺傳距離(摩爾根,單位cM),未知情況下寫0即可;
第四列(可選):SNP在染色體上物理位置,跟第三列必有一列。

2. bed/bim/fam格式

> bed格式文件:
存儲(chǔ)基因型信息(二進(jìn)制),每行對(duì)應(yīng)一個(gè)樣本。由于是二進(jìn)制格式不能直接打開。

第一列:樣本的 ID(需與 .fam 文件中的 IID 一致);
后續(xù)列:每?jī)闪袨橐粋(gè) SNP 的兩個(gè)等位基因(按順序排列,如 A/C 或 0/1)。其中0、1、2分別對(duì)應(yīng)了aa、Aa或aA和AA。

> bin格式文件:
存儲(chǔ)每個(gè) SNP 的元信息(染色體位置、遺傳學(xué)距離等)。每行對(duì)應(yīng)一個(gè)SNP。

圖片

第一列:Chr,染色體編號(hào);
第二列:SNP,標(biāo)記名稱;
第三列:GD,遺傳距離(摩爾根),未知情況下寫0;
第四列:BPP,變異位點(diǎn)物理位置(單位:bp);
第五列:Allele 1,一般情況下為次要等位基因;
第六列:Allele 2,一般情況下為主要等位基因。

> fam格式文件:
存儲(chǔ)樣本的家系關(guān)系和表型信息,每行對(duì)應(yīng)一個(gè)樣本。

圖片

第一列:FID,家系ID;
第二列:IID,個(gè)體ID;
第三列:父本個(gè)體ID,沒有用0表示,-1表示缺失;
第四列:母本個(gè)體ID,沒有用0表示,-1表示缺失;
第五列:SEX,性別,1表示男性,2表示女性,0表示未知;
第六列:Phenotype,表型值。

小結(jié):fam文件就是ped文件前六列。此外這里可以通過手動(dòng)添加補(bǔ)全表型、性別信息。

那怎么通過vcf格式數(shù)據(jù)得到ped/map格式和bed/bim/fam格式數(shù)據(jù)呢?直接上命令:
vcf轉(zhuǎn)ped/map格式:
plink --vcf test.vcf.gz --recode --out test
vcf轉(zhuǎn)bed/bim/fam格式:
plink --vcf test.vcf.gz --make-bed --out test
ped/map轉(zhuǎn)bed/bim/fam格式:
plink --file test --make-bed --out test
bed/bim/fam轉(zhuǎn)ped/map格式:
plink --bfile test --recode --out test

以上就是本期分享的內(nèi)容,下一期我們將講解如何對(duì)plink格式數(shù)據(jù)進(jìn)行質(zhì)控過濾。

發(fā)布者:上海生物芯片有限公司
聯(lián)系電話:400-100-2131
E-mail:marketing@shbiochip.com

用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
主站蜘蛛池模板: 久久成年人视频 | 欧美一区亚洲二区 | 国外AV无码精品国产精品 | 男人色综合 | 色偷偷噜噜噜亚洲男人的天堂 | 日本一区二区成人 | 国产中文字幕一区 | 精品久久网站 | 成人试看120秒体验区视频 | 91av成年影院在线播放 | 在线看片免费不卡人成视频 | 日韩欧美三 | 精品久久网站 | 岛国精品一区二区三区 | 久久久亚洲欧洲日产国码aⅴ | 亚洲青青草 | 欧美日韩色网专区 | 特级片网站| 99久久久久久99国产精品免 | 欧美熟少妇videos波多野结衣 | 红桃影院在线观看 | 中文字幕韩国三级理论无码 | wwwwww黄| 丰满五十六十老熟女hd | 亚洲精品国品乱码久久久久 | 中文色视频 | 日韩AV无码AV免费AV不卡 | 成人一级毛片免费看 | 91成人在线免费视频 | 大地中文在线播放 | 青青草无码免费一二三区 | 精品麻豆一卡2卡三卡4卡乱码 | 2021在线不卡国产麻豆 | 交视频在线播放 | 在线观看视频在线高清免费播放网站 | 国产亚洲精品久久yy5099 | 久久久久久综合 | 国产91免费观看 | 精品国产福利在线 | 三黑人玩一女一男视频 | 日本无限资源 |