在生物學(xué)研究的"問題導(dǎo)向型"與"數(shù)據(jù)驅(qū)動(dòng)型"兩大主流范式中,前人已發(fā)表的組學(xué)數(shù)據(jù)正由"輔助材料"向"核心資源"轉(zhuǎn)型。這些數(shù)據(jù)在驗(yàn)證假設(shè)、發(fā)現(xiàn)新規(guī)律、突破實(shí)驗(yàn)瓶頸等方面具有不可替代的作用:
1. 驗(yàn)證與糾偏
通過分析他人數(shù)據(jù),可驗(yàn)證研究結(jié)果的普遍性和可重復(fù)性。
2.數(shù)據(jù)整合與統(tǒng)計(jì)效力提升
對(duì)于受限于樣本量的研究(如罕見病研究),整合多源數(shù)據(jù)可顯著增強(qiáng)研究結(jié)論的可信度。
3.科學(xué)新發(fā)現(xiàn)的"孵化器"
已發(fā)表數(shù)據(jù)中常蘊(yùn)含未被關(guān)注的關(guān)聯(lián)性。例如:從癌癥基因組數(shù)據(jù)中發(fā)掘新突變熱點(diǎn),或通過跨物種比較揭示進(jìn)化規(guī)律。
4.資源與倫理限制下的替代方案
針對(duì)高成本實(shí)驗(yàn)(如長(zhǎng)期生態(tài)監(jiān)測(cè))或倫理敏感研究(如人類疾病模型),合理利用公開數(shù)據(jù)可顯著縮短研究周期并降低成本。
盡管已發(fā)表數(shù)據(jù)價(jià)值顯著,研究者在實(shí)際應(yīng)用中常面臨以下挑戰(zhàn):
01 文獻(xiàn)里的數(shù)據(jù)找不到來源
文獻(xiàn)通常在方法或結(jié)論部分設(shè)置"Data availability"板塊,說明數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)及對(duì)應(yīng)ID(圖1)。部分文獻(xiàn)可能將相關(guān)信息置于附錄或"STAR METHODS"中的"KEY RESOURCES TABLE"(圖2)。對(duì)于作者使用的第三方數(shù)據(jù),需通過數(shù)據(jù)引用文獻(xiàn)追溯來源。
快速定位技巧:搜索“data availability”、“availability”、“access”、“accessible”、“raw data”、“processed”等關(guān)鍵詞。若出現(xiàn)“Any additional data are available from the corresponding author upon reasonable request”等表述,則表明數(shù)據(jù)未公開。
02 數(shù)據(jù)庫(kù)界面復(fù)雜或全是英文,不知道該怎么操作
多數(shù)數(shù)據(jù)庫(kù)因收錄數(shù)據(jù)多樣且功能復(fù)雜,導(dǎo)致界面復(fù)雜,加之全英文操作界面,顯著增加學(xué)習(xí)成本。這也是我們撰寫本系列文章的初衷,后續(xù)將逐一詳解各類數(shù)據(jù)庫(kù)的使用方法。
03 不知道該如何選擇合適的數(shù)據(jù)庫(kù)
不同的數(shù)據(jù)庫(kù)里能下載到的數(shù)據(jù)也有各自特色。比如GEO數(shù)據(jù)庫(kù)主要提供processed data(原始定量或標(biāo)準(zhǔn)化定量結(jié)果等),SRA專注原始測(cè)序數(shù)據(jù)。Zenodo數(shù)據(jù)庫(kù)可能會(huì)包含中間數(shù)據(jù)(如R語(yǔ)言的rds格式)以及配套代碼等。各位老師可以根據(jù)需求選擇合適數(shù)據(jù)庫(kù)。
04 數(shù)據(jù)庫(kù)中的數(shù)據(jù)不知道該如何使用,使用時(shí)有什么注意事項(xiàng)
作者上傳到數(shù)據(jù)庫(kù)中的組學(xué)數(shù)據(jù)通常包含原始數(shù)據(jù)、原始定量(count)結(jié)果以及標(biāo)準(zhǔn)化后的定量結(jié)果等等。整合分析時(shí)有以下要點(diǎn)要注意:
1)參考基因組是否相同。敲黑板,畫重點(diǎn),合并分析前必須確認(rèn)雙方使用相同參考基因組版本。
2)選擇遺傳背景一致性較高的樣本數(shù)據(jù),可顯著增強(qiáng)分析結(jié)論的重現(xiàn)性。
3)選擇數(shù)據(jù)集時(shí)要注意定量分析軟件和試劑的版本。比如10X Genomics公司單細(xì)胞轉(zhuǎn)錄組測(cè)序?qū)S玫亩糠治鲕浖﨏ell Ranger,早期版本的軟件細(xì)胞鑒定策略和現(xiàn)版本有很大差別,實(shí)驗(yàn)試劑也在不斷升級(jí)。如果下載使用的processed data是早期版本的結(jié)果,可能會(huì)因版本迭代造成差異,降低分析結(jié)果可靠性。
4)數(shù)據(jù)整合時(shí)要用相同的數(shù)據(jù)標(biāo)準(zhǔn)化方法。建議下載數(shù)據(jù)時(shí)使用原始定量而不是已經(jīng)標(biāo)準(zhǔn)化后的定量結(jié)果。這里分享一個(gè)竅門。對(duì)于轉(zhuǎn)錄組測(cè)序數(shù)據(jù),原始定量矩陣中基因表達(dá)值都是整數(shù),而標(biāo)準(zhǔn)化后的結(jié)果一般是小數(shù),可以根據(jù)這一點(diǎn)判斷下載的數(shù)據(jù)類型。
5)有時(shí)我們下載到的定量結(jié)果基因名是數(shù)據(jù)庫(kù)ID(比如人PTRPC基因在Ensembl數(shù)據(jù)庫(kù)中的ID:ENSG00000081237)。數(shù)據(jù)庫(kù)在更新時(shí)可能更改基因的ID,必要時(shí)進(jìn)行ID轉(zhuǎn)換。
6)當(dāng)數(shù)據(jù)整合時(shí)發(fā)現(xiàn)PCA和樣品相關(guān)性結(jié)果存在批次差異時(shí),需要校正批次差。
用好公共數(shù)據(jù),借助前人的成果加速你的研究。下期詳解GEO數(shù)據(jù)庫(kù)使用技巧,敬請(qǐng)期待!