美國國家癌癥研究所的研究人員在近日發表的有關Proton和HiSeq 平臺的對比研究顯示,在進行外顯子組測序時,Life Technologies的Ion Proton和Illumina的HiSeq 2000在單核苷酸變異檢測方面均表現良好,但在準確檢測插入缺失時存在某些問題。
該研究于本月初刊載在《人類遺傳學》上,很可能是首個發表的有關這兩個平臺性能對比的研究。該研究將采用Proton和HiSeq對HapMap CEPH三元家族生成的全外顯子組測序數據檢測到的變異進行了比較。此外,還對從Complete Genomics公司獲得的全基因組測序數據的變異以及相同三元家族的Illumina SNP微陣列數據的變異進行了對比。
美國國家癌癥研究所(NCI)癌癥基因組學研究實驗室的研發部主任和該研究的首席作者Joe Boland聲稱,本項目旨在評估其實驗室能否將去年九月安裝的Ion Proton常規用于外顯子組測序,以作為HiSeq的可行替代方案。Joe Boland表示,“HiSeq是目前研究的黃金標準”。
“令人興奮的是,答案是肯定的,Proton的表現與HiSeqs旗鼓相當”,Joe Boland告訴《In Sequence》!拌b于我們在PGMs方面的經驗,對于一個新平臺而言,我們希望它具有競爭力,但又不指望其像數據中所顯示的那樣卓越——因為它已經遠遠超出了我們對它的期盼!
Proton和HiSeq 平臺在單核苷酸變異檢測方面表現良好,但在插入缺失上卻存在差異,出現某些問題。“這兩個平臺在檢測插入缺失方面有利有弊。我認為,如果您只需在[生成數據]后進行仔細的搜集,則這兩個平臺足以滿足您的需求”, Boland說。
NCI實驗室最近配置了六臺Ion Torrent PGM,四臺Ion Proton,一臺HiSeq 2000,一臺HiSeq 2500 ,以及一臺MiSeq。
開展研究后,研究人員于12月和1月生成了相關數據,并在2月的基因組生物學和技術進步會議(IS 2/26/2013)上提交了初步結果。目前,該實驗室根據機器的可用性以及生成結果的速度采用HiSeqs和 Protons進行全外顯子組測序。 實驗室的多個項目涉及家族性外顯子組研究,如果HiSeqs被預定完,則將轉為采用Proton進行小型家族性外顯子組研究,Boland表示。 “由于這兩個平臺的質量目前不相上下,如果我們從一個平臺轉向采用另一個平臺,這不會給我們的研究人員帶來任何困難”。 實驗實驗室目前主要采用Protons開展轉錄組測序研究,Boland說。
實驗室采用任一平臺進行全外顯子組測序時,各樣本的費用差額在$150以內,Boland表示,“在確定運行哪個平臺時,價格不是主要的考慮因素”。
為進行對比,研究人員采用Ion Proton和HiSeq 2000對CEPH三元家族的外顯子組進行了測序。為捕獲外顯子組數據,研究人員在采用Proton 時使用的是Life Tech的TargetSeq Exome v2,可包含50百萬堿基序列;而在采用Illumina時使用的是NimbleGen SeqCap EZ Exome v3,其能捕獲約64百萬堿基序列。 研究人員將其分析限制在43百萬堿基序列上,即兩個外顯子組捕獲試劑的重疊部分。
采用Proton進行測序時,各樣本至少生成9千兆堿基數據,其中80%的讀數直指目標。為檢測變異,通過Ion Reporter的標準管道運行數據。
采用HiSeq進行測序時,各樣本至少生成11千兆堿基數據,其中66%的讀數直指目標。使用GATK管道檢測變異。
在共享外顯子組中,采用Proton時,各樣本平均檢測到了約28,000個變異,而采用Illumina時為34,000個——兩個平臺共享了約3/4的變異。
兩個平臺在進行單核苷酸變異檢測時產生的結果大幅重疊,遠遠超過了插入缺失的重疊部分。以代表樣本為例,兩個平臺都檢測出了約25,700個單核苷酸變異。 此外,僅Proton 檢測出了1,100個單核苷酸變異,而僅HiSeq檢測出了7,000個。
以相同樣本為例,這兩個平臺共同檢測出了約600個插入缺失,但是,Proton和HiSeq還分別檢測了另外的880個和920個插入缺失。研究人員在對特定平臺的插入缺失亞群進行分析時發現,“由于比對問題及/或均聚物序列,很多插入缺失呈現出假陽性”。
研究人員還將通過Proton、HiSeq和Complete Genomics 檢測出的單核苷酸變異和插入缺失進行了比較,發現這三個平臺檢測出了66%的(或23,700個)單核苷酸變異,但是僅檢測出了18%(總共530個)的插入缺失。
Proton檢測出了830個特定于該平臺的插入缺失;之后是Complete,為540個;最后是Illumina,為440個。科學家們得出結論,其分析“在檢測較小的插入缺失時,識別出了各方法存在的主要差異,這給進一步提高技術測序及/或生物信息學算法提出了重大挑戰”。
在 將采用Proton 和HiSeq得出的SNP基因分型與三個三元樣本中的兩個的SNP微陣列數據進行比較時,科學家們發現,經采用這兩個平臺,各樣本表現出很高的一致性,高達99%,表明SNP檢測具有較高質量。
研究人員還通過檢測和分析讀數比對,更加密切地關注特定平臺變異的檢測情況。
很多Illumina平臺的特定單核苷酸變異為片段重復或簡單重復。 研究人員指出,根據Proton的數據,可以發現單拷貝區的單核苷酸變異具有較低的覆蓋率,因此Proton很可能遺漏了該等單核苷酸變異;但是Illumina的數據中也可能遺漏了SNP檢測,該等檢測在Proton的數據中“明顯且清晰”。
Boland說,其采用兩種不同的捕獲試劑的原因在于,在Proton平臺使用NimbleGen(羅氏)或Agilent(安捷倫)SureSelect捕獲試劑時尚無任何“商業許可”協議!拔覀兊南敕ㄊ,采用任何批準的東西,以便于人們從貨架上選擇產品并進行使用”,Boland說。由于僅對重疊區域進行了分析并僅使用了相同的DNA樣本,“在我們看來,這樣做是絕對有效的”。
在論文中,研究人員指出,較之HiSeq ,Proton的運行時間 “明顯縮短”, 僅為11.5小時(包括數據處理的時間),而前者通常需要六天的運行時間。
自從開展該項研究后,也對Proton進行了改進。據Mike Lelivelt—Ion Torrent的生物信息學和軟件產品主管說,由于提高了各芯片的輸出性能,目前,客戶可以采用各PI芯片同時對兩個(而非一個)外顯子組進行測序。
Mike Lelivelt在研究中聲稱,公司“對Proton系統用于外顯子組測序的表現感到十分滿意”,這表明“盡管對于各平臺而言,進行準確的插入缺失檢測仍然任重道遠”,但是,“該等平臺在單核苷酸變異檢測方面已經遙遙領先”。Mike Lelivelt還指出,在所有變異中,插入缺失檢測的比例要遠低于單核苷酸變異檢測。
Boland說,其小組目前正在開展其他的平臺比較,此類平臺關注于全轉錄組測序和擴增子測序。該小組還對特定平臺的單核苷酸變異和插入缺失做了進一步分析,以探明其他平臺遺漏該等單核苷酸變異和插入缺失的原因。 Boland計劃于秋季提交其研究的最初結果。