2月16日發表在《公共科學圖書館•綜合》(PLoS ONE)期刊上的一份研究報告稱康涅狄格大學的遺傳學家Mark Longo及同事發現由頂級公共測序機構提供的測序結果構建的基因組數據庫中的大約1/5的細菌、植物和非靈長類動物基因組數據受到了人類DNA的污染,樣品處理有可能是導致DNA數據庫廣泛污染的最主要原因。這一研究報告引起了生物研究人員及各大權威媒體的高度關注,《科學家》(The Scientist)雜志以及《自然》(Nature)雜志均在其官方網絡上第一時間對這一事件進行了報道。
Mark Longo等在報告中呼吁科學家們需更加努力以確保測序獲得的基因組不受到污染,并應對來自公共基因組數據庫的基因組進行潛在污染檢測。
“基因組污染是一個大問題,但卻不是一個新問題,”加州大學進化生物學家、美國能源部聯合基因組研究所系統發育基因組學計劃負責人Jonathan Eisen說:“這篇論文或可幫助提醒人們注意這一問題。”
污染有可能在測序的任何一個階段導入到基因組序列中。有可能是空氣中的細菌落到了樣品中,或是滅菌后仍殘留在試劑中的DNA片段。但最常見的污染原因則可能是科學家自身,譬如在擴增前將自身的一個細胞落入了樣品中。
“研究人員戴手套進行實驗操作不僅是對自身的保護,并且也可避免樣品受到自身的污染,”論文的作者之一、康涅狄格大學分子遺傳學家Rachel O'Neill說道。
O'Neill實驗室的一位大學生在對基因組數據庫進行保守序列篩查時,興奮地發現大量物種間均存在一個相同的序列。然而當他嘗試在實驗室重復這些結果時卻失敗了。這位學生不禁開始質疑數據庫基因組是否存在污染,于是他與實驗室的同事合作對四個公共數據庫(UCSC Genome Browser數據庫,NCBI的GenBank數據庫,DOE Joint Genome Institute數據庫以及Ensembl)中保存的所有非靈長類基因組進行了人類特異性重復序列Alu元件的篩查。
在搜索的2057個原始序列基因組中,研究人員發現有454個存在人類Alu元件序列的污染,約占總數的22.39%。“我們發現污染的水平高到足以應引起人們注意的程度,”O'Neill說;“而這還僅只是來自于人類的污染,可以想象會有多少來自實驗室常見物種例如大腸桿菌等的污染存在。”
Eisen指出:“大量論文曾報道過物種間的水平基因轉移,如今不禁讓人質疑是否都僅是人類DNA污染數據所致。人類污染的頻率將要求科學家們不得不完成一些超過標準的實驗以確證他們的實驗結果。”
“當涉及到人類測序時,高水平的序列污染有可能會引發嚴重的后果,”O'Neill說:“在一個魚樣本中找到Alu元件非常的簡單。但是在一個人類樣本中尋找另一個人的樣本就非常的困難。根據如此高污染的序列來決定個體化治療的策略有可能會導致難以想象的悲劇。“
“隨著研究的不斷推進,科學家們必須投入更多的資金進行質量控制,然而在追求研究數據的壓力下質量控制的重要性卻被人拋諸在了腦后,”Eisen說:“如果每個人都能意識到數據質量的重要性將會有多好啊,但是目前這似乎很難做到。”