基因組注釋

基因組注釋

基因組注釋(Genome annotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。

基本介紹

  • 中文名:基因組注釋
  • 外文名:Genome annotation
  • 方法開發環境
  • 特點:當前功能基因組學研究
概念,系統方法,

概念

基因組注釋(Genome annotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預測新基因,現階段主要是3 種方法的結合: (1) 分析mRNA 和EST數據以直接得到結果; (2) 通過相似性比對從已知基因和蛋白質序列得到間接證據[1] ; (3) 基於各種統計模型和算法從頭預測。對預測出的基因進行高通量功能注釋可以藉助於以下方法,利用已知功能基因的注釋信息為新基因注釋: (1) 序列資料庫相似性搜尋; (2) 序列模體(Motif) 搜尋; (3) 直系同源序列聚類分析(Cluster of orthologousgroup ,COG) [2] 。隨著微生物全基因組序列測定速率的加快,開發有Web 接口的高效、綜合基因組注釋系統十分必要。近年來,國際上已有一些這樣的工具,如基於Java 的微生物基因組資料庫接口。儘管JMGD 提供了一個很好的圖形化接口程式,卻並不具有基因組自動注釋功能。德國國家環境和健康研究中心開發的蛋白質摘錄、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因組分析系統,整合了大量基因組功能信息和結構信息。PEDANT 注釋功能強大[3] ,適用範圍廣,但沒有便於操作的圖形界面,而且需要較強的硬體系統支持。目前,微生物基因組全序列測定通常由中小實驗室獨立完成,有必要開發和集成基於PCPLinux 系統並以免費資料庫管理系統、免費軟體和公共資料庫資源為主的基因組信息注釋系統。
圖1 基因組重疊連續群測試序列注釋結果圖1 基因組重疊連續群測試序列注釋結果

系統方法

本系統基於PC 微機,作業系統為Linux。測試系統為PIII 550 雙CPU 微機,記憶體1GB ,運行RedHat 710 Linux 系統。資料庫管理系統使用MySQL ,Web 伺服器程式使用Apache ,應用程式接口用Perl 腳本語言編寫。本系統也可在單CPU 微機上運行,記憶體不小於512MB。所有系統軟體和套用軟體均可以從Internet 網上免費獲得。
112  測試數據
本系統用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續群(Contig) 作測試數據,共3 03247bp 。
113  MGAP 的基因組注釋系統
基因組注釋系統是MGAP 的核心,整合了許多常用的基因識別和蛋白質功能預測軟體,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個資料庫,如非冗餘蛋白質序列資料庫(Non redundant , NR) 、已知三維空間結構的蛋白質序列資料庫(PDBSeq) 、國際蛋白質資源信息系統( InterPro) [6] 和直系同源蛋白質家族資料庫(Cluster of orthologousgroups ,COG) 等,編寫了相應的模組進行自動操作,並把每一步注釋結果導入資料庫中。MGAP 整合的一般模組,可以被其他任何一種微生物基因組直接使用。不同實驗室可根據實際研究需要,增加相應模組或數據,如藍細菌Anabaena sp. strain PCC 7120 的蛋白質序列庫等。
基因識別是MGAP 的第一步,本系統採用微生物基因組基因識別最為權威的Gene2Marks 軟體進行基因預測,通過http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 網站提交重疊連續群測試序列(3 03247bp) ,使用GeneMarks 預設參數,預測得到279 個基因。
然後用MGAP 的數據載入模組(Loaddata) 將預測結果導入ORF 表中。
114  MGAP 的用戶接口
用戶接口用於展示注釋結果,提供易於操作和分析平台。本系統用戶接口基於Web設計開發,用戶可通過瀏覽器訪問基因組注釋系統,包括基因組環狀圖展示、基因和ORF在染色體上分布圖,並對注釋信息進行檢索。基因組環狀基因分布圖構建基於如下信息:預測所得基因的起始位置、長度,編碼基因的正負鏈信息,以及預測的基因功能分類。
2  結果
圖1 是MGAP 系統對PCC7002 基因組重疊連續群測試序列注釋結果。A 為基因展示圖,B 為ORF 顯示頁面。A 中由外向內依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統計; (4) GC 偏離量統計。該系統構建的環狀基因組,可顯示正負鏈上的編碼基因,用相應顏色表示功能類別。本系統沿用經典蛋白質功能分類方法[8] ,即把微生物基因組所有基因按功能分為16 大類,進而細分為113 個子類。此外,還增加了統計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時以200bp 為滑動視窗,計算GC 偏離量時以13kb 為滑動視窗。GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) [9] 。點擊A圖中環狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁面。點擊圖中某個ORF ,即可調出其所有注釋信息,包括該ORF 在基因組中的位置、長度、正負鏈信息、核酸和蛋白序列,以及對NR 蛋白庫、COG資料庫、InterPro 、PDBseq 資料庫的搜尋結果。所有結果都有相對應的連線可以直接連到原始資料庫。
3  討論
新基因組功能注釋是基因組研究的重要方面,MGAP 把注釋所用軟體和公共資料庫進行有機集成,使注釋過程自動進行並把結果存儲到資料庫系統中,最終提供友好的界面,可為中小實驗室提供方便實用的微生物基因組注釋系統,減少人工參與,提高注釋效率。該系統考慮到國內一般中小實驗室的實際情況,基於廉價的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟體系統開發。
必須指出,目前所有計算機注釋信息,均不能保證完全準確。MGAP 在一定程度上依賴於現有資料庫中的注釋信息。由於各種原因,這些注釋信息必然有一些錯誤。顯然,這些錯誤信息將不可避免地引入新的注釋系統。為此,MGAP 綜合了多種注釋方法,並互為補充。例如,一個ORF 既有BLASTP從NR 資料庫搜尋到的相似序列,又在InterPro 蛋白質模體庫中找到相應功能位點,也可找到高分匹配的COGs ,那么該注釋結果就比較可靠。此外,必要的人工注釋,可以避免或糾正自動注釋的錯誤。例如,由於測序錯誤產生的讀碼框移位或是缺失,會導致一個基因被拆分成兩段,這種錯誤目前只能由手工糾正。基因組注釋是一個複雜、繁瑣的過程,需要大量的生物學知識。詳盡、準確的注釋需要經過嚴格的生物學實驗才能獲得。本系統對測試序列的注釋結果仍有許多未知功能基因,需不斷擴充新數據而逐步更新。MGAP 的新版本將增加互動式用戶注釋模組,進一步擴充和增強該系統注釋功能。

相關詞條

熱門詞條

聯絡我們