GenBank

簡介

大型資料庫分成若干子庫，有許多好處。首先，可以把資料庫查詢限定在某一特定部分，以便加快查詢速度。其次，基因組計畫快速測序得到的大量序列尚未加以注釋，將它們單獨分類，有利於資料庫查詢和搜尋時“有的放矢”。GenBank將這些數據按高通量基因組序列（HighThroughput Genomic Sequences，HTG）、表達序列標記（Expressed Sequence Tags，EST）、序列標記位點（SequenceTaggedSites，STS）和基因組概覽序列（Genome Survey Sequences，GSS）單獨分類。儘管這些數據尚未加以注釋，它們依然是GenBank的重要組成部分。

可通過Entrez資料庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構資料庫整合在一起。此外，通過該系統的文獻摘要資料庫MEDLINE，可獲取有關序列的進一步信息。在全球資訊網上，進入NCBI的主頁，可以用BLAST程式對GenBank資料庫進行未知序列的同源性搜尋（詳見第六章）。

完整的GenBank資料庫包括序列檔案，索引檔案以及其它有關檔案。索引檔案是根據資料庫中作者、參考文獻等子段建立的，用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫，其數據格式為FastA。GenBank曾以CD-ROM光碟的形式分發，價格比較便宜。隨著資料庫容量的增長，一套最新版的GenBank需要12張光碟存放，不僅生產成本很高，也不便於使用。現在，光碟分發的方式已經停止，可以通過網路下載GenBank資料庫。

GenBank中最常用的是序列檔案。序列檔案的基本單位是序列條目，包括核甘酸鹼基排列順序和注釋兩部分。目前，許多生物信息資源中心通過計算機網路提供該資料庫檔案。下面，我們介紹序列檔案的結構。

序列檔案由單個的序列條目組成。序列條目由欄位組成，每個欄位由關鍵字起始，後面為該欄位的具體說明。有些欄位又分若干次子欄位，以次關鍵字或特性表說明符開始。每個序列條目以雙斜槓“//”作結束標記。序列條目的格式非常重要，關鍵字從第一列開始，次關鍵字從第三列開始，特性表說明符從第五列開始。每個欄位可以占一行，也可以占若干行。若一行中寫不下時，繼續行以空格開始。

序列條目的關鍵字包括代碼（LOCUS），說明（DEFINITION），編號（ACCESSION），核酸標識符(NID），關鍵字（KEYWORDS），數據來源（SOURCE），文獻（REFERENCE），特性表（FEATURES），鹼基組成（BASE COUNT）及鹼基排列順序（ORIGIN）。

代碼LOCUS是該序列條目的標記，或者說標識符，蘊涵這個序列的功能。例如，圖中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容，如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述，如本例為人環氧化酶-2的mRNA全序列。

GenBank

基本介紹

簡介

使用說明

相關詞條

熱門詞條