GenBank資料庫

資料庫

資料庫包括序列檔案

完整的GenBank資料庫包括序列檔案，索引檔案以及其它有關檔案。索引檔案是根據資料庫中作者、參考文獻等建立的，用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫，其數據格式為FastA。GenBank中最常用的是序列檔案。序列檔案的基本單位是序列條目，包括核苷酸鹼基排列順序和注釋兩部分。

結構及特性

介紹序列檔案的結構

目前，許多生物信息資源中心通過計算機網路提供該資料庫檔案。下面，我們介紹序列檔案的結構。GenBank序列檔案由單個的序列條目組成。序列條目由欄位組成，每個欄位由關鍵字起始，後面為該欄位的具體說明。有些欄位又分若干次子欄位，以次關鍵字或特性表說明符開始。每個序列條目以雙斜槓“//”作結束標記。

特性

序列條目的格式非常重要，關鍵字從第一列開始，次關鍵字從第三列開始，特性表說明符從第五列開始。每個欄位可以占一行，也可以占若干行。若一行中寫不下時，繼續行以空格開始。[連結1.2.3.1.1-1]。

序列條目

關鍵字

序列條目的關鍵字包括LOCUS （代碼），DEFINITION （說明），ACCESSION （編號），NID符（核酸標識），KEYWORDS （關鍵字），SOURCE （數據來源），REFERENCE （文獻），FEATURES （特性表），BASE COUNT （鹼基組成）及ORIGIN （鹼基排列順序）。先版的核酸序列資料庫將引入新的關鍵字SV （序列版本號），用“編號.版本號”表示，並取代關鍵字NID。LOCUS （代碼）：是該序列條目的標記，或者說標識符，蘊涵這個序列的功能。例如，圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容，如序列長度、類型、種屬來源以及錄入日期等。

簡單描述

說明欄位是有關這一序列的簡單描述，如本例為人環氧化酶-2的mRNA全序列。ACCESSION （編號）：具有唯一性和永久性，如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列，在文獻中引用這個序列時，應該以此編號為準。KEYWORDS （關鍵字）欄位：由該序列的提交者提供，包括該序列的基因產物以及其它相關信息，如本例中環氧化酶-2 (cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。SOURCE （數據來源）欄位：說明該序列是從什麼生物體、什麼組織得到的，如本例中人臍帶血（umbilical vein）。次關鍵字ORGANISM （種屬）指出該生物體的分類學地位，如本例人、真核生物等等（詳見圖4.1）。REFERENCE （文獻）欄位：說明該序列中的相關文獻，包括AUTHORS （作者），TITLE （題目）及JOURNAL （雜誌名）等，以次關鍵字列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。

GenBank資料庫

基本介紹

資料庫

結構及特性

序列條目

關鍵字

簡單描述

文獻

摘要

位置

相關詞條

熱門詞條