遺傳序列資料庫

簡介

產生背景

隨著後基因組時代的到來，人們開始對於基因組及其成套產物的功能進行研究。在生命體內幾乎所有的基因組產物都是通過與其它各種分子發生相互作用而行使其功能的。

為了更好地保存和處理如此海量的生物序列數據，我們毫無疑問的將這些數據存儲到大型計算機的資料庫中。目前，國際上的公共資料庫有近百種，其中最著名的核酸和蛋白質序列資料庫有幾十種。據統計，這些資料庫中的數據量正在以指數速率增長，平均每年翻一番。

有了這些資料庫，人類將更方便地共享這些生物序列，更方便對這些數據進行分析處理。因為，到20世紀90年代，Internet技術已經相當成熟，人們可以方便的通過網路共享資源。因此，這些大型的資料庫每天都進行更新，並通過網路進行數據同步。這樣全世界的生物信息學研究人員獲取實驗數據就變得很方便了。另外，這些大型資料庫伺服器大多提供序列分析和基因檢索等序列分析服務。研究人員可以通過這些資料庫提供的先進的技術和工具對生物序列進行分析。

分類

根據資料庫中數據內容的不同，現有的生物序列資料庫有如下幾類：

基因序列資料庫，包括最著名的GenBank、EMBL、DDBJl等。這些資料庫每天更新，相互交換數據。目前，它們可以提供5萬多個物種的數百億鹼基對的基因序列。此外，它們還提供序列分析服務，支持線上和離線的序列分析。

蛋白質資料庫，其中最著名的是國際蛋白質資料庫PSD和瑞士的資料庫SWISS—PROT。它們僅僅提供蛋白質序列數據和一些蛋白質序列搜尋服務，如基於文本的互動式檢索，標準序列相似性搜尋，結合序列相似性、注釋信息和蛋白質家族信息的高級搜尋等。

功能資料庫，如KEGG，它是系統分析基因功能，聯繫基因組信息和功能信息的知識庫。它存儲了基因組序列和更高級的功能信息，包括圖解的細胞生化過程以及關於化學物質、酶分子、酶反應等信息。KEGG還提供了Java的圖形工具來訪問基因組圖譜，比較基因組圖譜和表達圖譜，以及其他序列、圖形比較等。

其它生物資料庫，包括RNA資料庫、線粒體資料庫、基因表達資料庫、密碼子資料庫、蛋白質三維結構資料庫和霉一代謝資料庫等等。

當前問題

序列資料庫的繁瑣冗長增加了科學家們要使用這些資源時的困難某個生物學家要獲取一個關於果蠅的核酸序列，從EMBL核酸資料庫中得到36個不同的核酸序列記錄。他們中沒有一個考慮當今的知識，例如，刊登遺傳因子捆綁位置。一些是突變株的等位基因，一些是不同的野生型等位基因，但是對於它們之間的差異投有完整的注釋。可憐的生物學家只想得到這個基因的決定性序列。當然，這不是真正的目的，然而卻非常實用。對第二代序列資料庫有明顯的需求，生物學的內容以較有條理的方式連線到序列上，而冗長的序列被合併(附有特別的注釋)。這些都應是以最初的序列資料庫為基礎，被具有必要的專門技術的機構來處理。一些遺傳資料庫正著手此類工程。

遺傳序列資料庫

基本介紹

簡介

產生背景

分類

當前問題

序列資料庫

蛋白質資料庫IPID

相關詞條

熱門詞條