開放讀碼框

簡介

在構成基因的核苷酸序列中存在一些最終翻譯成蛋白的鹼基段。每三個連續鹼基，名為三聯“密碼子”——編碼相應的胺基酸（胺基酸是構成蛋白的基本單位）。有三個“密碼子”提供終止信號，也就是說，當從DNA和RNA合成蛋白鏈並使其不斷延伸的細胞機器遇到代表終止的“密碼子”時，蛋白的延伸反應終止，一個成熟（或提前終止的突變蛋白）產生。

研究方法

現在有很多找ORF的軟體，包括線上的，如：ORF Finding。

軟體功能

ORF Finding 被用來預測已存在的編碼區的小基因序列。它較早應於序列設計，套用優於長片斷、高質量的匹配。進而，它提供了比用標準基因編碼查詢更有用的信息。ORF Finding 把提交序列分成六個亞區，並對這六個閱讀框分別進行默認，賦予每個亞區一個確定其編碼內容的度量，如果可能，將對每一亞區進行進一步分析。每個亞區按照已有的分類結果，被隨機提交給查找它們是否編碼蛋白質的特定測試收集器。最後只有那些具有編碼潛能的重要區域才被報導。ORF Finding 識別是證明一個新的DNA序列編碼特定的蛋白質的部分或全部的先決條件，可用於大規模的開放式閱讀框尋找。

使用說明

測試過程:當一個基因被識別、其DNA序列被解讀時，人們往往仍然無法弄清相應的蛋白序列是什麼。這是因為在沒有其它信息的前提下，DNA序列可以按六種框架閱讀和翻譯（每條鏈三種，對應三種不同的起始密碼子）。 ORF Finding 針對小基因序列，搜尋並報導可能的蛋白質編碼區，它檢測這六個閱讀框架，並尋找以啟動子和終止子為界限的DNA序列，符合這些條件的序列有可能對應一個真正的單一的基因產物。

原理

ORF Finding 通過如下方式處理您的序列：

定位六個閱讀框上的ORF候選區域對每個候選區域的編碼可能性進行評估。如果可能性很高，就把該區域作為可能的蛋白質編碼區進行報導。

編碼可能性：是通過從物種訓練模擬器收集來的統計數據確定的用。ORF Finding 進行蛋白質編碼區的預測，有三步程式。

第一步：延伸無終止密碼子的序列，把延伸的片斷定位在六個閱讀框上；它們是下一步進行開放式閱讀框研究的候選序列。

第二步：用物種hexamer統計表來估算ORF候選區域上蛋白質編碼部分編碼蛋白質的最大可能性。

第三步：根據序列結構和區域最可能成分來計算蛋白質編碼的可能性。

這種測試利用物種的統計學原理把編碼區從非編碼區區分出來，其中包括編碼蛋白質的最大可能性的估算、3 個過程的測試和 ORF片斷大小的確定。這種測試套用於物種的二次形式,得到一個三個自由度的 chi-square統計量，被稱為候選ORF的二次判別式。這個判別式對於編碼區趨向於取大值，對於非編碼區趨向於小值，並被固定化，所以非編碼區獲取的值趨向於小於1。一般通過第一步和第二步,大約61%的非編碼區域產生值小於1的二次判別式。89%的區域的期望值小於2。經多次套用發現，5.0的結果很理想，它是介於正、誤之間的閾值。

開放讀碼框

基本介紹

簡介

研究方法

軟體功能

使用說明

原理

相關詞條

熱門詞條