生物信息學

生物信息學

生物信息學(Bioinformatics)是研究生物信息的採集、處理、存儲、傳播,分析和解釋等各方面的學科,也是隨著生命科學計算機科學的迅猛發展,生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術而揭示大量而複雜的生物數據所賦有的生物學奧秘。

基本介紹

  • 書名:生物信息學
  • 作者霍奇曼
  • ISBN:978703 0288738
  • 定價:52.00元
  • 出版社科學出版社
  • 出版時間:2010年9月1日
  • 開本:16開
簡介,定義,經歷階段,發展簡介,研究方向,序列比對,蛋白質比對,基因識別分析,分子進化,序列重疊群(Contigs)裝配,遺傳密碼,藥物設計,生物系統,技術方法,其他,研究方法,機器學習,數學問題,統計學的悖論,度量空間的假設,統計學習,討論總結,啟發式方法,樂觀中的隱擾,總結,

簡介

生物信息學Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸蛋白質序列出發,分析序列中表達的結構功能的生物信息。

定義

一.生物信息學是一門收集、分析遺傳數據以及分發給研究機構的新學科(Bioinformatics is a new subject of genetic data collection,analysis and dissemination to the research community)。(林華安,Dr. Hwa A. Lim,1987)
二.生物信息學特指資料庫類的工作,包括持久穩固的在一個穩定的地方提供對數據的支持(Bioinformatics refers to database-like activities,involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time)。(林華安,Dr. Hwa A. Lim,1994)
三.生物信息學是在大分子方面的概念型的生物學,並且使用了信息學的技術,這包括了從套用數學、計算機科學以及統計學等學科衍生而來各種方法,並以此在大尺度上來理解和組織與生物大分子相關的信息。(Luscombe,2001)
具體而言,生物信息學作為一門新的學科領域,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質編碼區的信息後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的功能進行必要的藥物設計。基因組信息學,蛋白質空間結構模擬以及藥物設計構成了生物信息學的3個重要組成部分。從生物信息學研究的具體內容上看,生物信息學應包括這3個主要部分:⑴新算法和統計學方法研究;⑵各類數據的分析和解釋;⑶研製有效利用和管理數據新工具。
生物信息學是一門利用計算機技術研究生物系統之規律的學科。
生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜尋(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
1990年代以來,伴隨著各種基因組測序計畫的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?
生物信息學的另一個挑戰是從蛋白質的胺基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:“傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設”。
生物信息學的主要研究方向:基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學,1989年在美國舉辦生物化學系統論生物數學的計算機模型國際會議,生物信息學發展到了計算生物學、計算系統生物學的時代。
姑且不去引用生物信息學冗長的定義,以通俗的語言闡述其核心套用即是:隨著包括人類基因組計畫在內的生物基因組測序工程的里程碑式的進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,已達到每14個月翻一番的速度。同時隨著網際網路的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學產業發展的初級階段,這一階段的生物信息學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。
生物信息學產業的高級階段體現於此,人類從此進入了以生物信息學為中心的後基因組時代。結合生物信息學的新藥創新工程即是這一階段的典型套用。

經歷階段

  1. 前基因組時代(20世紀90年代前) 這一階段主要是各種序列比較算法的建立、生物資料庫的建立、檢索工具的開發以及DNA和蛋白質序列分析等。
  2. 基因組時代(20世紀90年代後至2001年) 這一階段主要是大規模的基因組測序,基因識別和發現,網路資料庫系統地建立和互動界面工具的開發等。
  3. 後基因組時代(2001至今) 隨著人類基因組測序工作的完成,各種模式生物基因組測序的完成,生物科學的發展已經進入了後基因組時代,基因組學研究的重心由基因組的結構向基因的功能轉移。這種轉移的一個重要標誌是產生了功能基因組學,而基因組學的前期工作相應地被稱為結構基因組學。

發展簡介

生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就必須先對分子生物學的發展有一個簡單的了解。研究生物細胞的生物大分子的結構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:遺傳因子是以生物成分存在,1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色。1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧定的量總是相等,腺嘌呤胸腺嘧啶的量相等。與此同時,Wilkins與Franklin用X射線衍射技術測定了DNA纖維的結構。1953年James Watson 和FrancisCrick在Nature雜誌上推測出DNA的三維結構(雙螺旋)。DNA以磷酸糖鏈形成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基對。這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的遺傳信息可以精確地進行複製。他們的理論奠定了分子生物學的基礎。DNA雙螺旋模型已經預示出了DNA複製的規則,Kornberg於1956年從大腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連線成DNA。DNA的複製需要一個DNA作為模板。Meselson與Stahl(1958)用實驗方法證明了DNA複製是一種半保留複製。Crick於1954年提出了遺傳信息傳遞的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起到了極其重要的指導作用。經過Nirenberg和Matthai(1963)的努力研究,編碼20胺基酸的遺傳密碼得到了破譯。限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程的技術基礎。正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息學的出現也就成了一種必然。2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮。由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每天106bp速度增長,生物信息迅速地膨脹成數據的海洋。毫無疑問,我們正從一個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發現的可能,"生物信息學"正是從這一前提產生的交叉學科。粗略地說,該領域的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA序列,結構,演化及其與生物功能之間的關係,其研究課題涉及到分子生物學,分子演化及結構生物學,統計學及計算機科學等許多領域。生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信息的獲取,處理,存儲,分配和解釋。基因組信息學的關鍵是"讀懂"基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的功能進行藥物設計。了解基因表達的調控機理也是生物信息學的重要內容,根據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律。它的研究目標是揭示"基因組信息結構的複雜性及遺傳語言的根本規律",解釋生命的遺傳語言。生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研究的前沿。

研究方向

生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些主要的研究重點。

序列比對

序列比對(Sequence Alignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列。在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列,比較兩個或多個序列的相似性,在資料庫中搜尋相關序列和子序列,尋找核苷酸(nucleotides)的連續產生模式,找出蛋白質和DNA序列中的信息成分。序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函式獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等。兩個序列比對常採用動態規劃算法,這種算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達10^9bp),這一方法就不太適用,甚至採用算法複雜性為線性的也難以奏效。因此,啟發式方法的引入勢在必然,著名的BLAST和FASTA算法及相應的改進方法均是從此前提出發的。

蛋白質比對

基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似。蛋白質是由胺基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等。胺基酸的序列內在的決定了蛋白質的3維結構。一般認為,蛋白質有四級不同的結構。研究蛋白質結構和預測的理由是:醫藥上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成。直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息。蛋白質3維結構研究的前提假設是內在的胺基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋。從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源建模(homology modeling)和指認(Threading)方法屬於這一範疇。同源建模用於尋找具有高度相似性的蛋白質結構(超過30%胺基酸相同),後者則用於比較進化族中不同的蛋白質結構。然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要。

基因識別分析

基因識別的基本問題是給定基因組序列後,正確識別基因的範圍和在基因組序列中的精確位置。非編碼區由內含子組成(introns),一般在形成蛋白質後被丟棄,但從實驗中,如果去除非編碼區,又不能完成基因的複製。顯然,DNA序列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中。分析非編碼區DNA序列沒有一般性的指導方法。在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜尋如此大的基因序列是難以想像的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。

分子進化

分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進化樹。既可以用DNA序列也可以用其編碼的胺基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似性。通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的。早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化的依據。較多模式生物基因組測序任務的完成,人們可從整個基因組的角度來研究分子進化。在匹配不同種族的基因時,一般須處理三種情況:Orthologous:不同種族,相同功能的基因;Paralogous:相同種族,不同功能的基因;Xenologs:有機體間採用其他方式傳遞的基因,如被病毒注入的基因。這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白質中的胺基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現。

序列重疊群(Contigs)裝配

根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。從算法層次來看,序列的重疊群是一個NP-完全問題。

遺傳密碼

通常對遺傳密碼的研究認為,密碼子與胺基酸之間的關係是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今。不同於這種"凍結"理論,有人曾分別提出過選擇最佳化,化學和歷史等三種學說來解釋遺傳密碼。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材。

藥物設計

人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療。基於生物大分子結構及小分子結構的藥物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊算法,在計算機上設計抑制劑分子,作為候選藥物。這一領域目的是發現新的基因藥物,有著巨大的經濟效益。

生物系統

隨著大規模實驗技術的發展和數據累積,從全局和系統水平研究和分析生物學系統,揭示其發展規律已經成為後基因組時代的另外一個研究 熱點-系統生物學。目前來看,其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70),系統穩定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統魯棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發展之中,以布爾網路 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統等(Bioinformatics,2007,336-43)方法在系統分析中已經得到應 用。很多模型的建立借鑑了電路和其它物理系統建模的方法,很多研究試圖從信息流、熵和能量流等巨觀分析思想來解決系統的複雜性問題(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長時間的努力,實驗觀測數據雖然在海量增加,但是生物系統的模型辨 識所需要的數據遠遠超過了數據的產出能力。例如,對於時間序列的晶片數據,採樣點的數量還不足以使用傳統的時間序列建模方法,巨大的實驗代價是系統建模主要困難。系統描述和建模方法也需要開創性的發展。

技術方法

生物信息學不僅僅是生物學知識的簡單整理和數學、物理學、信息科學等學科知識的簡單套用。海量數據和複雜的背景導致機器學習、統計數據分析和系統描述等方法需要在生物信息學所面臨的背景之中迅速發展。巨大的計算量、複雜的噪聲模式、海量的時變數據給傳統的統計分析帶來了巨大的困難, 需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機算法的開發中,需要充分考慮算法的時間和空間複雜度,使用並行計算、格線計算等技術來拓展算法的 可實現性。

其他

如基因表達譜分析,代謝網路分析;基因晶片設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,藥物基因組學,中藥基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法。從發展不難看出,基因工程已經進入了後基因組時代。我們也有應對與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認識。

研究方法

以數據(庫)為核心
1 資料庫的建立
2 生物學數據的檢索
3 生物學數據的處理
4 生物學數據的利用:計算生物學

機器學習

生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.常規的計算機算法仍可以套用於生物數據分析中,但越來越不適用於序列分析問題.究其原因,是由於生物系統本質上的模型複雜性及缺乏在分子層上建立的完備的生命組織理論.西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作時更有效。機器學習的目的是期望能從數據中自動地獲得相應的理論,通過採用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"噪聲"模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能.機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,而大量的基因資料庫處理需要計算機能自動識別,標註,以避免即耗時又花費巨大的人工處理方法.早期的科學方法——觀測和假設——面對高數據的體積,快速的數據獲取率和客觀分析的要求——已經不能僅依賴於人的感知來處理了.因而,生物信息學與機器學習相結合也就成了必然.機器學習中最基本的理論框架是建立在機率基礎上的,從某種意義來說,是統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬爾可夫模型也廣泛用於預測DNA的基因結構.研究重心包括:1)觀測和探索有趣的現象.ML研究的焦點是如何可視化和探索高維向量數據.一般的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(LocallyLinear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因資料庫中獲得相應的現象解釋.機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.

數學問題

生物信息學中數學占了很大的比重。統計學,包括多元統計學,是生物信息學的數學基礎之一;機率論與隨機過程理論,如隱馬爾科夫鏈模型(HMM),在生物信息學中有重要套用;其他如用於序列比對的運籌學;蛋白質空間結構預測和分子對接研究中採用的最最佳化理論;研究DNA超螺旋結構的拓撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理論或多或少在生物學研究中起到了相應的作用.但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學和度量空間為例來說明.

統計學的悖論

數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖論莫過於均值了,就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多的數據的幾何性質.那么,如果數據呈現類似的特有分布時,常有的進化樹算法和聚類算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於對數據的結構缺乏一般性認識而產生的.

度量空間的假設

在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.那么,是否這種前提假設具有普適性呢,我們不妨給出一般的描述:假定兩個向量為A,B,其中,則在假定且滿足維數間線性無關的前提下,兩個向量的度量可定義為:⑴依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息學中常採用的一般性描述,即假定了變數間線性無關.然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的度量公式可由下式給出:⑵上式中採用了愛因斯坦和式約定,描述了變數間的度量關係.後者在滿足⑶時等價於⑴,因而是更一般的描述,然而問題在於如何準確描述變數間的非線性相關性,我們正在研究這個問題.

統計學習

生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函式卻一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來改善性能是必然的[7].以下對基於這一思想產生的統計學習理論,Kolmogorov複雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介紹.支持向量機(SVM)是較熱門的一種方法,其研究背景是Vapnik的統計學習理論,是通過最大化兩個數據集的最小間隔來實現分類,對於非線性問題則採用核函式將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函式的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核函式的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函式的選擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中又一個大氣泡.Kolmogorov複雜性思想與統計學習理論思想分別從不同的角度描述了學習的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov複雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只適用於離散數據,已經推廣至連續數據集中,試圖從編碼角度獲得對模型參數的最小描述.其缺陷在於建模的複雜性過高,導致在大數據集中難以運用.BIC準則從模型複雜性角度來考慮,BIC準則對模型複雜度較高的給予大的懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,廣泛套用於生物信息學中.BIC準則的主要局限是對參數模型的假定和先驗的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索的空間.

討論總結

人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互關係.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這些問題做出探討和思索.

啟發式方法

Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜尋,而只要能達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,要獲得全局結果,往往是即使算法複雜度為線性時也不能夠得到好的結果,因此,要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工智慧和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.
問題規模不同的處理:Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數據量推廣時,往往並非算法上的改進能做到的,更多的是要做本質性的變化.這好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同樣,在採用計算機處理上,也並非依靠原有的計算機算法就能夠解決現有的數據挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BLAST,FASTA.

樂觀中的隱擾

生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因組時代",在這一領域的研究人員均呈普遍樂觀態度,那么,是否存在潛在的隱擾呢不妨回顧一下早期人工智慧的發展史,在1960年左右,西蒙曾相信不出十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智慧型行為完全相同的機器人.而至今為止,這一諾言仍然遙遙無期.儘管人工智慧研究得到的成果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的本質造成的;從研究角度來看,將智慧型行為還原成一般的形式化語言和規則並不能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現實.反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人工智慧研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂觀呢 ?說肯定的話也許為時尚早.

總結

綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為各種學科的簡單堆砌,相互之間的聯繫並不是特別的緊密。在處理大規模數據方面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全明了,這使得生物信息學的研究短期內很難有突破性的結果。那么,要得到真正的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從數學上的新思路來獲得本質性的動力。毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,這個世界上發生的一切事情,都與這一序列息息相關"。但要完全破譯這一序列以及相關的內容,我們還有相當長的路要走。
中國科學引文資料庫(CSCD—2008)

相關詞條

熱門詞條

聯絡我們