D.Marr計算視覺理論

D.Marr系英國人,曾在美國麻省理工學院人工智慧實驗室工作,兼任該校心理系教授。他是視覺計算理論的創始人。

Marr其人,Marr的視覺理論,視覺信息處理,表象結構和功能塊分析,圖像密度檢洲及其生理學和心理學依據,

Marr其人

Marr生於1945年1月19日,早年就讀於劍橋大學,獲得數學碩士、神經生理學博士學位,同時還受過神經解剖學、心理學、生物化學等方面的嚴格訓練。他在英國曾從事新皮層、海馬,特別是小腦方面的理論研究。1974年訪問美國,並應M.Minsky教授之請,留在麻省理工學院開展知覺和記憶方面的研究工作。他從計算機科學的觀點出發,熔數學、心理物理學、神經生理學於一爐,首創人的視覺計算理論,從而使視覺研究的面貌為之一新。Marr於1980年11月17日在波士頓病死,享年35歲。他的理論由他創建的一個以博士研究生為主體的研究小組繼承、豐富和發展,並由其學生歸納總結為一本計算機視覺領域著作:Vision: A computational investigation into the human representation and processing of visual information (ISBN 0-7167-1567-8),於他後發表。從人工智慧雜誌1981年第17卷“計算機視覺”專輯中,我們可以清楚地看到這一理論已產生巨大的影響。
他的主要著作包括:
(1969) "A theory of cerebellar cortex." J. Physiol., 202:437-470.
(1970) "A theory for cerebral neocortex." Proceedings of the Royal Society of London B, 176:161-234.
(1971) "Simple memory: a theory for archicortex." Phil. Trans. Royal Soc. London, 262:23-81.
(1974) "The computation of lightness by the primate retina." Vision Research, 14:1377-1388.
(1975) "Approaches to biological information processing." Science, 190:875-876.
(1976) "Early processing of visual information." Phil. Trans. R. Soc. Lond. B, 275:483-524.
(1976) "Cooperative computation of stereo disparity." Science, 194:283-287. (with Tomaso Poggio)
(1976, March) "Artificial intelligence: A personal view." Technical Report AIM 355, MIT AI Laboratory, Cambridge, MA.
(1977) "Artificial intelligence: A personal view." Artificial Intelligence 9(1), 37–48.
(1977) "From understanding computation to understanding neural circuitry." Neurosciences Res. Prog. Bull., 15:470-488. (with Tomaso Poggio)
(1978) "Representation and recognition of the spatial organization of three dimensional tructure." Proceedings of the Royal Society of London B, 200:269-294. (with H. K. Nishihara)
(1979) "A computational theory of human stereo vision." Proceedings of the Royal Society of London B, 204:301-328. (with Tomaso Poggio)
(1980) "Theory of edge detection." Proc. R. Soc. Lond. B, 207:187-217. (with E. Hildreth)
(1981) "Artificial intelligence: a personal view." In Haugeland, J., ed., Mind Design, chapter 4, pages 129-142. MIT Press, Cambridge, MA.
(1982) "Representation and recognition of the movements of shapes." Proceedings of the Royal Society of London B, 214:501-524. (with L. M. Vaina)
(1982). Vision: A Computational Investigation into the HumanRepresentation and Processing of Visual Information. New York: Freeman.

Marr的視覺理論

視覺信息處理

視覺研究的最終目標是要闡明視覺系統究竟是怎樣完成視覺任務的。Marr認為:神經系統所作的信息處理與機器相似。視覺是一種複雜的信息處理任務,目的是要把握對我們有用的外部世界的各種情況,並把它們表達出來。這種任務必須在三個不同的水平上來理解,這就是:a.計算理論 b.算法 c.機制(見表1)。這一划分並不是很嚴格的,但如果不符合上述分類,則沒有一個或一組描述將是完善的。在視知覺中,上述三個水平各有其特定的位置,它們基本上是互相獨立的。因此,在探討理論問題時必須把它與法、機制嚴格地區別開來,並採用新的研究方法。
計算理論
算法
機制
信息處理問題的定義,它的解就是計
算的目標。這種計算的抽象性質的特
征。在可見世界內找出這些性質,構
成這個問題的約束條件
為完成期望進行的
計算所採用的算法
的研究。
完成算法的物理實
體,它由給定的硬
件系統構成.機器
硬體的構架。
表【1】
從計算理論這一級水平來看,所謂信息處理(process),其實就是把一些符號表象變成另一些符號表象。這一處理過程從外部世界投射到視網膜上的圖象開始,一直到形成某種知覺為止。因此表象是計算理論中最重要的概念。所謂表象(representation),簡單地說,就是與所述問題有關的某種特殊的信息表達方式,其主要特點是使一些對後級處理有用的重要信息變明確。表象作為信息的一種表達方式其實是被普遍採用的。例如,物理系統中的能量是表象;數學中的數字、直角坐標系中的點是表象;表象在人腦中的“痕跡”在一定的刺激條件下會再現出來,這種痕跡也是一種表象。用表象來描繪某一整體現象即套用表象的具體實例則稱為該表象中的一個描述(desc1’i-Ption)。例如12就是阿拉伯數字表象中的一個描述。同樣一個問題可以用許多不同類型的表象來表示,其中有些計算簡單而有效,有些則不是那樣,因此必須正確地選擇表象。表象的具體結構是與現實場景相聯繫的。但長期以來,人們並沒有正視這一點;甚至在70年代早期,計算機科學和人工智慧專家也仍未認識視覺信息處理的困難所在。其原因是我們的視覺系統工作得極好,而有些東西又難以填密地內省出來。正因為如此,神經科學的傳統方法和技術一概都失敗了。Marr認為問題的關鍵在於:視覺信息處理必須分析給定的任務,而分析的基礎則是客觀的物質世界。用公式來表示計算理論的一個決定性的步驟,就是要找出視覺世界的特性,給計算問題加上約束條件,使它含義明確,能夠獲解。有許多具體實例表明,如果不把視覺世界的一般性質變成計算問題的特殊假設,問題就確定不下來。高級水平的特殊的先驗性的知識是不需要的,有用的僅僅是物理世界的一般性質。視覺問題的一個約束條件就是最終得出的描述一律由圖像導出。因此在一般情況下,視覺早期處理的表象結構主要決定於我們能從圖像中計算出什麼東西來,而後期處理的表象結構則還受視覺任務的影響。
Marr提出的上述方法是強有力的,它使視覺信息科學得以迅速發展壯大,其結果就像物理學那樣具有永久的性質。因為它們是在現實世界的物理學和圖像的公式化的基本定律這樣牢固的基礎上建立起來的。所以視覺計算理論這一水平在其發展過程中可能成為一門真正的科學。Marr的工作—從計算方法的宏旨到分析具體問題的細節方法論基礎。

表象結構和功能塊分析

從信息處理的觀點出發,Marr已能用公式把視覺處理的整個理論框架表達出來。除上述處理問題的方式方法外,這是Marr作出的十分重要的貢獻,因為它向我們提供了一個向視覺問題發起新進擊的適當的策略。這個理論框架主要由視覺所建立、保持、並予以解釋的三級表象結構組成,這就是:
a.基元圖(the primal sketch)—由於圖像的密度變化可能與物體邊界這類具體的物理性質相對應,因此它主要描述圖像的密度變化及其局部幾何關係。
b. 2.5維圖(2.5 Dimensional sketch)—以觀察者為中心,描述可見表面的方位、輪廓、深度及其他性質。
c. 3維模型(3D Model)—以物體為中心,是用來處理和識別物體的三維形狀表象。
根據Marr的觀點,各種不同的視覺處理湊在一起產生各級表象,在表象中它們有機地結合起來。其中一些處理見表2。把視覺處理看成是一組相對獨立的功能塊,這一思想特別重要,特別有用。它不但有計算的、進化論的、方法論的論據支持,而且更重要的是某些視覺功能塊已經用實驗方法分離出來。雙眼立體視覺就是一個適例。只要有雙眼視差,隨機點立體圖對也能引起體視現象。如果人的視覺系統確實是功能塊型的,那么在圖像中被編碼的各種不同類型的信息(例如亮度、被觀察物體的表面反射性質、物體的表面形狀,觀察者與物體的距離或方位等)就能用一些獨立的處理(如體視、運動等)來解碼,其精密度至少可達一級近似。顯然,所有這些處理必須全部鑑別出來,相應的計算理論才能得到發展。這方面的研究已經取得了很有希望的結果。

圖像密度檢洲及其生理學和心理學依據

Marr的理論同神經生理學和心理學關係十分密切。下面我們僅對視覺信息處理第一階段的一部分內容即抽提輪廓作一簡要論述,以便從另一個側面來了解Marr工作的特點。視覺處理第一階段的目的是檢測圖像的局部性質。圖像中密度劇烈變化的部分正是物體表面的物理變化的最好標記。Marr認為:對於一定的空間解析度,用中心—周邊型感受野即運算元V“G(其中v“是拉普拉斯運算元,G是二維高斯函式)對圖像濾波,然後再找出經濾波處理的圖像的零交叉點(即二階導數的零值位置),即可求出圖像密度變化的情況。在自然圖像中,密度變化的「空間尺度是很寬的。要把所有空間尺度上的密度變化都檢測出來,就必須採用幾個大小不同的濾波器。大的檢測模糊邊,小的檢測圖像細節。然把各通道的零交叉合併成一組對後級處理有用的離散基元“邊”。基元邊和其他一些基元符號構成Marr稱之為原始基元圖的圖像密度表象。
由若干中心—周邊型感受野得出的零交叉乃是從原始的連續密度值獲得圖像的離散符號表象的一種自然形式。因為在某些條件下,一個頻寬小於l倍頻程時一維帶通信號能由其零交叉完全復原。從視覺信息處理的觀點看,重建原始信號顯然是不可能的,但由零交叉得出的離散符號必定含有原始圖像的極為豐富的信息。從經驗性的研究中得出結論:用運算元V“G作濾波處理的圖像是可以用其零交叉和斜率充分近似地恢復的。
上述結果的生理學和心理學含義是明顯的。看來它們闡明了視覺通道第一級的一些基本性質,並使視覺心理物理學和神經生物學中關於空間頻率通道和邊檢測器之間的爭論得以解決。事實上,視覺的第一階段在很大程度上是由“邊”檢測器(其實是零交叉檢測器)而不是由付里葉分析完成的;但零交叉檢測器要抽提有意義的信息,就必須對若干獨立通道的輸出進行運算。可以有把握地說:二階導數濾波運算是由視網膜神經節細胞和外側膝狀體核完成的,而有向的零交叉線段(即“邊”)則是由視皮層中的x細胞檢測的。
由上可見,Marr早先提出的一些基本概念在計算理論這一級水平上已經成為一種幾乎是盡善盡美的理論。這一理論的特徵就是它力圖使人的視覺信息處理研究變得越來越嚴密,從而使它成為一門真正的科學。
參考文獻:姚國正,汪雲九;D.Marr及其視覺計算理論[J];機器人;1984年06期.
隨著科學進步,大量試驗事實表明,人類的視覺是不需要重建的。由於過大的計算量,導致了計算機視覺界,在20世紀90年代對Marr的三維重建理論進行了反思,由美國著名雜誌CVGIP:Image Understanding 組織了兩次大的討論,第二次就是關於三維重建的,論戰結果是接受了主動視覺和目的視覺。

相關詞條

熱門詞條

聯絡我們