語義網

語義網

語義網是對未來網路的一個構想,現在與Web 3.0這一概念結合在一起,作為3.0網路時代的特徵之一。簡單地說,語義網是一種智慧型網路,它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關係,可以使交流變得更有效率和價值。

語義網,它的核心是:通過給全球資訊網上的文檔 (如:HTML文檔、XML文檔)添加能夠被計算機所理解的語義元數據(外語:Meta data),從而使整個網際網路成為一個通用的信息交換媒介。

基本介紹

  • 中文名:語義網
  • 外文名:Semantic Web
  • 提出:國際全球資訊網聯盟
  • 提出者:director Tim Berners-Lee
  • 提出時間:1998
概念,基本特徵,區別,實現,現狀,前景,體系結構,第一層,第二層,第三層,第四層,五至七層,模型定義,套用示例,研究趨勢,

概念

語義網的概念是由全球資訊網聯盟的蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的一個概念,實際上是基於很多現有技術的,也依賴於後來和text-and-markup與知識表現的綜合。其淵源甚至可以追溯到20世紀60年代末期的Collins、Quillian、Loftus等人的研究,還有之後70年代初Simon、Schamk、Minsky等人陸續提出的一些理論上的成果。其中Simon在進行自然語言理解的套用研究時提出了語義網路(Semantic Network,不是現在的Semantic Web)的概念。當時人們甚至發明了以邏輯為基礎的程式設計語言Prolog
蒂姆·伯納斯-李在2006年普林斯頓大學演講和後期接受媒體採訪時公開表示,他最初將這種智慧型網路命名為語義網或許不夠貼切,也許更準確的名稱應該是數據網(外語:Data Web)。
語義網就是能夠根據語義進行判斷的智慧型網路,實現人與電腦之間的無障礙溝通。它好比一個巨型的大腦,智慧型化程度極高,協調能力非常強大。在語義網上連線的每一部電腦不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關係,可以乾人所從事的工作。它將使人類從搜尋相關網頁的繁重勞動中解放出來,把用戶變成全能的上帝。語義網中的計算機能利用自己的智慧型軟體,在全球資訊網上的海量資源中找到你所需要的信息,從而將一個個現存的信息孤島發展成一個巨大的資料庫。
語義網的建立極大地涉及了人工智慧領域的部分,與Web 3.0智慧型網路的理念不謀而合,因此語義網的初步實現也作為Web 3.0的重要特徵之一,但是想要實現成為網路上的超級大腦,需要長期的研究,這意味著語義網的相關實現會占據網路發展進程的重要部分,並且延續於數個網路時代,逐漸轉化成“智慧型網”。

基本特徵

類似於Web 2.0以AJAX概念為契機,如果說Web 3.0以語義網概念為契機的話,同樣會有近似於AJAX的一種技術,成為網路的標準、置標語言或者相關的處理工具,用來擴展全球資訊網,開創語義網時代。擁有這一技術的企業將是網路時代的弄潮兒。
語義網不同於現在WWW,現有的WWW是面向文檔而語義網則面向文檔所表示的數據,而語義網更重視於計算機“理解與處理”,並且具有一定的判斷、推理能力。
語義網的實現意味著當時會存在一大批與語義網相互依賴的智慧型個體(程式),廣泛的存在於計算機、通訊工具、電器等等物品上,他們組合形成環繞人類生存的初級智慧型網路。
語義網是WWW的擴展與延伸,它展示了WWW的美好前景以及由此而帶來的網際網路的革命,但語義網的實現仍面臨著巨大的挑戰:
  • 內容的可獲取性,即基於Ontology(本體,下同)而構建的語義網網頁目前還很少;
  • 本體的開發和演化,包括用於所有領域的核心本體的開發、開發過程中的方法及技術支持、本體的演化及標註和版本控制問題;
  • 內容的可擴展性,即有了語義網的內容以後,如何以可擴展的方式來管理它,包括如何組織、存儲和查找等;
  • 多語種支持;
  • 本體語言的標準化

區別

如何理解與判斷?
語義網“不同於現存的全球資訊網,其數據主要供人類使用,新一代WWW中將提供也能為計算機所處理的數據,這將使得大量的智慧型服務成為可能”;語義網研究活動的目標是“開發一系列計算機可理解和處理的表達語義信息的語言和技術,以支持網路環境下廣泛有效的自動推理”。
目前我們所使用的全球資訊網,實際上是一個存儲和共享圖像、文本的媒介,電腦所能看到的只是一堆文字或圖像,對其內容無法進行識別。全球資訊網中的信息,如果要讓電腦進行處理的話,就必須首先將這些信息加工成計算機可以理解的原始信息後才能進行處理,這是相當麻煩的事情。而語義網的建立則將事情變得簡單得多。
例如,某天早上你突然想去可可西里旅遊,於是你打開電腦,連通語義網,輸入“預訂今天下午兩點到六點之間任意時刻的到可可西里的飛機票”,此刻你的計算機代理將先與你所住地點航空公司的代理進行聯繫,獲得符合你要求的飛機票信息,然後聯繫航空公司的訂票代理,完成訂購。你不必像現在這樣上網查看時間表,並進行拷貝和貼上,然後打電話或線上預訂機票和賓館等,安裝在你計算機上的軟體會自動替你完成上述步驟,你所做的僅僅是用滑鼠按幾個按鈕,然後等著送飛機票的人上門甚至直接去機場登機就可以了。
在瀏覽新聞時,語義網將給每一篇新聞報導貼上標籤,分門別類的詳細描述哪句是作者、哪句是導語、哪句是標題。這樣,如果你在搜尋引擎里輸入“老舍的作品”,你就可以輕鬆找到老舍的作品,而不是關於他的文章。
總之,語義網是一種更豐富多彩、更個性化的網路,你可以給予其高度信任,讓它幫助你濾掉你所不喜歡的內容,使得網路更像是你自己的網路。它與普通全球資訊網差異主要有以下幾點:
一、面向的對象不同
目前的全球資訊網主要使用HTML表達網頁內容。使用HTML標記的網頁的確可以表達一些控制網頁顯示格式之類的信息,從而使人們認為計算機真的可以“理解”我們的意圖。但實際上HTML僅注重文本的表現形式,如字型顏色、大小、類型等,而不考慮文本的具體內容與含義。雖然全球資訊網上有一些自動的腳本程式可以幫助人們實現一部分功能,但在開放式的網路環境中,它們並不能很好地用於計算機之間的互動。因此目前我們所使用的全球資訊網主要是供“人”閱讀和使用的。而語義網則是要在全球資訊網之上加入一些可以被計算機“理解”的語義信息,它在方便人們閱讀和使用的同時,也方便計算機之間的相互交流與合作。因此,全球資訊網面向的對象主要是“人”,而語義網面向的對象則主要是“機器”。
二、信息組織方式不同
由於二者面向的對象不同,因此在信息組織方式上自然會存在很大的差異。全球資訊網在組織信息資源時主要以“人”為中心,按照人們的思維習慣和方便性組織網路信息資源。語義網在組織信息資源時則必須兼顧計算機對文本內容的“理解”以及它們之間的相互交流和溝通。
三、側重點不同
全球資訊網側重於信息的顯示格式和樣式,而不關心所要顯示的內容。例如對於比較重要的信息,全球資訊網可能會在其顯示上以大字型、或顏色鮮明的字型表示。而語義網則更加側重於信息的語義內容,對具有特定意義的文本必須進行一定的標註或解釋。
四、主要任務不同
全球資訊網主要是供人閱讀、交流和使用的,其主要任務就是信息發布與獲取。通過在網路上發布或獲取信息來達到共享和交流的目的。語義網的主要任務則是計算機之間的相互交流和共享,從而使計算機可以代替人們完成一部分工作,使網路套用更加智慧型化、自動化和人性化。
五、工作方式不同
語義網與全球資訊網面向的對象不同,它們的工作方式自然也有所不同。全球資訊網主要面向“人”,因此其大部分工作都是由人來完成的,包括信息的收集、檢索、整理、排序和分析等等。而語義網通過加入一些可以被計算機“理解”的語義信息,則可以把人從上述各類繁瑣的工作中解脫出來,利用“智慧型代理”幫助完成上述的大部分工作。一個典型的例子就是信息檢索,利用智慧型搜尋代理,語義網將提供給人們真正需要的信息內容,而不像現在的搜尋引擎那樣輸出數以萬計的無用的搜尋結果。

實現

語義網雖然是一種更加美好的網路,但實現起來卻是一項複雜而浩大的工程。 目前語義網的體系結構正在建設中,主要需要以下兩方面的支持:
一、 數據網路的實現
即:通過一套統一的完善的數據標準對網路信息進行更徹底更詳細的標記,使得語義網能夠精準的識別信息,區分信息的作用和含義
要使語義網搜尋更精確徹底,更容易判斷信息的真假,從而達到實用的目標,首先需要制訂標準,該標準允許用戶給網路內容添加元數據(即解釋詳盡的標記),並能讓用戶精確地指出他們正在尋找什麼;然後,還需要找到一種方法,以確保不同的程式都能分享不同網站的內容;最後,要求用戶可以增加其他功能,如添加套用軟體等。
語義網的實現是基於可擴展標記語言標準通用標記語言的子集、外語縮寫:XML)和資源描述框架(外語縮寫:RDF)來完成的。XML是一種用於定義標記語言的工具,其內容包括XML聲明、用以定義語言語法的DTD (document type declaration文檔類型定義)、描述標記的詳細說明以及文檔本身。而文檔本身又包含有標記和內容。RDF則用以表達網頁的內容。
二、具有語義分析能力的搜尋引擎
如果說數據網路能夠短時間通過億萬的個體實現,那么網路的語義化智慧型化就要通過人類尖端智慧群體的努力實現。研發一種具有語義分析能力的信息搜尋引擎將成為語義網的最重要一步,這種引擎能夠理解人類的自然語言,並且具有一定的推理和判斷能力。
語義搜尋引擎(外語:semantic search engine)和具有語義分析能力的搜尋引擎(外語:semantically enabled search engine)是兩碼事。前者不過是語義網路的利用,一種信息搜尋方式,而具有語義分析能力的搜尋引擎是一種能夠理解自然語言,通過計算機的推理而進一步提供更符合用戶心理的答案。

現狀

我們知道,大部分科技創新和突破是對已有知識的重新組合和更新,具有對網路空間所儲存的數據進行智慧型評估能力的語義網,必然會為新的科技創新提供無盡的資源。一旦這種技術被廣泛運用,其產生的效益無可估量。因此,語義網從誕生之日起,便成為計算機研究的熱點領域。
W3C組織是語義網主要的推動者和標準制定者,在它的呵護之下,語義網技術羽翼漸豐。2001年7月30日,美國史丹福大學召開了題為“語義網基礎設施和套用”的學術會議,這是有關語義網的第一個國際會議。2002年7月9日,在義大利召開了第一屆國際語義網大會。此後語義網大會每年舉行一次,形成慣例。同時,HP、IBM、微軟、富士通等大公司,史丹福大學、馬里蘭大學、德國卡爾斯魯厄大學、英國曼徹斯特維多利亞大學等教育機構都對語義網技術展開了廣泛深入的研究,開發出了Jena、KAON、Racer、Pellet等一系列語義網技術開發套用平台、基於語義網技術的信息集成以及查詢、推理和本體編輯系統。
國內語義網研究現狀
我國也非常重視語義網的研究,早在2002年,語義網技術就被國家863計畫列為重點支持項目,清華大學、東南大學、上海交通大學、北京航空航天大學和中國人民大學都是國內語義網及其相關技術的研究中心。東南大學的語義網本體映射研究有一定的國際影響,清華大學的語義網輔助本體挖掘系統SWARMS,上海交通大學的本體工程開發平台ORIENT都代表了國內語義網研發水平,時下流行的人機互動工具都是語義網路的具體套用,但是其中水平參差不齊,通過一些簡單的測試就可以看出他們差異。(如右圖)

前景

語義網的體系結構正在建設中,當前國際範圍內對此體系結構的研究還沒有形成一個令人滿意的嚴密的邏輯描述與理論體系,中國學者對該體系結構也只是在國外研究的基礎上做簡要的介紹,還沒有形成系統的闡述。
語義網的實現需要三大關鍵技術的支持:XML、RDF和Ontology。可擴展標記語言可以讓信息提供者根據需要,自行定義標記及屬性名,從而使XML檔案的結構可以複雜到任意程度。它具有良好的數據存儲格式和可擴展性、高度結構化以及便於網路傳輸等優點,再加上其特有的NS機制及XML Schema所支持的多種數據類型與校驗機制,使其成為語義網的關鍵技術之一。目前關於語義網關鍵技術的討論主要集中在RDF和Ontology身上。
RDF是W3C組織推薦使用的用來描述資源及其之間關係的語言規範,具有簡單、易擴展、開放性、易交換和易綜合等特點。值得注意的是,RDF 只定義了資源的描述方式,卻沒有定義用哪些數據描述資源。RDF由三個部分組成:RDF Data Model、RDF Schema和RDF Syntax。

體系結構

Berners-Lee於2000年提出了語義網的體系結構,並對此做了簡單的介紹。該體系結構共有七層,自下而上其各層功能逐漸增強。
語義網層次結構語義網層次結構

第一層

第一層:字元集層。
Unicode和URI。Unicode是一個字元集,這個字元集中所有字元都用兩個位元組表示,可以表示65536個字元,基本上包括了世界上所有語言的字元。數據格式採用Unicode的好處就是它支持世界上所有主要語言的混合,並且可以同時進行檢索。URI(Uniform Resource Identifier),即統一資源定位符,用於唯一標識網路上的一個概念或資源。在語義網體系結構中,該層是整個語義網的基礎,其中Unicode負責處理資源的編碼,URI負責資源的標識。

第二層

第二層:根標記語言層。
XML+NS+xmlschema。XML是一個精簡的標準通用標記語言,它綜合了標準通用標記語言的豐富功能與HTML的易用性,它允許用戶在文檔中加入任意的結構,而無需說明這些結構的含意。NS(Name Space)即命名空間,由URI索引確定,目的是為了避免不同的套用使用同樣的字元描述不同的事物。XML Schema是文檔類型定義(DTD)的替代品,它本身採用XML語法,但比DTD更加靈活,提供更多的數據類型,能更好地為有效的XML文檔服務並提供數據校驗機制。正是由於XML靈活的結構性、由URI索引的NS而帶來的數據可確定性以及XML Schema所提供的多種數據類型及檢驗機制,使其成為語義網體系結構的重要組成部分。該層負責從語法上表示數據的內容和結構,通過使用標準的語言將網路信息的表現形式、數據結構和內容分離。

第三層

第三層:資源描述框架”層。
RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目標是建立一種供多種元數據標準共存的框架。該框架能充分利用各種元數據的優勢,進行基於Web 的數據交換和再利用。RDF解決的是如何採用XML標準語法無二義性地描述資源對象的問題,使得所描述的資源的元數據信息成為機器可理解的信息。如果把XML看作為一種標準化的元數據語法規範的話,那么RDF就可以看作為一種標準化的元數據語義描述規範。Rdfschema使用一種機器可以理解的體系來定義描述資源的辭彙,其目的是提供辭彙嵌入的機制或框架,在該框架下多種辭彙可以集成在一起實現對Web資源的描述。

第四層

第四層:本體辭彙層。
本體辭彙,(外語:Ontology vocabulary)。該層是在RDF(S)基礎上定義的概念及其關係的抽象描述,用於描述套用領域的知識,描述各類資源及資源之間的關係,實現對辭彙表的擴展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關係。

五至七層

第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規則,而Logic一旦建立,便可以通過邏輯推理對資源、資源之間的關係以及推理結果進行驗證,證明其有效性。通過Proof交換以及數字簽名,建立一定的信任關係,從而證明語義網輸出的可靠性以及其是否符合用戶的要求。

模型定義

“資源描述框架”的數據模型外語:RDF Data Model提供了一個簡單但功能強大的模型,通過資源、屬性及其相應值來描述特定資源。模型定義為:
它包含一系列的節點 N;
它包含一系列屬性類 P;
每一屬性都有一定的取值V;
模型是一個三元組:{節點,屬性類,節點或原始值V};
每一個數據模型”(外語:Data Model 可以看成是由節點和弧構成的有向圖。
模型中所有被描述的資源以及用來描述資源的屬性值都可以看成是“節點”(Node)。由資源節點、屬性類和屬性值組成的一個三元組叫做RDF Statement (或RDF陳述)。在模型中,陳述既可以作為資源節點,同時也可以作為值節點出現,所以一個模型中的節點有時不止一個。這時,用來描述資源節點的值節點本身還具有屬性類和值,並可以繼續細化。
RDF Schema 使用一種機器可以理解的體系來定義描述資源的辭彙,其功能就像一個字典,可以將其理解為大綱或規範。RDF Schema的作用是:
定義資源以及屬性的類別;
定義屬性所套用的資源類以及屬性值的類型;
定義上述類別聲明的語法;
申明一些由其它機構或組織定義的元數據標準的屬性類。
RDF Schema 定義了
三個核心類:rdf:Resource、rdfs:Property、rdfs:Class;
五個核心屬性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;
四個核心約束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。
RDF Syntax構造了一個完整的語法體系以利於計算機的自動處理,它以XML為其宿主語言,通過XML語法實現對各種元數據的集成。
Ontology (本體或本體論),原本是一個哲學上的概念,用於研究客觀世界本質。目前Ontology已經被廣泛套用到包括計算機科學、電子工程、遠程教育、電子商務、智慧型檢索、數據挖掘等在內的諸多領域。它是一份正式定義名詞之間關係的文檔或檔案。一般Web上的Ontology包括分類和一套推理規則。分類,用於定義對象的類別及其之間的關係;推理規則,則提供進一步的功能,完成語義網的關鍵目標即“機器可理解”。本體的最終目標是“精確地表示那些隱含(或不明確的)信息”。
當前對本體的理解仍沒有形成統一的定義,如本體是共享概念模型的形式化規範說明,通過概念之間的關係來描述概念的語義;本體是對概念化對象的明確表示和描述;本體是關於領域的顯式的、形式化的共享概念化規範等等。但史丹福大學的Gruber給出的定義得到了許多同行的認可,即“本體是概念化的顯示規範”。概念化(外語:Conceptualization)被定義為:C =,其中C表示概念化對象,D表示一個域,W是該領域中相關事物狀態的集合,Rc是域空間上的概念關係的集合。規範(外語:Specification)是為了形成對領域內概念、知識及概念間關係的統一的認識與理解,以利於共享與重用。
本體需要某種語言來對概念化進行描述,按照表示和描述的形式化的程度不同,可以將本體分為完全非形式化本體、半非形式化本體、半形式化本體和嚴格形式化的本體。有許多語言可用於表示Ontology,其中一些語言是基於XML語法並用於語義網的,如XOL(Xml- based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C組織創建的RDF與RDF Schema(RDFS)。還有建立在RDF與RDFS之上的、較為完善的Ontology語言DAML(DARPA Agent Markup Language)、OIL和DAML+OIL。
XOL是一種基於XML語法和OKBC語義的本體交換語言。它由美國生物信息學術團體設計,用於其領域的一組異構軟體系統間本體定義的交換,它以Ontolingua和OML作為基礎,融合了OKBC的高層表達方式和OML的語法。當前還沒有支持XOL本體開發的工具,但由於它採用XML語法,可以採用XML編輯器來創建XOL檔案。SHOE由馬里蘭大學開發,它將機器可讀的語義知識與HTML文檔或其他Web文檔相結合,允許直接在WWW的基礎上設計和套用本體。近來SHOE的語法已轉向XML,它使得代理(Agents)能夠收集有意義的Web頁面和文檔的信息,改善搜尋機制和知識收集。OML由Washington大學開發,部分基於SHOE。它有四個層次:OML核心層(與語言的邏輯層相關);簡單OML(直接映射RDF和RDFS)、簡化OML和標準OML。
RDF是W3C推薦的一種信息描述方式,目的是克服XML的語義限制,提供一種簡單的模式來表示各種類型的資源。在RDF的基礎上,RDFS建立了一些基本的模型限制。RDF具有較強的表達能力,但仍存在一些不足,如RDF沒有定義推理和公理的機制、它沒有說明包含特性以及沒有版本控制等。
OIL建立在RDF之上,其主要優勢在於以描述邏輯為基礎,提供形式化語義的推理。OIL綜合了三方面的技術:框架系統、描述邏輯和基於XML與RDF語法的Web語言。框架系統採用了一種類似於面向對象的方法對數據建模,提供建模原語;描述邏輯用規範化的方法表達結構化知識以及查詢和推理;基於XML和RDF語法的Web語言為OIL提供語言元素。OIL的數據對象主要包括:類定義、槽定義(slot definition)以及公理定義(axiom)。類定義包括定義類型、類層次關係和槽約束或屬性約束;槽定義定義實體間的二元關係,包括有原語slot-def,domain,rang,inverse,subslot-of等;公理定義由定義該本體內的一些附加規則,如類之間外延的關係有不相交、覆蓋、相交、等價等。
DAML由DARPA(美國國防部高級計畫研究署)主持開發,力圖溶入包括RDF、OIL等的優點,它與OIL一樣建立在RDF之上,以描述邏輯為基礎。其主要目標是開發一個旨在以機器可讀的方式表示語義關係、並與當前及未來技術相容的語言,尤其是開發出一套工具與技術,使得Agent(代理)程式可以識別與理解信息源,並在Agent程式之間實現基於語義的互操作。DAML的最早版本為DAML-ONT,但後來與OIL緊密結合形成了DAML+OIL。DAML+OIL是由美國和歐盟在DAML背景下共同開發的,它與OIL有著相同的目標,是目前套用最廣的本體語言。它是RDF(S)基礎上的擴展,具備充分的表達能力(如唯一性、傳遞性、逆反性、等價等),具有一定的推理能力,完全確定了語義網中知識表示語言的整體框架。
當然,要實現語義網並非僅有XML和RDF就行了。更主要的技術難題還在於要讓電腦可以進行過多的“思考”和“推斷”,而面對紛繁複雜的問題,尤其是社會問題,人尚且難以決斷,更何況計算機呢。因此,要真正實現實用的語義網還有很多工作要做。

套用示例

目前的各種全球資訊網技術都有可能被套用於語義網(在語義環球網的意義上),例如:
  • DOM文檔對象模型,一組訪問XML和HTML文檔組成部分的標準接口.
  • XPath、XLink、XPointer
  • XIncludeXML fragmentXML查詢語言XHTML
  • XML Schema,RDF(Resource Description Framework)
  • XSL,XSLTExtensible Stylesheet Language
  • SVG(Scalable Vector Graphic)
  • SMIL
  • SOAP
  • DTD
  • 微格式
  • 元數據概念.

研究趨勢

語義網是網路時代的高級智慧型產物,其套用廣泛,有著美好未來。下面將介紹主要套用技術與研究趨勢。
經典的自底向上和新興的自頂向下的方式。自底向上的方法關注於標註好的信息,使用RDF表示,所以這些信息是機器可讀的。自頂向下則著重於利用現成的頁面信息,從中自動抽取出有意義的信息。近年來每一種方法都有一定的發展。自底向上的方法的一個喜訊來自於Yahoo搜尋引擎支持RDF與microformats的聲明。這是一個對於內容發布者、Yahoo和消費者來說三贏的舉措:發布者有了標註自己信息的激勵,Yahoo可以更有效地利用這些信息,用戶可以得到更好、更精確的結果。另一個喜訊來自於Dapper關於提供語義網路服務的聲明,這項服務可以讓內容發布者給現有的網頁添加語義標註。可以期待的是,這種語義工具越多,發布者標註網頁就會越容易。自動標註工具的發展與標註激勵的增多,會使得自底向上的方法更加引人注目。儘管工具與激勵都有了,但要使得自底向上的方法流行起來還是有相當的難度。事實上,今天google的技術已經可以在一定程度上理解那些非結構化的網頁信息。類似地,自頂向下的語義工具關注點在於怎樣處理現有的非完美的信息。這些方法主要是利用自然語言處理的技術來進行實體的抽取,這些方法包括識別文檔中特定實體(與人名、公司、地點等)的文本分析技術,以及能獲取特定領域信息的垂直搜尋引擎
自頂向下的技術關注於從非結構化的信息中獲得知識,但它同樣可以處理結構化的信息,自底向上的標註技術越多,自頂向下方法的性能就越能得到提高。在自底向上的標註方法中,有幾種候選的標註技術,它們都很強大,對它們的選擇需要在簡單性及完全性之間作一個權衡。最完備的方法是RDF:一種強大的基於圖的語言,用於表示事物、屬性及事物間的關係。簡單地來說,你可以認為RDF是這樣的一種語言,它通過這樣的方式來表達事實:Alex IS human (類型表達),Alex HAS a brain (屬性表達),and Alex IS the father of Alice,Lilly,and Sofia (關係表達)。RDF很強大,但因為它是以高度遞歸、精確與數學化而著稱的,同時它也是很複雜的。當前,大多RDF的使用都是為了解決數據的互通性。例如,醫學組織使用RDF來表述染色體組資料庫。因為信息被標準化了,所以,原來孤立的資料庫就可以被一起查詢並相互比較了。一般說來,除了語義方面的意義,RDF最主要的好處在於實現互通性與標準化,特別是對於企業來說(下文有論述)。Microfomats提供了一個簡單的方法――CSS風格-―來給現有的HTML文檔添加語義標記,簡潔的meta數據被嵌入到原有的HTML文檔中。比較流行的Microformats標籤包括hCard:描述個人及公司聯繫信息;hReview:添加到評論頁的meta信息;與hCalendar:描述事件的標籤。Microformats因它的簡單而得到流行,但它的能力仍然是很有限的。例如被傳統的語義團體認為是很必要的層次結構的描述,它就做不到。此外,為了使得標記集最小化,難免地它們表達的意思就顯得比較模糊。這就引出了另外一個問題:把標籤嵌入到HTML文檔中是不是一種合適的做法?然而,雖然仍存在很多的問題,Microformats還是因為它的簡單而廣受青睞,像Flickr,Eventful,LinkediIn及其它很多公司都在採用microformats,特別在是Yahoo的搜尋聲明發布之後。還有一種更為簡單的方法就是把meta數據放在meta頭中。這種方法已經在一定程度上被使用,可惜的是使用得還不是十分廣泛。紐約時報最近為他們的新聞頁面啟動了一個標註擴展,這種方法的好處已經在那些主題或事件頁面中顯現出來。例如,一個新聞頁面可以通過一組關鍵字來標識:地點、日期、時間、人物與類別。另一個例子是關於書的頁面,已經在頁面的meta頭裡加入了書本的信息:作者、ISBN與書的類別。儘管所有這些方法不盡相同,但相同之處是它們都是很管用的。越多的網頁被標註,就會有越多的標準會被實現,同時信息也會變得更為強大與更易於得到。
關於語義網的討論中,在用戶與企業的關注點是不一樣的。從消費者的立場來說,我們需要一個殺手級的套用(killer app),可以給用戶傳遞實在而簡單的價值。因為用戶只會關注產品的實用性,而不會在乎它建立在什麼技術之上。問題在於,直到目前為止,語義網的關注點更多的都還停留在理論層面,如標註信息以使得機器可讀。我們可以給出這樣的承諾:一但信息都被標註,網路就會變成一個大型的RDF資料庫,大量激動人心的套用也會應運而生。但也有懷疑者指出,首先你必須得達成那樣的假設。
已經有很多基於語義網的套用,如通用及垂直搜尋引擎、文本助理工具、個人信息管理系統、語義瀏覽工具等等,但在它們為大眾所接受之前,還有很長的路要走。即便這些技術成功了,用戶也不會有興趣知道那背後使用了些什麼技術。所以說在用戶層面推廣語義網技術是沒什麼前景的。
企業就不一樣了,第一,企業比較習慣於技術方面的論調,對於它們來說,利用語義技術可以增加產品的智慧型程度,從而形成市場價值。“我們的產品更好更聰明,因為我們使用語義網”,聽起來這對企業來說是一個很不錯的宣傳。
從企業層面來說,RDF解決了數據的互通性標準的問題。這個問題其實在軟體行業的早期便已出現,你可以忘掉語義網,只把它看作是一個標準協定,一個使得兩個程式可以互通信息的標準。這對企業來說無疑是極具價值的。RDF提供了一個基於XML的通訊方案,它所描述的前景使得企業並不在乎它的複雜性。但還存在著一個擴展性的問題,跟已經普及最佳化的關係型資料庫不同,基於XML的資料庫並沒有普及,這歸咎於其可擴展性與查詢能力。就像九十年代末的對象資料庫一樣,基於XML的資料庫承載了太多的期望,讓我們拭目以待。
語義API是隨著語義網的發展而發展的,這類網路服務以非結構化的文本作為輸入,輸出一些實體與關係。例如路透社的Open Calais API,這項服務接受原始文本的輸入,返回文本中的人名、地點、公司等信息,並在原文中加以標註。另一個例子是TextWise的Hacker API,該公司還提供了一百萬美元的懸賞,以獎勵基於它的API的最好的商業語義網套用。這個API可以把文檔中的信息分為不同的類別(稱為語義指紋),輸出文檔中的實體與主題。這點和Calais的很相似,但它還提供了一個主題的層次結構,文檔中的實際對象是結構中的葉節點。再一個例子來自於Dapper,那是一個有助於從無結構的HTML頁面提取結構化信息的網路服務。Dapper的工作依賴於用戶在頁面上為對象定義一些屬性,比如,一個圖片出版商會定義作者、ISBN和頁數的信息在哪裡,然後Dapper套用就可以為該站點創建一個識別器,之後就可以通過API來讀取它的信息。從技術的角度來看,這似乎是個倒退,但實際上Dapper的技術在實際當中非常有用。舉個典型的情景為例,對於一個並沒有專門API可以讀取其信息的網站,即便是一個不懂得技術的人都可以在短時間內用Dapper來構造一個API。這是最強大、最快捷的把網站變為網路服務的途徑。
可能語義網發展的最初動機就是因為很久以來搜尋的質量都已經很難再得到提升。關於對頁面語義的理解能提高搜尋質量這一點假設也已經被證實。語義網搜尋兩個主要的競爭者Hakia與PowerSet都已經做出不少的進步,但仍然不足夠。因為,基於統計的google算法,在處理人物、城市與公司等實體時表現得與語義技術同樣的好。當你提問“法國總統是誰”時,它能返回一個足夠好的答案。越來越多人意識到對搜尋技術邊緣化的改進是很難擊敗google的,因而轉向尋找語義網的殺手級套用。很有可能,理解語義對於搜尋引擎是有幫助的,但就此並不足以構建一個更好的搜尋引擎。充分結合語義、新穎的展示方式與對用戶的識別能提升下一代搜尋引擎的搜尋體驗。另有一些方法試圖在搜尋結果上套用語義。Google也在嘗試把搜尋結果分為不同的類別,用戶可以決定他們對哪些類別感興趣。搜尋是一場競賽,很多語義公司都在追逐其中。也許會有另一種提高搜尋質量的可能:文本處理技術與語義資料庫的結合。下面我們即將談到。我們已經看到越來越多的文本處理工具進入消費市場。像Snap、Yahoo Shortcuts或SmartLinks那樣的文本導航套用可以“理解”文本與連結中的對象,並附加相應的信息於其上。其結果是用戶根本不需要搜尋就可以得到對信息的理解。讓我們想得更遠一些,文本工具使用語義的方式可以更為有趣。文本工具不再解析用戶在搜尋框裡輸入的關鍵字,而是依賴於對網路文檔的分析。這樣對語義的理解會更為精確,或者說減少猜測性。隨後文本工具給用戶提供幾類相關的結果供選擇。這種方式從根本上不同於傳統的把大量文檔中得到的正確結果一起堆放在用戶面前的方式。同樣有越來越多的文本處理工具跟瀏覽器結合起來。自頂向下的語義技術不需要發布者做任何事情,因而可以想像上下文、文本工具可以結合在瀏覽器里。Firefox的推薦擴展頁里提供了很多的文本瀏覽解決方案,如Interclue,ThumbStrips,Cooliris與BlueOrganizer等。
語義資料庫是標註型語義網套用的一個發展方向。Twine正在beta測試階段,它著眼於建立一個關於人物、公司、事件、地點的私人知識庫,數據來源為各類論壇的非結構化內容,這些內容可通過書籤、郵件或手工的方式進行提交。這項技術仍有待成熟,但它所能帶來的好處顯而易見。可以意想的一個基於Twine的套用為個性化的搜尋,通過個人的知識庫來對搜尋結果進行過濾。Twine底層的數據表示方式是RDF,可以開放給其它的語義網路服務所採用,但其核心的算法,如實體提取是通過語義API的方式商業化的。路透社也提供了類似的API接口。另外一個語義資料庫的先行者是一家叫Metaweb的公司,它的產品的Freebase。從它所展現的形式來看,Freebase只是一個基於RDF的更結構化的wikipedia翻版。但是Freebase的目標是建立一個像wikipedia那樣的世界信息庫,這個信息庫的強大之處在於它可以進行精確的查詢(就像關係型資料庫那樣)。所以它的前景依然是更好的搜尋。但問題在於,Freebase怎樣保持與世界信息同步俱進?google每天對網路文檔進行索引,可以隨著網路發展而發展。Freebase現在的信息僅來自於個人編輯及從wikipedia或其它資料庫中抓回的數據。如果要擴展這個產品,就必須完善從全網路獲取非結構化信息、解析並更新資料庫這一處理流程。保持與世界同步這一問題對所有資料庫方法都是一種挑戰。對於Twine來說,需要有不斷的用戶數據加入,而對於Freebase來說,則需要有來自不斷的來自網路的數據加入。這些問題解決起來並不簡單,在真正實用之前都必須要有一個妥善的處理。所有新技術的出現都需要定義一些概念和得到一些類別。語義網提供了一個很激動人心的前景:提高信息的可發現性,實現複雜的搜尋,新穎的網路瀏覽方式。此外語義網對不同的人有不同的意義,它對於企業和對於消費者的定義是不同的,在自頂向下VS自底向上,microformats VS RDF等不同類型中也有不同的含義。除了這些模式,我們也看到了語義API與文本瀏覽工具的發展。所有的這些都還處於其早期發展階段,但都承載著改變我們與網路信息互動方式的期望。
語義網的高級階段使得圖書館,售訂票系統,客戶管理系統,決策系統均能發揮很好的效果。譬如要出去旅行,只要把具體時間要求與自己喜愛的國內旅遊類型提供給語義網支持的查詢系統,那么很快相應的國內景點,最佳旅遊方案與注意事項,提示以及旅行社的評價均能很快速得準備在瀏覽器頁面上。
語義網終會把網路的高級階段套用到世界的每一個角落,每個人均有自己的網路IP一樣的身份證明.個人消費信用、醫療、檔案等等全在自己的網路身份裡面。同時網路社區更比現實社區更有活躍力,網路社會更有秩序、更和諧。

相關詞條

熱門詞條

聯絡我們