開放式文檔體系結構:定義,特點,基礎標準,功能標準,套用,開放式文檔同構引擎,開放

開放式文檔體系結構（open system architecture）具有套用系統的可移植性和可剪裁性、網路上各結點機間的互操作性和易於從多方獲得軟體的體系結構。簡稱ODA。它是構成開放套用體系結構（OAA)的技術基礎。

基本介紹

中文名：開放式文檔體系結構
外文名：Open Document Architecture
縮寫：ODA
涉及學科：信息科學等
套用：開放套用體系結構
描述對象：文檔

定義,特點,基礎標準,功能標準,套用,開放式文檔同構引擎,開放式文檔同構引擎套用,文檔摘要系統中的套用,反垃圾郵件系統中的套用,開放式文檔同構引擎概述,物理結構層,邏輯結構層,詞句法分析層,概念抽取層,主題表示層,

定義

開放結構於20世紀80年代初提出，與開放系統概念的提出和實現密切相關。它的發展是為了適應更大規模地推廣計算機的套用和計算機網路化的需求，現仍處於繼續發展和完善之中。一些標準化組織對開放系統的概念是大體相同的，但具體的定義不完全一致。

特點

為滿足建立和實現開放系統的需要，開放結構應具有以下4個特點：

①可移植性。各種計算機套用系統可在具有開放結構特性的各種計算機系統間進行移植，不論這些計算機是否同種型號、同種機型。

②可互操作性。如計算機網路中的各結點機都具有開放結構的特性，則該網上各結點機間可相互操作和資源共享，不論各結點機是否同種型號、同種機型。

③可剪裁性。如某個計算機系統是具有開放結構特性的，則在該系統的低檔機上運行的套用系統應能在高檔機上運行，原在高檔機上運行的套用系統經剪裁後也可在低檔機上運行。

④易獲得性。在具有開放結構特性的機器上所運行的軟體環境易於從多方獲得，不受某個來源所控制。

實現為了全面實現上述開放系統的4個特性，首先要保證實現系統的可移植性和互操作性。

①為實現可移植性，首先要建立起符合開放系統概念的開發平台，在這個開發平台上所開發的套用系統都可以在另一個符合開放系統概念的平台上，以同樣的工作環境去編譯和運行原套用系統，不必對源程式作任何修改。

②為實現互操作性，首先應實現通信時的互操作性，即應實現開放系統互連環境（OSIE）。

基礎標準

標準化是實現開放性的基礎，為了確保互聯和互操作等性能的實現，就必須制定一些標準規範。開放系統互連（OSI）有關的標準是國際標準化組織（ISO）信息處理系統技術委員會於1978年開始制定的。ISO開發的OSI及相關標準已超過200餘項，幾乎覆蓋了信息處理的各個重要領域。世界上各大計算機製造商和用戶都支持OSI標準，建立在OSI上的環境，稱為OSIE，開放體系結構（OA)也是實現OSIE的技術基礎。

國際電報和電話諮詢委員會（CCITT)也從事OSI標準開發工作。CCITT是聯合國組織——國際電信聯盟的一部分。CCITT和ISO緊密合作，共同開發信息處理和信息通信的有關標準。

OSI基礎標準是開放系統互連OSI（Open System Inte-rconnection）模型，為連線分散式套用處理的開放系統提供了基礎，OSI採用分層的結構化技術。開放系統互連OSI參考模型共有7層，即：物理層、數據鏈路層、網路層、傳輸層、會話層、表示層和套用層。OSI參考模型是定義了的一種抽象結構，它的特點是：定義了一種將異構系統互連的分層結構；提供了控制互連繫統互動規則的標準框架；定義了實現不同計算機的同層之間進行通信的協定規程。

在OSI模型的基礎上，由ISO和國際電工協會(IEC )兩大國際標準組織的聯合技術委員會JTC1負責制定OSI的基礎標準，由JTC1下屬的有關分技術委員會(SC)和工作組（WG）具體負責開發這些標準。

功能標準

為了確保系統的互操作性，除基礎標準外，還要根據用戶的需求和實際的網路能力，選定一些功能標準（也稱為功能輪廓或規範檔案）。顯然，功能標準不應同基礎標準相矛盾，而只是對每一基礎標準所允許的選項加以特定的選擇。一些國家或機構正在針對自己的具體情況制定一些各自的功能標準。例如：①英國的中央計算機和電信局（CCTA）定義了名為MUSIC的開放系統套用結構框架，其中的M、U、S、I、C分別表示管理、用戶接口、系統和套用接口、信息和數據服務及通信服務。②由若干計算機廠商組成的國際性非盈利組織X/open，在ANSI、IEEE和ISO等標準化組織所正式公布的標準中選定開放系統規範。③由百餘個計算機製造商和研究機構組成的非盈利組織開放軟體基金會（OSF），為開放軟體環境制定一套套用環境規範（AES），並對按照這些規範開發的源程式發放許可證。

套用

當基於開放系統的概念和在具有開放體系結構性能的計算機系統上開發套用體系結構（OAA）時，對任何一個套用任務可通過3種不同的抽象級別進行描述，即需求描述、過程描述和代碼描述。可以把OAA劃分為套用軟體、系統軟體和硬體3檔，依次地將套用軟體的需求說明翻譯成可為系統軟體識別的源程式，再翻譯成可為硬體執行的機器代碼。因此，開放結構是構成開放套用體系結構的基礎和硬體執行部分。

開放式文檔同構引擎

信息安全是數字時代國家安全的重要領域，內容安全監控是信息安全的新課題整個國家不但需要安全的信息傳遞的基礎設施，還需要對在此基礎上傳遞的內容進行安全監控。在傳統資訊理論的框架下，解決安全問題的方法主要是對物理信號進行機械加工而實現的。傳統的資訊理論對於信息的處理的極限促成了智慧型理論的套用。同樣，傳統方法在信息安全方面的極限，召喚著對信息更深層次的處理，從而達到更高的安全需求，這樣就使得基於內容的安全成為安全領域的一個迫切需要發展的問題。

然而，現有的內容安全產品都面臨著一個重要的問題，從各式各樣的文檔中提取用於理解和過濾的純文本信息，由於現實中文檔格式紛繁複雜，大多數產品迴避了這個問題，如反垃圾郵件系統工作時，對郵件正文進行理解，而忽略郵件附屬檔案內容的處理，這樣定會放過不少害群之馬。因此，本課題提出開放式文檔同構引擎這一概念，旨在解決內容安全產品需要解決的如下兩個問題:

一、如何處理多種多樣的原始文檔格式，並從中獲得純文字信息。

二、如何對文字信息進行統一描述，並使其適用於包含內容安全在內的各種套用系統。

因此，開放式文檔同構引擎的實現，可以使相關套用系統擺脫文檔異構的問題，而專注於其本身的技術。除內容安全領域之外，開放式文檔同構引擎在其他自然語言處理領域內也有十分重要的套用意義。

開放式文檔同構引擎套用

文檔摘要系統中的套用

自動摘要就是利用計算機對文獻編制的摘要。自動摘要系統是一個非常複雜的自然語言處理系統，它通過對文檔的理解，產生具有準確性、簡潔性、清晰性的文字，概括整個文檔的意義。自動摘要系統首先面臨的就是，從多文檔格式中抽取有用信息問題。集成了文檔同構引擎的文檔摘要系統可以專注於其本身自然語言處理領域的工作。

反垃圾郵件系統中的套用

以反垃圾郵件系統為例，沒有開放式文檔同構引擎的反垃圾郵件系統可以對郵件正文進行語義理解和過濾，非正文非附屬檔案的其他部分進行簡單的規則過濾，對郵件附屬檔案卻無能為力，這在當前網際網路規模壯大，郵件附屬檔案存儲容量增加的情況下，暴露出越來越嚴重的缺陷。整合開放式文檔同構引擎的反垃圾郵件系統可以解決這個問題，並使系統專注於垃圾郵件的檢測問題上。

為了適應不同套用系統的需要，開放式文檔同構引擎自底向上分為:物理層、邏輯層、詞句法層、概念層和主題表示層。除上述兩種套用之外，它還能對信息抽取、信息過濾、信息檢索、主題表示等自然語言處理方面套用都能夠提供底層支持。因此，開放式文檔同構引擎可以看做是多種自然語言處理系統的底層抽象。

開放式文檔同構引擎概述

最初對文檔層次進行研究出現在文學理論界，學者們是從文學審美和哲學角度來探討文本的層次性，根據文本的表達能力將文本分為不同的層次。隨著計算語言學研究的興起和中文信息處理熱的出現，計算機科學和情報學界也對文本的層次性進行了相關的研究，但是，依據此模型建立的系統還沒有出現。本文根據自然語言處理相關技術的實際需要，擬把開放式文檔層次模型分為物理結構層、邏輯結構層、詞法和句法分析層、概念抽取層、主題表示層等5個層次，套用架構如下圖所示(如下圖所示)。

開放式文檔同構引擎是開放的、可擴充的套用系統，它可以根據套用的需要，向上層提供不同的服務，如，搜尋引擎系統需要詞句法分析層向其提供的服務，反垃圾郵件系統需要主題表示層向其提供的服務，而簡單的信息融合系統只需要物理結構層向其提供服務即可。以下是每個層次的簡要介紹。

物理結構層

物理結構定義了文檔各個部分的物理安排和布置。下面簡單地介紹物理結構層的輸入、運算和輸出。

物理結構層的輸入：具有各式各樣格式的電子文檔(例如，TXT , XML, ,HTML，字元掃描檔案，DOC, WPS, PDF等等)。
物理結構層的輸出：該層的輸出是文檔的物理結構。文檔的物理結構是由無格式的字元(例如，英文字母、漢字等)、字元對應的格式信息、輪廓信息組成。物理結構能夠識別出回車換行符，也就是說能清晰地區分開自然段。另外，物理結構應該標明原始文檔的語種(例如，英語、漢語等等)，同時，如果語種是漢語，原始文檔的編碼格式(例如，GB , BIGS等等)也應該在物理結構中標出。
物理結構層的運算：電子文檔具有各式各樣格式，不便於信息處理。一般情況下，電子文檔包含了“多格式”的“異構信息”。物理結構層運算的任務就是這些“異構信息”的同構化，也就是用統一的規範來表示這些異構信息。總之，物理結構層的運算為開放式文檔同構引擎高層提供了規範的數據。

邏輯結構層

邏輯結構層定義了文檔的各個邏輯元素及其類別，其主要任務是識別出文檔各個部分的邏輯類別。

邏輯結構層的輸入:物理結構層的輸出。

邏輯結構層的輸出:該層的輸出是文檔的邏輯結構。邏輯結構標明了原始文檔各個部分的邏輯類別(例如，題目，作者摘要，作者信息，關鍵字，正文，各級標題，參考文獻等)，並且用一棵邏輯結構樹來描述整個文檔。

邏輯結構層的運算:用機器學習的方法識別原始文檔各個部分的邏輯類別;識別出各級小標題有標號小標題和無標號小標題)，並對小標題進行級別確定和糾錯處理;形成一棵能夠表達原文層次關係的邏輯結構樹。

詞句法分析層

詞法、句法分析(Lexical & syntactic Analysis)層:該層給出文本中各個句子的詞分割標記，詞性標註和句法標註。

詞法、句法分析層的輸入：邏輯結構層的輸出。
詞法、句法分析層的輸出：經過分詞、詞性標註、句法分析處理後的文檔。
詞法、句法分析層的運算：依據帶有屬性描述的關鍵字詞典，採用詞法分析和句法分析相結合的一種綜合性算法對文本中的句子進行分析、標註。國內外研究者

大多數把詞法和句法分析孤立進行，雖然這樣也取得了非常不錯的結果，但是，我們認為句法和詞法本來就是不可分離的，綜合處理將會達到更好的效果。

概念抽取層

概念抽取層自動概括出文檔包含的概念。由於受地域、時間等社會因素的影響，廣泛意義上的詞已經非常泛化，有必要用概念把它們加以概括整理。

概念抽取層的輸入:詞法、句法分析層的輸出。

概念抽取層的輸出:由文檔中的詞轉化出的概念以及概念的幾個屬性(概念在文中出現的頻率、概念在文中的位置、概念的分布性)。

概念抽取層的運算:以知網(How-Net ) , WordNet,《同義詞詞林》為基礎構造概念庫。以概念庫為基礎，結合轉換算法求出文檔包含的概念，並給出概念的相關屬性。

主題表示層

主題表示層根據用戶的選擇，採用不同的方法計算出每個概念的權重，然後給出該文檔的向量空間模型(Vector Space Model--VSM)表示。該層還提供簡單的降維方法備用戶選擇。

主題表示層的輸入：概念抽取層的輸出。
主題表示層的輸出：以概念為單位的文檔主題VSM表示。
主題表示層的運算：根據選擇，採用概念頻率、概念位置、布爾權重、TFIDF型權重、基於信息嫡的權重(部分方法要求文檔集支持)等方法計算概念的權重，然後把文檔以向量空間的方式表示。降維方法將採用閥值控制的方式實現。

開放式文檔體系結構