實體關係識別

實體關係識別是指在自然語言處理過程中抽取文本實體間所隱含關係的任務。抽取的實體間關係可以通過不同形式的語言或形式表達,比如關係資料庫XML等等,其中RDF用來表示實體關係最為合理。

關係識別任務最早是在MUC7上正式提出的。一個簡單的實體間關係例子如下,“A在B工作"一工”這個句子包含了兩個實體:“A”以及“B”。它們之間有僱傭關係。

基本介紹

  • 中文名:實體關係識別
  • 外文名:relation extraction
  • 所屬學科:通信科學
  • 別稱:實體關係
  • 縮寫:RE
相關概念,信息提取,實體識別,產生由來,主要情況,研究現狀,有監督的關係抽取,半監督的關係抽取,無監督的關係抽取,面向開放域的關係抽取,套用遠程監督方法的關係抽取,基於深度學習的關係抽取,關係抽取的挑戰和趨勢,

相關概念

信息提取

信息抽取是從文本(Document) 中抽取用戶感興趣的信息,並形成結構化(Structured)的數據。針對的文檔類型可以是結構化數據(Structured Data)、半結構化數據(Semi-structured Data)或無結構數據(Un-structured Data)。結構化數據一般指帶有嚴格格式信息的數據,如:資料庫中的表格,以及XML數據等等。半結構化數據是指帶有一定格式信息,但又不是很明確的數據,如網頁、論文、郵件等。無結構數據主要指完全沒有結構信息的自由文本(FreeText)。不同的信息抽取系統,由於處理的對象類型和特點不同,往往有較大的差異。
信息抽取技術可以套用於多個領域,比如學術搜尋、商品搜尋、文本挖掘、知識庫構建等等。由於信息抽取技術的廣泛套用,信息抽取算法的研究越來越成為當前信息檢索領域的熱點。
信息抽取子任務類型信息抽取子任務類型
ACE會議定義的信息抽取任務是在單個文檔內進行,不同的文檔之間的抽取相互獨立,不屬於跨文檔的信息抽取。年的會議所定義的子任務有:實體的檢測和識別、關係的檢測和識別、事件的檢測與識別、值的檢測和識別、時間的檢測和識別。

實體識別

命名實體識別最初是在MUC6上作為一個子任務提出的。其中關注的實體類型主要包括組織名、人名、地名、時間表達式以及數值表達式等等。就識別的難度而言,時間表達式和數值表達式相對於其他的實體類型,識別相對簡單,並能獲得較好的精度。而對於組織機構名、地名和人名等類型,由於開放性和多樣性的特點,識別過程較為困難。

產生由來

最早在1998年的第七屆信息理解會議 (message understanding conference,MUC)上,首次提出了模板抽取的任務,這在後來發展成為關係抽取。在 MUC-7 會議上提出的關係抽取任務主要針對人物(persons)、地理位置(locations)和產品(artifacts)的模板類型,評測的語料內容主要來源於紐約時報對飛機事故和航天發射相關的新聞報導,並且設計了抽取結果的評價體系。
在1999年,美國國家技術研究院(National Institute of Standards and Technology,NIST)召開的自動內容抽取會議(automatic content extraction, ACE)取代了之前的 MUC 會議,並且對關係抽取評測的任務和訓練材料進行了融合拓展和細化完善。在 2002 年,第三屆會議正式加入了實體關係發現和識別任務(relation detection and recognition, RDR)。2008 年,ACE 會議正式將關係抽取任務劃分為七種類型。2009 年,ACE 正式納入文本分析會議(text analysis conference,TAC),成為知識庫總體(knowledge base population, KBP)任務的重要組成部分。後期出現的語義評估(semantic evaluation,SemEval)會議SemEval-2007的評測任務4中設定了七種常用名詞和名詞短語間的實體關係,在SemEval-2010 評測任務8中將實體關係類型擴充到了10種。

主要情況

實體關係識別有三種情況:
(1)給定一種關係類型,自動識別具有該關係的兩個命名實體;
(2)給定某一個實體和某種關係類型,自動識別具有該關係的另一實體;
(3)給定兩個實體,自動判斷兩者是否具有某種關係類型。

研究現狀

關係抽取作為信息抽取中的重要子任務,國內前期的相關研究起步較晚,後期包括中國科學院清華大學北京大學等諸多科研院所在推動其研究發展上作出重要工作。在實現方式上,根據對於人工標註數據的依賴性可以細分為基於監督的方式、基於半監督的方式、無監督方式和面向開放域的抽取。後期又出現遠程監督方式,深度學習逐漸火熱和成熟之後也被套用到關係抽取之中,取得相比傳統機器學習方法更加優秀的效果。接下來將分別對這些方法的研究進展進行詳細的介紹。

有監督的關係抽取

基於監督的關係抽取以較高的準確率成為目前業界廣泛套用的方式。其主要是利用分類的思想根據已有的人工標註數據進行模型的訓練,然後進行特定關係的匹配識別和抽取工作。監督方式主要分為兩大方法體系,分別是基於特徵向量(feature-based)的方法和基於核函式(kernel-based)的方法。
基於特徵向量的方法主要通過從句子上下文中提取出包括句法和語法等特徵信息去構造特徵向量,進而利用特徵向量的相似度訓練實體關係識別模型,完成實體關係識別和抽取。Kambhatla利用最大熵分類器構建抽取模型,通過加入文本特徵,可以使用很少的辭彙特徵達到不錯的效果,從而降低對於語義特徵提取樹的依賴,模型在 ACE RDC 2003 英文語料上的關係抽取的 F 值為 52.8%。很多基於特徵向量的方法藉助於傳統機器學習實現,並且對特徵的選取有很大增益。Giuliano 等人基於 SemEval-2007 的評測材料,通過實體上下文、距離等特徵,藉助支持向量機(support vector machine ,SVM)模型實現 71.8% F 值的抽取效果。Tratz 等人利用最大熵分類方法在 SemEval-2010 評測語料上實現抽取效果 F 值為 77.57%。Culotta 等人使用條件隨機場的分類方法藉助帶有默認正則化參數的 MALLET CRF 實現關係抽取,取得了不錯的效果。
雖然基於特徵向量的抽取方法效果良好,但是作為模型基礎的特徵在選擇和設定上更多依靠構建者的直覺和經驗,並且對於上下文信息利用不足,於是需要提出可以較好地利用語料中的長距離特徵和結構化特徵的函式方法,在這一層面進行了彌補。Zelenko 等人引入基於核函式的關係抽取方法,通過核函式實現從低維向高維空間的映射,從而可以將非線性問題作為線性問題處理。Zelenko 等人提出使用淺層解析樹核結合支持向量機從文本中提取人—隸屬關係和組織—位置關係。Culotta 等人使用依存樹核對新聞文章自動內容抽取(ACE)語料庫中實體之間的關係進行了檢測和分類,並且測試了詞性和實體類型不同特性的效用,證實依賴樹核心比“詞袋”核實現了 20% F1 的改進。Bunescu 等人觀察到依賴關係圖中兩個實體之間的最短路徑可查找到實體關係,所以利用最短依存樹核進行改進。Zhang 等人提出基於解析樹的卷積核對句法結構信息建模,實現關係提取的方法。莊成龍等人通過在原關係實例的結構化信息中增添實體語義信息並篩除冗餘信息的方法來提高關係抽取的性能,在 ACE RDC 2004 基準語料上進行的關係檢測,F 值達到了 79.1%。總體上,基於核函式的方法由於匹配計算時的較強約束容易出現召回率較低的現象,並且模型訓練和預測的時間複雜度較高。

半監督的關係抽取

半監督的關係抽取方法的主要思想是根據預先設計好的關係類型,通過人工添加合適的實體對作為種子。利用模式學習方法進行不斷疊代學習,最終生成關係數據集和序列模式,在一定程度上降低了對於人工標註語料的依賴。
最常用途徑是基於 Bootstrapping 方法實現。這是由Brin首先套用在關係抽取任務中,並建立了 DIPRE 系統,他以少量的書名及作者名作為種子實體關係對,從文檔和語句中抽取新的實例並作為標註樣本,根據標註樣本建立新的抽取模板。利用建立的模板發現新的實體對關係並加入其中,期間不斷調整和疊代。Agichtein 等人設計的 Snowball 方法是在其基礎上推出的,主要改進是使用向量表示實體及實體關係的元組,通過向量的相似度來發現和疊代增大標註樣本。在每次疊代提取的過程中,模型在不受人工干預的情況下評估這些模式和元組的質量,並且只保留其中最可靠的部分以提升整體質量。陳錦秀等人利用圖策略建立基於圖的半監督抽取模型,實現關係抽取性能的提升。
半監督的方法降低了關係抽取對於人工標註數據的依賴性,只需要人工進行最初種子集的構造,但是對種子集的質量要求較高,並且建立和最佳化相對繁瑣的模板對於最終的抽取效果至關重要。這種方式普遍存在噪聲實例及模板引入問題,進而在不斷疊代過程中造成語義漂移的現象;且此類方法雖準確率有所提高,但是召回率普遍不高。

無監督的關係抽取

無監督的方法屬於一種自底向上的抽取方式,通過先抽取實體及關係,進行大規模的冗餘語料聚類,再對聚類集合進行關係標註。Hasegawa 等人首次套用無監督方式進行關係抽取,通過設定重複出現閾值識別潛在語義關係並聚類,實現抽取結果 F 值達到 75%。Shinyama 等人基於多層級聚類的無監督方法,使用了 12 家主要在美國出版的報導文章進行實驗。
Hassan 等人提出了一種基於大數據集冗餘和圖相互增強的無監督信息提取方法,並採用從語料庫中的 POS n-gram 獲取關係提取模式。但是由於採用 n-gram,這種模式只包含 POS 和實體類型標記,導致 n-gram 數量的組合激增。Gonzalez 等人提出一種新的基於機率聚類模型的無監督方式關係提取方法,該方法得到的 F1 值為 55.7。Rozenfeld 等人建立的 URIES 是一個 Web 關係提取系統,通過對目標關係及其屬性的簡短描述,從未標記的文本中進行模式提取。
無監督抽取方式雖然對人工標註的語料依賴性降低,並且多領域適應性強,領域遷移障礙小,特別在多領域知識雜糅的大規模文本中相比其他有監督和半監督方法更是優勢明顯。但是無監督方法總體上關係標註較為寬泛,因為缺乏必要的語料庫,導致低頻實例抽取率低,最終識別的準確率和召回率也一般不高,在抽取評價標準上也難以量化和統一。

面向開放域的關係抽取

面向開放域的關係抽取不限定關係類別和目標文本,在跨領域和後期擴充上具有無法比擬的優勢。開放式關係抽取默認同一實體對都存在已知的關係,通過前後相鄰的短語進行實體關係上的語義表達,藉助外部大型實體知識庫包括DBPedia、YAGO、FreeBase 和其他領域知識庫,將置信度較高的實體關係與大規模的訓練數據進行匹配對齊,以獲得大量訓練數據。 Etzioni 等人搭建 KnowItAll 模型,通過人工編寫規則模板從 web 中進行無監督的、獨立於領域和面向可伸縮的大量事實(如科學家或政治家的姓名)地自動化匹配。模型中每個規則由謂詞、提取模式、約束和關鍵字組成,進而藉助簡單的語法分析抽取實體關係。 Banko 等 人通 過 構 建TextRunner 模型,從 Web 中抽取包含用戶輸入的特定謂詞的元組,模型包括三個關鍵模組:自我監督學習器對輸入的小語料庫樣本進行處理,輸出分類器對候選提取置信度的標記;單通道提取器利用整個語料庫從每個句子生成一個或多個候選元組,進而得到所有可能的元組,保留標記為可信的元組;冗餘評估器依據文本中的冗餘機率模型為每個保留的元組分配機率。整個過程不需要人工進行標註,降低工作量,但是依舊存在召回率不高的問題。

套用遠程監督方法的關係抽取

後來的研究著力點主要集中在如何降低對於人工標註語料庫的依賴性,增強領域遷移性上。Mintz 等人在文本處理中嘗試借用遠程監督方法,假設若文本中的實體對和知識庫的實體對完全一致,就標註它們具有同樣的關係。該方法通過對齊語料庫和文本自動生成訓練樣例,從而提取特徵訓練分類器,降低對於人工標註材料的依賴;但是知識庫中事先標註的實體關係是不完備的,所以過於簡易和強烈的假設極易引入錯誤。遠程監督方法主要通過知識庫與非結構化文本對齊來自動構建大量訓練數據,減少模型對人工標註數據的依賴,增強模型跨領域適應能力。
為了改善遠程監督單標籤過強假設的問題,Surdeanu 等人又進一步提出基於機率圖模型的多標籤多實例的抽取方式,並引入詞袋(word bag)模型,通過提升標註級別,將原本實體對級的標註改變為對多詞形成的詞袋進行標註以降低錯誤率。

基於深度學習的關係抽取

以上方法都藉助傳統的自然語言處理工具,但是工具本身也是很容易引入錯誤,經過這些工具處理後的結果降低了接下來的算法性能。考慮到語音、圖像和文本處理肌理的相通性,當深度學習方法在圖像領域嶄露頭角時,很多人嘗試引入深度學習方法到關係抽取中,發揮其在特徵提取和自動學習上的優勢,並且將 SemEval-2010 task 8 作為測試標準。
Socher 等人通過使用遞歸神經網路(recurrent neural networks,RNN)模型,在句法樹的節點上設定向量和矩陣,對命題邏輯和自然語言中運算元的含義學習,從而得到多種句法 類 型 和 不 同 長 度 短 語 和 句 子 的 向 量 化 表 示 。 模型在SemEval-2010 Task 8 資料庫上實現 F 值為 82.2%的抽取效果。 Hashimoto 等人在網路分類器中加入詞嵌入方法,從語料庫中抽取出實體對上下文特徵信息,基於同樣的資料庫實現小幅度提升。
遞歸神經網路關注於語義的結構信息,但為獲得這一信息需要依賴於傳統自然語言處理工具,傳統自然語言處理(natural language processing,NLP)工具噪聲引入的弊端再次顯露。於是 Zeng 等人利用卷積神經網路(convolutional neural networks, CNN)提取辭彙和句子的層次特徵進行關係抽取,減少輸入材料複雜的預先標記處理。Nguyen 等人在此工作的基礎上向卷積層中加入了多尺寸的卷積核作為過濾器,以此提取更多的 N-Gram 特徵,並且使用了位置向量,證實了多尺寸卷積神經網路在關係抽取中的有效性。
Lin 等人引入 PCNN(piecewise CNN),對傳統卷積神經網路的池化層進行改進,通過兩個實體位置將 feature map 分為三段進行池化,其目的是更好地捕獲兩個實體間的結構化信息,並使用注意力機制,通過建立句子級選擇性注意神經模型減輕錯誤標籤問題,最終 F 結果比基於多示例學習的機器學習方法高了 5 個百分點。 Zhou 等人使用BLSTM(bidirectional long-short term memory)對句子建模,並使用 word 級別的 attention 機制提升結果。萬靜等人利用雙向 GRU 和 PCNN 方法實現實體結構和更多特徵信息的提取,在 NYT 數據集上不錯效果。
Cai 等人提出了基於最短依賴路徑(shortest path dependence,SDP)的深度學習關係分類模型,稱為雙向遞歸卷積神經網路模型(BRCNN)。使用 SemEval-2010 Task 8數據集,在關係分類任務中,實現了 F 值高達 86.3%的抽取效果。 2017 年,Lin 等人又嘗試通過擴展到多語言語料庫上,利用多語言語料信息的互補性和一致性提升抽取性能,這在多語言共存的文檔中效果顯著。
但是以上的所有關係抽取方法都將其分解為實體抽取( named entity recognition , NER )和關係抽取 (relation extraction,RE)兩個依次進行的步驟。這種分割忽略任務間的關係,容易產生冗餘信息,於是端到端方式的聯合抽取被提出。在同一個模型中抽取出實體及其之間關係類型,實現參數共享、同步最佳化,降低之前流水式抽取出現錯誤累積的可能性。Zheng 等人利用共享神經網路底層表達進行聯合學習。Miwa 等人同樣通過參數共享 NER 使用一個神經網路進行解碼,在 RC 上加入了依存信息,根據依存樹最短路徑使用一個 BiLSTM 來進行關係分類。Li 等人提出了增量集束搜尋算法的聯合結構化抽取方式和利用全局特徵的約束方法,在 ACE 語料上比傳統的流水線方法 F 值提升了1.5%。Zheng 等人使用了更加高效的偏置目標函式和一種新的標註策略,把原來涉及到序列標註任務和分類任務的關係抽取完全變成了一個序列標註問題,通過一個端對端的神經網路模型直接得到關係實體三元組。

關係抽取的挑戰和趨勢

總體上,關係抽取在領域自適應性和召回率層面仍有提升空間。藉助已有的知識庫並挖掘深度學習語義表示和自主學習能力,自動從訓練數據中學習分類特徵、自主進行語料擴充,進而增強領域的遷移性,減少對於人工標註語料的依賴。因此弱監督包括遠程監督方式應該是研究和套用的方向之一,但是目前遠程監督的錯誤標註噪聲引入問題一直存在,雖通過多標籤多實例方式進行改善,但是仍有提升空間。
並且現階段的關係抽取大多集中在辭彙、語句級別的實體間關係,很少擴大到段落甚至篇章級別的關係抽取,但是大量的代詞在文段中需要依靠上下文信息,甚至段落篇章級進行語義理解,指代詞在語義上和名詞實體的等價關係應充分利用。通過共指消解處理結果的引入,更好地進行實體之間等價關係和非等價關係的融合,也可以進一步推理出長文檔或者多文檔實體之間存在的間接和潛在關係,藉助簡單推理實現長距離關係抽取,進一步提升關係抽取的召回率。
現在關係抽取的主流方式是二元關係抽取,即使是多元實體關係仍將其作為二元實體關係進行處理。但是現實世界中實體之間的三元甚至多元關係廣泛存在,將二元抽取方法延伸至多元抽取,發現潛在實體關係、多元實體關係、多層次關係將會對實際套用產生巨大影響。

相關詞條

熱門詞條

聯絡我們