錯誤檢測系統

概述

錯誤檢測系統是保障信息系統持續安全穩定運行的重要手段，將文本檢測、語音檢測、安全檢測等錯誤檢測技術被廣泛套用到醫療、金融等行業的信息化建設當中，提升系統持續安全穩定運行的能力。

文本檢測

命名實體識別

命名實體（Named Entity）是語料中關鍵的辭彙單位，承載了文本中的絕大部分的主要信息。最初，命名實體被定義為文本中包含人名、地名以及機構名的實體，例如在句子“[國際奧委會]主席[巴赫]訪問[中國]”中，“國際奧委會”是機構名，“巴赫”是人名，“中國”是地名，通過這些命名實體就能獲取到句子的主要內容。隨著搜尋引擎、機器翻譯、數據挖掘等技術的不斷發展，對於命名實體也有了更加寬泛的定義。而在醫學臨床以及生物相關領域，許多專有名詞也陸續被學者們定義為命名實體，例如蛋白質名、基因名、疾病名等。在當今的自然語言處理研究中，普遍將命名實體分為名詞、數字和時間這三種類型。

命名實體識別（Named Entity Recognition，NER）就是指識別文本中被定義為命名實體的專有名詞，並加以歸類。即命名實體識別的過程分為兩個步驟，一是確定實體在文本中的語料邊際；二是確定該實體的類型。由於數字類實體和時間類實體通常以時間、日期、貨幣、百分比等形式出現，具有固定的組成模式，通過正則表達式進行匹配便可以簡單識別。所以，命名實體識別的主要困難是對名詞類實體的準確識別，尤其是特定領域的專有名詞。

命名實體識別作為自然語言處理研究的一個基本任務，在各類語言的自由文本中均有著廣泛的研究。其中英文命名實體識別起步較早，取得了較好的研究成果，而中文命名實體識別的研究仍處在不太成熟的階段。究其原因，除了發展較晚之外，主要有以下幾點：

中文不像英文中單詞與單詞之間自然存在著空格作為分隔設定，中文可以單字成詞也可以多字組詞，較於英文而言，對於實體邊際的確定難度十分高；
中文的語言特性更為靈活多變，縮略詞的組成規律和表現形式十分繁雜，很難形成既定的規則，而命名實體往往以縮略詞的形式存在；
相較於英文，中文缺少對於詞征的顯性標誌，比如英文中的專有名詞通常以首字母大寫或者大寫全拼表示，而中文並沒有這種特徵。

因此，由於中文的這些特性，中文命名實體識別在進行識別操作前，往往需要對文本進行分詞預處理，從而輔助實體邊際的確定。

中文分詞技術

目前常用的中文自動分詞技術按照分詞的策略可以分為基於規則和基於統計兩大類。而近幾年，為了提高對於未登錄詞識別的性能，基於宇的中文分詞技術也逐漸發展起來，所以如若按照分詞的最小考量粒度來分類，中文自動分詞技術還可以分為基於詞和基於字兩大類。

1. 基於規則和字典的匹配分詞

該方法通過構詞規則以及足夠龐大的分詞字典作為知識來源，按照既定的規則對中文字串進行匹配分詞。如若在字典中匹配到了一個辭彙，那么就將被匹配項作為一個詞進行切割。顯然，基於規則的分詞方法是基於詞為最小考量粒度的方法。以反向最短匹配法為例，該種方法從文本末尾開始逆向切割分詞，並通過截取最小長度來匹配字典，如果匹配失敗再將匹配長度加l，如此往復，直至匹配項與字典中詞條吻合。如果待匹配長度已經超過字典的最長詞條長度或者匹配索引已經到達了文本首字元處，仍未匹配到詞條，那么就將此次匹配的尾字作為單字詞收錄。可以發現基於字典和規則的匹配方法，實現難度較低並且操作簡單，只要保證字典的權威性和數據容量足夠大，就能完成詞語的切割。但這種機械切割的方式很容易造成錯誤，譬如如果文本中存在“中華人民共和國”這個辭彙，那么按照反向最短匹配算法進行分詞處理後，文本中的“中華人民共和國”將被破壞為“中華”、“人名”、“共和國”3個零散的詞語。而想要將諸如此類的構詞形態納入規則中去考慮，是十分繁瑣的。

錯誤檢測系統

基本介紹

概述

文本檢測

命名實體識別

中文分詞技術

語音檢測

音素髮音質量

字的發音質量

WEB錯誤檢測

PBL方法

相關定義

數據集初始化

錯誤檢測框架

相關詞條

熱門詞條