以中文信息處理為核心的基礎資源庫

自動化所共同管理的。經過10 多年的建設與積累,面向全世界收集和開發了84 個語料庫。覆蓋漢字處理、語音識別與合成、機器翻譯、智慧型信息檢索等研究領域,其中還包括詞典和工具軟體。數據規模達到近500G。

基本介紹

  • 中文名:以中文信息處理為核心的基礎資源庫
  • 外文名:In the basis of Chinese information processing as the core repository
  • 數據規模:數據規模達到近500G
  • 功能:漢字處理、語音識別與合成
內容簡介,只用方法,套用案例,持續發展,

內容簡介

中文信息處理基礎資源庫是國際上最大的支持中文信息處理技術研發的語料庫,是由中國科學院計算技術研究所和自動化所共同管理的。經過10 多年的建設與積累,面向全世界收集和開發了84 個語料庫。覆蓋漢字處理、語音識別與合成、機器翻譯、智慧型信息檢索等研究領域,其中還包括詞典和工具軟體。數據規模達到近500G。
截止2009 年12 月,共有資源庫85 套。按照資源使用性質,大致為:評測語料19 套;翻譯語料13 套;詞典、人名、地名7 套;分詞、句法標註語料2 套;語音識別20 套;語音合成2 套;自然口語語料庫12 套;雙語語料庫5 套;其他4 套。
截至的2009 年12 月底,中文信息處理基礎資源庫共有用戶90 余家,其中國內大學41 家,研究機構27 家,企業11 家。國外大學4 家,研究機構8 家,企業9 家。
截至到2009 年12 月底,中文信息處理基礎資源庫共有語料庫提供者22 家,其中:國內大學提供者5 家,科研機構提供者10 家,企業提供者6 家;科研機構提供者1 家。
以中文信息處理為核心的基礎資源庫

只用方法

由於中文信息基礎資源庫的語料眾多,套用的領域也各不相同,使用方法也是各有特點。但是,對於每一個語料庫,中文信息基礎資源平台都提供標準信息給用戶參考。當用戶在網頁中選中一個自己需要的語料庫,點擊進入後,頁面中會顯示該語料庫的簡介,並且在頁面下方包含四項標準內容:資源介紹、標註規範、技術文檔和實例下載。資源介紹中包含的標準信息有:資源名稱、資源簡述、單位名稱、開發時間、資源規模;標註規範中包含的標準信息有:資源簡介、數據校對規則、標註工具、標註信息、標註規則、標註注意事項;技術文檔中包含的標準信息有:資源名稱、資源持有者、資源創建時間、資源建立目的、語料庫結構、技術參數、執行標準;實例下載提供語料庫規模5%左右的數據作為提供給用戶免費下載。
用戶可以通過傳送郵件或電話等聯繫方式,委託數據服務人員為之搜尋及加工整理所需要的數據,或申請數據傳遞服務。我們可以提供FTP、硬碟直接拷貝或光碟郵寄等方式的數據傳遞,以方便用戶獲得所需數據。

套用案例

據統計,2009 年本系統內資料庫的訪問量達到5 萬餘人次,數據下載量達到數10G 位元組。2008 年-2009 年對外共享資源69 套。中文信息基礎資源庫的會員單位已有100 多個。
2008 年北京奧運會的多語言服務系統的研發採用了.面向奧運的中英日三語語料庫(漢英部分)和面向奧運的中英日三語語料庫進行系統訓練。
中國科學院自動化所的嵌入式語音合成系統採用了CASIA 漢語疑問句語料庫、CASIA 漢語情感語料庫、CASIA-863 語音合成語料庫、ASCCD- 漢語國語朗讀語篇語料庫、CADCC- 漢語國語自然口語對話語料庫等中文信息資源作為開發系統的訓練語料。
漢王科技公司和安徽科大訊飛公司都是中文信息基礎資源庫的老用戶,他們的許多產品都使用這些語料庫進行開發。
IBM 公司、Inter 公司、飛利浦公司、松下電器公司等等國外知名公司都是中文信息基礎資源庫的會員,共享過語料資源。

持續發展

中文信息基礎資源庫本著開放、共享、發展的原則,在世界範圍內徵集與中文信息處理技術發展相關的數據資源和語料庫。同時,根據用戶的需求,自行開發和建設新的語料庫。與此同時,為了宣傳中文信息處理技術的研究成果,鼓勵青年學者和技術愛好者設計和開發相關的算法和模型,我們將逐步開放更多的免費語料庫供研究使用。在未來的規劃中,我們將建立網上測試系統,為科研人員提供網上的評測服務,使得新的算法和模型能夠及時地得到測試和比較,為科研工作提供更多更方便的服務。

相關詞條

熱門詞條

聯絡我們