漢字情報檢索

指以漢字表明的信息作為存取對象的情報檢索,與中文情報檢索含義相同,同時泛指含有漢字(如日語等)文字的情報檢索。

基本介紹

  • 中文名:漢字情報檢索
  • 外文名:Chinese characters information retrieval
  • 作用對象漢字表明的信息
  • 相近檢索:日語等
簡介,漢字編碼,漢字字元集和內碼,漢語切分,漢字檢索,

簡介

在計算機內部,無論中文或西文都以代碼形式表現,漢字檢索和西文檢索,檢索原理和機制並無區別,同一情報檢索系統完全可用於兼顧英漢乃至多種文字的檢索。漢字檢索和西文檢索,技術上的主要差別是漢字本身造成的,主要涉及漢字處理技術問題。從這一意義上說,漢字情報檢索,是情報檢索和漢字處理兩者的結合,技術條件上除與西文情報檢索完全相同以外,還必須具備漢字處理所需的輸入輸出設備和相應的軟體。

漢字編碼

西文檢索以拉丁字母和數字為存取對象,總數有限,用一個位元組長度足以表示全部字元集,而且編碼簡單,實現標準化容易,輸入輸出設備均以一個位元組為單位進行設計。漢字情報檢索不僅要處理西文字元集,而且要處理數目龐大的漢字,至少需要兩個位元組表示一個特定漢字。大字元集的特點,給漢字編碼、標準化帶來了困難,而且大大增加了輸入輸出設備的複雜性。在計算機內部,處理對象不管漢字或西文都以代碼表示,為了保證兩者的兼容,在輸入輸出時必須嚴加區分,以便在輸入時產生正確的漢字內碼和西文內碼,而在輸出時將相應的內碼轉換成漢字或西文字元漢字數量大,文字屬性多,給漢字編碼標準化帶來困難。據不完全統計,中國已出現 400多種漢字編碼方案,已裝入漢字處理系統的輸入方法也有十幾種。漢字編碼難於標準化,增加了設備和用戶的負擔,影響漢字處理的套用普及。

漢字字元集和內碼

中國1981年5 月頒布的《信息交換用漢字編碼字元集基本集》 (GB2312-80),漢字數量不夠用,許多單位自己造字,代碼不統一,影響信息交換。西文和漢字的排序方法不同,西文一般按字母順序排列,而漢字排序則有筆畫、偏旁部首、拼音等不同要求。該字元集參照漢字使用頻度分為二級,第一級按漢語拼音字母順序排列,第二級按部首排列。現在漢字的內碼基本是將交換碼直接作為內碼使用,或者加上標識位或標識位元組後作為內碼使用,漢字本身存在的缺陷在內碼無法得到改善,而且增加了排序原則的不一致性,字的相對位置無法表示等問題,並且直接影響與單位元組的西文並行處理。亟待增補漢字標準字元集,並且改進內碼方案。

漢語切分

情報檢索需要以詞語作為處理對象,西文以兩個空格之間定義為一個單詞,計算機自動抽詞比較簡單,而漢字詞語之間不用空格區分,漢字自動切分比西文抽詞困難和複雜得多。漢語詞語的自動切分和關鍵字語的自動組成,是漢字情報檢索必不可缺的技術要求。近年,許多專家、學者提出了多種方案構想,還有人作了實驗,取得了可喜的實驗性成果,但漢語詞語自動切分的解決,離實用要求仍有相當距離。

漢字檢索

漢字情報檢索大都停留在漢字資料庫管理系統的水平上,不能處理可變長記錄和重複欄位,同時在漢語主題詞語管理、漢語詞語的位置查找、針對漢語詞語結構的檢索方法等方面,尚未研製成功專用的漢字情報檢索軟體
隨著中國漢字處理技術的進步,80年代以來漢字情報檢索開始逐步發展,已建立總數達40~50萬篇中文文獻資料庫。許多單位在微型機上實現漢字情報檢索。有的單位把引進的西文情報檢索系統改造成為中西文兼容的漢字情報檢索系統,例如機電部機械工業科技情報研究所在HP3000計算機上改造 MINISIS系統,中國科學技術情報研究所和聯合國教科文組織聯合發展 CDS/ISIS2.3版微機漢字情報檢索系統等。北京文獻服務處研製了取名為BDSIRS大型在線上中西文兼容情報檢索系統和 MBDSIRS 微機漢字情報檢索系統。不少專業情報中心已建立創建資料庫、漢字情報檢索和計算機編排檢索刊物等功能配套的綜合性漢字情報處理系統。

相關詞條

熱門詞條

聯絡我們