信息過濾

信息過濾

信息過濾有很多定義,Belkin和Croft的文章給出了這樣的定義:信息過濾是用以描述一系列將信息傳遞給需要它的用戶處理過程的總稱。

相當於傳統的資料庫來說,信息過濾系統是一個針對非結構化或半結構化的信息系統。

信息過濾系統主要處理的是文本信息。

信息過濾系統常常要處理巨大的數據量。

基本介紹

  • 中文名:信息過濾
  • 外文名:information filtering
  • 定     義:信息傳遞給需要它的用戶處理過程
  • 套用學科:計算機技術方法術語
概念,不同定義,研究的歷史,分類體系,

概念

不同定義

信息過濾是用以描述一系列將信息傳遞給需要它的用戶處理過程的總稱。
相當於傳統的資料庫來說,信息過濾系統是一個針對非結構化或半結構化的信息系統。
信息過濾系統主要處理的是文本信息。
信息過濾系統常常要處理巨大的數據量。
信息過濾系統的目的是從大量動態產生的信息中選擇,並展現給那些滿足他(或她)信息需求的用戶。信息過濾是根據給定的對信息的需要,只在輸入數據流中保留特定數據的行為。
信息過濾是指從動態的信息流中將滿足用戶興趣的信息挑選出來,用戶的興趣一般在較長一段時間內不會改變(靜態)。信息過濾通常是在輸入數據流中移除數據,而不是在輸入流中找到數據。
可以說,信息過濾的定義大致相似。簡單地講,信息過濾可以認為是滿足用戶信息需求的信息選擇過程。在內容安全領域,信息過濾是提供信息的有效流動,消除或者減少信息過量、信息混亂、信息濫用造成的危害。但在目前的研究階段看,仍然處於較為初級的人研究階段,為用戶剔除不合適的信息是當前內容安全領域信息過濾的主要任務之一。

研究的歷史

1958年,美國的盧恩提出了“商業智慧型機器”的構想。在這個概念框架中,圖書館工作人員根據每個用戶的不同需求,建立相應的查詢模型,然後通過精確匹配的文本選擇方法,為每個用戶產生一個符合其查詢需求的新文本清單。同時,記錄用戶所訂閱的文本以用來更新用戶的查詢模型。他的工作涉及了信息過濾系統的每一個方面,為信息過濾的發展奠定了有力額基礎。
1969年,選擇性信息分發系統(SDI)引起了人們的廣泛興趣。當時的系統大多遵循Luhn模型,只有很少的系統能夠自動更新用戶查詢模型,其他大多數仍然依靠職業的技術人員或者由用戶自己來維護,SDI興起的兩個主要原因是實時電子文本的可用性和用戶查詢模型與文本匹配計算的可實現性。
1982年,Denning提出了“信息過濾”的概念。他描述了一個信息過濾的需求例子,對於實時的電子郵件,利用過濾機制識別出緊急的郵件和一般的例行郵件。之後,1986年,Mlone等人發表了較有影響的論文,並且研製了“information Lens”系統,提出了3種信息選擇模型,即認知、經濟和社會,所謂認知模式,即基於信息本身的過濾。

分類體系

信息過濾按照操作方法和獲取用戶知識的不同進行分類。
按操作方法分類
(1)主動信息過濾系統:這些系統動態地為用戶查找相關的信息。這些查找可以在一個很狹窄的領域內進行,如新聞組;也可以在很寬的領域內進行,如WWW。系統通過用戶的特徵描述,在一定的空間中查找、蒐集並傳送相關的信息給用戶。一些系統還採用了“推”技術,把相關信息“推”給用戶。
(2)被動信息過濾系統:這種系統從輸入信息流和數據中忽略不相關的信息。被動過濾系統通常套用到電子郵件過濾或者新聞組中,因為在這種系統中不需要收集數據。一些系統過濾出不相關的內容,而另外一些系統提供給用戶所有信息,但是按照相關性給出一個排序。
獲得知識的方法
不同的信息過濾系統使用不同的方法獲取用戶的知識。這些知識形成了用戶模型,通常以用戶特徵描述或者規則的形式存在。獲取用戶知識的方法包括顯式的方法和隱含的方法。
基於內容的方法不考慮特殊用戶群體的特點,針對內容進行區別對待,可用的方法有基於匹配的方法、基於分類的方法等。
(1)顯式的方法:顯式的方法包括用戶的審核和填充表單。這是最通用的顯式方法,通常要求用戶填充一個描述用戶興趣和其他相關參數的一個表單,系統利用這種方法,得到用戶的偏好。
(2)隱含的方法:隱含的方法不需要用戶的參與知識詢問,對用戶來講,這是一種更容易接受的方法。這種方法往往通過記錄用戶的行為。

相關詞條

熱門詞條

聯絡我們