圖像搜尋

圖像搜尋,是通過搜尋圖像文本或者視覺特徵,為用戶提供網際網路上相關圖形圖像資料檢索服務的專業搜尋引擎系統,是搜尋引擎的一種細分。通過輸入與圖片名稱或內容相似的關鍵字來進行檢索,另一種通過上傳與搜尋結果相似的圖片或圖片URL進行搜尋。

基本介紹

  • 中文名:圖像搜尋
  • 外文名:Image Indexing,
  • 又稱:Image Search.
  • 特徵:搜尋圖像文本或者視覺
圖像原理,相關圖像技術,發展圖像現狀,發展圖像趨勢,存在圖像問題,

圖像原理

WWW圖像搜尋引擎需要為在Web上瀏覽過的圖像建立索引信息,能夠進行圖像分析和判別,為圖像加注釋,存儲抽取出的索引信息建立索引庫,理想的圖像搜尋引擎還應該能支持基於內容的圖像檢索。 圖像識別方法:
1、自動查找圖形文:可以通過兩個HTML標籤,即IMG SRC和HREF來檢測是否存在可顯示的圖像檔案,IMG SRC表示“顯示下面的圖像檔案”,而HREF則表示“下面是一個連結”,這兩種標籤經常導向一個圖像檔案。搜尋引擎通過檢查檔案擴展名來判斷連結的是否是圖像檔案。如果檔案擴展名是.GIF或.JPG,那它就是一個可顯示的圖像。
2、人工干預找出圖像並進行分類:由人工對網上的圖像及站點進行選擇。這種方法可以產生準確的查詢體系,但勞動強度太大,限制了處理圖像的數量。由於圖像不同於文本,需要人們按照各自的理解來說明其蘊含的意義,因此圖像檢索比起文本的查詢和匹配要困難得多。目前的圖像搜尋引擎大多支持關鍵字檢索和分類瀏覽兩種檢索方式,部分可提供可視屬性檢索,但也很有限。它們主要的檢索途徑有以下幾種:
a. 基於圖像外部信息:即根據圖像的檔案名稱或目錄名、路徑名、鏈路、ALT標籤以及圖像周圍的文本信息等外部信息進行檢索,這是目前圖像搜尋引擎採用最多的方法。在找出圖像檔案後,圖像搜尋引擎通過查看檔案名稱或路徑名確定檔案內容,但這取決於檔案名稱或路徑名的描述程度。
b. 基於圖像內容特徵描述:這是一種語義層次的匹配。需要人工對圖像的內容(如物體、背景、構成、顏色特徵等)進行描述並分類,給出描述詞。檢索時,將主要在這些描述詞中搜尋你的檢索詞。這種查詢方式是比較準確的,一般來講可以獲得較好的查準率。但需人工參與,勞動強度大,因而限制了可處理的圖像數量,並且需要一定的規範和標準,效果取決於人工描述的精確度。
c. 基於圖像形式特徵的抽取:由圖像分析軟體自動抽取圖像的顏色、形狀、紋理等特徵,建立特徵索引庫,用戶只需將要查找的圖像的大致特徵描述出來,就可以找出與之具有相近特徵的圖像。這是一種基於圖像特徵層次的機械匹配,特別適用於檢索目標明確的查詢要求(例如對商標的檢索)。產生的結果也是最接近用戶要求的。但目前這種較成熟的檢索技術主要套用於圖像資料庫的檢索,在網上圖像搜尋引擎中套用這種檢索技術還具有一定的困難。

相關圖像技術

從廣義上講,圖像的特徵包括基於文本的特徵(如關鍵字、注釋等)和視覺特徵(如顏色、紋理、形狀等)兩類。視覺特徵又可分為通用的視覺特徵和領域相關(局部/專用)的視覺特徵。前者用於描述所有圖像共有的特徵,與圖像的具體類型或內容無關,主要包括顏色、紋理和形狀;後者則建立在對所描述圖像內容的某些先驗知識(或假設)的基礎上,與具體的套用緊密有關,例如人的面部特徵或指紋特徵等。
1、基於上下文本(context)的圖片搜尋
通常是通過Alt等錨來索引,搜尋的,您可以訪問搜尋引擎,比如百度GOOGLE。在搜尋框內輸入搜尋文字,點擊右側的“圖片搜尋”按紐,即可獲得相關圖片搜尋結果。
2、基於圖片內容的搜尋
涉及了資料庫管理、計算機視覺、圖像處理、模式識別、信息檢索和認知心理學等諸多學科,其相關技術主要包括:圖像數據模型、特徵提取方法、索引結構、相似性度量、查詢表達模式、檢索方法等。相似圖片的檢測主要涉及特徵表示和相似性度量這兩類關鍵技術。圖像特徵的提取與表達是基於內容的圖像處理技術的基礎。

發展圖像現狀

一類是以百度GOOGLE、有道等專業搜尋引擎網站為代表提供的圖像或圖片搜尋功能,為用戶提供以文字進行檢索的圖片搜尋服務。此類搜尋功能搜尋面大,搜尋結果信息龐大,只能提供較為單一的搜尋服務,搜尋結果給予用戶比較多的選擇性。
另一類是以淘淘搜等專業圖像搜尋服務為代表的網站,為用戶提供除文字外,通過上傳與搜尋結果相似的圖片或者圖片URL進行搜尋服務。此類網站更多的服務套用於網上購物領域的服務方向,更多的是為用戶提供在網購方面的體驗。

發展圖像趨勢

隨著百度識圖安圖搜等圖像搜尋網站的出現站,讓圖像搜尋更加趨向於專業性服務,搜尋結果方向性更強,精確性更高。

存在圖像問題

1. 尺度變化:尺度變化可以有多種形式,包括圖像的放大、縮小以及長寬比的改變等等。在網路上,常見的變化是將原來較大的圖像變換為相對尺寸較小的圖像,以減少存儲空間需求和加快網路傳輸速度。
2. 顏色變化:在許多情況下,彩色圖像會被轉化為對應的灰度圖像,而灰度圖像也可能被轉化為彩色圖像。對於空間遙感圖像等,由於原始圖像的閱讀比較困難,人們往往將圖像人為加上不同的顏色以區分圖像中的各種區域。
3. 存儲格式引起的失真:圖像本身有著巨大的數據量,如今人們在存儲圖像時一般會使用各種不同的壓縮算法。常用的算法如JPEG、GIF、PNG等等。為了實現比較高的壓縮性能,這些算法絕大多數都是有損壓縮,即壓縮後的圖像不能無失真地進行恢復。所以,當圖像在不同格式之間進行轉化時,轉化前後的圖像之間總會存在一定差異。由於這些差異的存在,直接比較兩幅圖像以判斷其是否重複的方法是不可行的。
4. 數字水印:許多藝術圖像等具有一定的知識著作權,而網路則很容易造成非授權圖像的流傳。所以,目前人們往往採用數字水印(watermarking)方法在不影響圖像視覺效果的情況向圖像中注入一定的隱藏信息。

相關詞條

熱門詞條

聯絡我們