語義搜尋

顧名思義,所謂語義搜尋,是指搜尋引擎的工作不再拘泥於用戶所輸入請求語句的字面本身,而是透過現象看本質,準確地捕捉到用戶所輸入語句後面的真正意圖,並以此來進行搜尋,從而更準確地向用戶返回最符合其需求的搜尋結果。

基本介紹

  • 中文名:語義搜尋
  • 屬於:搜尋引擎的工作
  • 含義語義搜尋引擎進行推理和知識積累
  • 要點:知識庫的建立提供一個基本的結構
概述,套用領域,相關闡述,

概述

舉例來說吧,當一個用戶在搜尋框中輸入“孟字去掉子”時,深諳語義搜尋的搜尋引擎就能夠判斷出,用戶想要找的並不是含有“孟”、“去掉子”等字眼的內容,而是想要查找與“皿”這個字相關的內容;同樣,當用戶搜尋“表現春天的圖片”時,搜尋引擎會向其呈現出各種與春天相關的圖片,而不僅僅局限於該圖片的標題是否包含“春天”字樣。
知識庫是語義搜尋引擎進行推理和知識積累的基礎和關鍵,而Ontology則是知識庫的基礎。一般來說,本體提供一組術語和概念來描述某個領域,知識庫則使用這些術語來表達該領域的事實。例如醫藥本體可能包含“白血病”、“皮膚病”等術語的定義,但它不會包含具體某一病人的診斷結果,而這正是知識庫所要表達的內容。比如張三患有皮膚病、李四患有皮膚病和白血病、王五患有白血病,其中的皮膚病、白血病就是本體。而各個病症的實例(張三、李四、王五)及其病症描述就是知識庫的內容。
本體和知識庫的關係有幾個要點:
★ Ontology為知識庫的建立提供一個基本的結構;
★ Ontology提供一套概念和術語來描述某一領域,並且獲取該領域的本質的概念結構;
★ 知識庫就運用這些術語去表達現實或者虛擬世界中的正確知識。
因此,建設一個知識庫的第一步就是對該領域進行有效的Ontology分析。通過本體支持語義,支持人機之間的交流,從而實現機器智慧型,為web的發展帶來了新的契機。而本體在搜尋引擎中的套用,必將對搜尋引擎的易用性和效率,產生極大的改進,從而使得web用戶能夠更好的在浩如煙海的信息海洋中遨遊。

套用領域

語義搜尋的實質是自然語言處理技術,這正是百度自推出框計算概念以來一直重點投入的研發領域——早在去年,百度就曾與在該領域非常權威的哈爾濱工業大學建立聯合實驗室,著手自然語言相關技術的研發。

相關闡述

當兩個詞或一組詞大量出現在同一個文檔中時,這些詞之間就可以被認為是語義相關。
舉個例子,電腦和計算機這兩個詞在人們寫文章時經常混用,這兩個詞在大量的網頁中同時出現,搜尋引擎就會認為這兩個詞是極為語義相關的。
要注意的是,潛在語義索引並不依賴於語言,所以SEO和搜尋引擎最佳化雖然一個是英語,一個是中文,但這兩個詞大量出現在相同的網頁中,雖然搜尋引擎還不能知道搜尋引擎最佳化或SEO指的是什麼,但是卻可以從語義上把”SEO”,”搜尋引擎最佳化”,”search engine optimization”,”SEM”等詞緊緊的連在一起。
再比如蘋果和橘子這兩個詞,也是大量出現在相同文檔中,不過緊密度低於同義詞。
搜尋引擎有沒有使用潛在語義索引,至今沒有定論,因為搜尋引擎既不承認也不否認。
這種語義分析技術可以給我們在搜尋引擎最佳化上一些提示。
網站主題的形成
通常邏輯和結構適當的網站都會分成不同的頻道或欄目。在不同的頻道中談論有些區別但緊密相關的話題,這些話題共同形成網站的主題。搜尋引擎在把整個網站的頁面收錄進去後,能夠根據這些主題詞之間的語義相關度判斷出網站的主題。
網頁內容寫作
從兩年前開始,搜尋引擎排名有一個現象,搜尋某個關鍵字,排在靠前面的網頁有時甚至並不含有所搜尋的關鍵字,這很有可能是潛在語義索引在起作用。
比如搜尋電腦,排在前面的網頁有可能出現一篇只提到計算機卻沒提到電腦。因為搜尋引擎通過語義分析知道這兩個詞是緊密相關的。
還有一個要注意的是,在進行網頁寫作的時候,不要局限於目標關鍵字,應該包含與主關鍵字語義相關相近的辭彙,以支持主關鍵字。
這在搜尋結果中也有體現,有的文章雖然大量出現主關鍵字,但缺少其他支撐辭彙,排名往往不好。

相關詞條

熱門詞條

聯絡我們