GOOGLE網頁搜尋

谷歌網頁搜尋是一個搜尋引擎,由兩個史丹福大學博士生Larry Page與Sergey Brin於1998年9月發明,Google Inc. 於1999年創立。谷歌網頁搜尋技術,大部分在百度等搜尋引擎中也適用。同樣,這些搜尋技術是來源於傳統資料庫檢索技術。GOOGLE的“網頁快照”功能,能從GOOGLE伺服器里直接取出快取的網頁。

基本介紹

  • 中文名:GOOGLE網頁搜尋
  • 時間:1998年9月
  • 發明者:Larry Page與Sergey Brin
  • 所屬公司:谷歌
搜尋引擎簡介,谷歌搜尋意義,高級搜尋說明,搜尋技術實例,其他重要功能,

搜尋引擎簡介

谷歌網頁搜尋是一個搜尋引擎,由兩個史丹福大學博士生Larry Page與Sergey Brin於1998年9月發明,Google Inc. 於1999年創立。cache用來搜尋GOOGLE伺服器上某頁面的快取,這個功能同"網頁快照",通常用於查找某些已經被刪除的死連結網頁,相當於使用普通搜尋結果頁面中的"網頁快照"功能。

谷歌搜尋意義

谷歌網頁搜尋技術,大部分在等搜尋引擎中也適用。同樣,這些搜尋技術是來源於傳統資料庫檢索技術,因而,對這部分的學習,能為後續章節的資料庫檢索奠定基礎,並能獲得直觀的認識。本部分結合套用實例的講解也能讓我們加深信息檢索對解決實際問題、提高搜尋效率的認知。
本節中一些實例中的括弧“【】”中的內容直接在谷歌搜尋框中輸入可查看效果,最快捷的方式是將實例的連結在新視窗中打開,既能看到輸入的檢索策略,也能直接看到搜尋效果。

高級搜尋說明

谷歌網頁搜尋之高級搜尋需要注意的是,所有的搜尋語法和搜尋符號必須是半角狀態(即英文輸入模式)。很多搜尋語法也可以通過谷歌網頁搜尋之高級搜尋來實現(如圖2),在谷歌首頁點擊“高級”即可進入高級搜尋界面。

搜尋技術實例

默認模糊搜尋、自動拆分短語
默認模糊搜尋、自動拆分短語
GOOGLE網頁搜尋
GOOGLE無需用明文的“+”來表示邏輯“與”操作,只要空格就可以了。
示例:搜尋所有包含關鍵字“易筋經”和“吸星大法”的中文網頁
搜尋:“易筋經 吸星大法”
結果:已搜尋有關易筋經 吸星大法的中文(簡體)網頁。共約有726項查詢結果,這是第1-10項。搜尋用時0.13秒。
注意:文章中搜尋語法外面的引號僅起引用作用,不能帶入搜尋欄內。
GOOGLE用減號“-”表示邏輯“非”操作
示例:搜尋所有包含“易筋經”而不含“吸星大法”的中文網頁
搜尋:“易筋經 -吸星大法”
結果:已搜尋有關易筋經 -吸星大法的中文(簡體)網頁。共約有5,440項查詢結果,這是第1-10項。搜尋用時0.13秒。
注意:這裡的“+”和“-”號,是英文字元,而不是中文字元的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。比如“易筋經 - 吸星大法”,搜尋引擎將視為邏輯“與”操作,中間的“-”被忽略。
GOOGLE用大寫的“OR”表示邏輯“或”操作。但是,關鍵字為中文的或查詢似乎還有BUG,無法得到正確的查詢結果。
示例:搜尋包含布蘭妮“Britney”或者披頭士“Beatles”、或者兩者均有的中文網頁。
搜尋:“britney OR beatles”
結果:已搜尋有關britney OR beatles的中文(簡體)網頁。共約有14,600項查詢結果,這是第1-10項。搜尋用時0.08秒。
搜尋:“布蘭妮 OR 披頭士”
結果:找不到和您的查詢-布蘭妮 OR 披頭士-相符的網頁。
注意:小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”查詢。
“+”和“-”的作用有的時候是相同的,都是為了縮小搜尋結果的範圍,提高查詢結果命中率。
例:查閱天龍八部具體是哪八部。
分析:如果光用“天龍八部”做關鍵字,搜尋結果有26,500項,而且排前列的主要與金庸的小說《天龍八部》相關,很難找到所需要的資訊。可以用兩個方法減少無關結果。
1.如果你知道八部中的某一部,比如阿修羅,增加“阿修羅”關鍵字,搜尋結果就只有995項,可以直接找到全部八部,“天龍八部 阿修羅”。
2.如果你不知道八部中的任何一部,但知道這與佛教相關,可以排除與金庸小說相關的記錄,查詢結果為1,010項,可以迅速找到需要的資料,“天龍八部 佛教 -金庸”。
輔助搜尋 通配符、大小寫、句子、忽略字元以及強制搜尋
輔助搜尋
GOOGLE不支持通配符,如“*”、“?”等,只能做精確查詢,關鍵字後面的“*”或者“?”會被忽略掉。
GOOGLE對英文字元大小寫不敏感,“GOD”和“god”搜尋的結果是一樣的。
GOOGLE的關鍵字可以是詞組(中間沒有空格),也可以是句子(中間有空格),但是,用句子做關鍵字,必須加英文引號。
示例:搜尋包含“long, long ago”字串的頁面。
搜尋:“"long, long ago"”
結果:已向英特網搜尋"long, long ago". 共約有28,300項查詢結果,這是第1-10項。搜尋用時0.28秒。
注意:和搜尋英文關鍵字串不同的是,GOOGLE對中文字串的處理並不十分完善。比如,搜尋“"啊,我的太陽"”,我們希望結果中含有這個句子,事實並非如此。查詢的很多結果,“啊”、“我的”、“太陽”等詞語是完全分開的,但又不是“啊我的 太陽”這樣的與查詢。顯然,GOOGLE對中文的支持尚有欠缺之處。
GOOGLE對一些網路上出現頻率極高的詞(主要是英文單詞),如“i”、“com”,以及一些符號如“*”、“.”等,作忽略處理,如果用戶必須要求關鍵字中包含這些常用詞,就要用強制語法“+”。
示例:搜尋包含“Who am I ?”的網頁。如果用“"who am i ?"”,“Who”、“I”、“?”會被省略掉,搜尋將只用“am”作關鍵字,所以應該用強制搜尋。
搜尋:“"+who +am +i"”
結果:已向英特網搜尋"+who +am +i". 共約有362,000項查詢結果,這是第1-10項。搜尋用時0.30秒。
注意:英文符號(如問號,句號,逗號等)無法成為搜尋關鍵字,加強制也不行。
高級搜尋 site,link,inurl,allinurl,intitle,allintitle
高級搜尋
“site”表示搜尋結果局限於某個具體網站或者網站頻道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某個域名,如“com.cn”、“com”等等。如果是要排除某網站或者域名範圍內的頁面,只需用“-網站/域名”。
示例:搜尋中文教育科研網站(edu.cn)上所有包含“金庸”的頁面。
搜尋:“金庸 site:edu.cn”
結果:已搜尋有關金庸 site:edu.cn的中文(簡體)網頁。共約有2,680項查詢結果,這是第1-10項 。搜尋用時0.31秒。
示例:搜尋包含“金庸”和“古龍”的中文新浪網站頁面,
搜尋:“金庸 古龍 site:sina.com.cn”
注意:site後的冒號為英文字元,而且,冒號後不能有空格,否則,“site:”將被作為一個搜尋的關鍵字。此外,網站域名不能有“http”以及“www”前綴,也不能有任何“/”的目錄後綴;網站頻道則只局限於“頻道名.域名”方式,而不能是“域名/頻道名”方式。諸如“金庸 site:edu.sina.com.cn/1/”的語法是錯誤的。
“link”語法返回所有連結到某個URL地址的網頁。
共約有695項查詢結果,這是第1-10項。搜尋用時0.23秒。
注意:“link”不能與其他語法相混合操作,所以“link:”後面即使有空格,也將被GOOGLE忽略。
inurl語法返回的網頁連結中包含第一個關鍵字,後面的關鍵字則出現在連結中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源連結,然後,用第二個關鍵字確定是否有某項具體資料。INURL語法和基本搜尋語法的最大區別在於,前者通常能提供非常精確的專題資料。
示例:查找MIDI曲“滄海一聲笑”。
搜尋:“inurl:midi 滄海一聲笑”
結果:已搜尋有關inurl:midi 滄海一聲笑的中文(簡體)網頁。共約有14項查詢結果,這是第1-10項。搜尋用時0.01秒。
示例:查找微軟網站上關於windows2000的安全課題資料。
搜尋:“inurl:security windows2000 site:microsoft.com”
結果:已在microsoft.com內搜尋有關 inurl:security windows2000的網頁。共約有198項查詢結果,這是第1-10項。搜尋用時0.37秒。
注意:“inurl:”後面不能有空格,GOOGLE也不對URL符號如“/”進行搜尋。GOOGLE對“cgi-bin/phf”中的“/”當成空格處理。
allinurl語法返回的網頁的連結中包含所有查詢關鍵字。這個查詢的對象只集中於網頁的連結字元串。
示例:查找可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF腳本程式(這個腳本是不安全的),表現在連結中就是“域名/cgi-bin/phf”。
語法:“allinurl:"cgi-bin" phf +com”
搜尋:已向英特網搜尋allinurl:"cgi-bin" phf +com. 共約有40項查詢結果,這是第1-10項。搜尋用時0.06秒。
allintitle和intitle的用法類似於上面的allinurl和inurl,只是後者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標記語言title中之間的部分。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,只查詢標題欄,通常也可以找到高相關率的專題頁面。
示例:查找日本明星藤原紀香的照片集。
搜尋:“intitle:藤原紀香 寫真”
結果:已搜尋有關intitle:藤原紀香 寫真的中文(簡體)網頁。共約有284項查詢結果,這是第1-10項。搜尋用時0.03秒。
GOOGLE的罕用高級搜尋語法:related,cache,info
related用來搜尋結構內容方面相似的網頁。例:搜尋所有與中文新浪網主頁相似的頁面(如網易首頁,搜狐首頁,中華網首頁等),“related:www.sina.com.cn/index.shtml”。
cache用來搜尋GOOGLE伺服器上某頁面的快取,這個功能同“網頁快照”,通常用於查找某些已經被刪除的死連結網頁,相當於使用普通搜尋結果頁面中的“網頁快照”功能。
info用來顯示與某連結相關的一系列搜尋,提供cache、link、related和完全包含該連結的網頁的功能。
示例:查找和新浪首頁相關的一些資訊。
搜尋:“info:www.sina.com.cn”
結果:有關www.sina.com.cn的網頁信息。
Google 提供這個網址的信息: 查看Google網頁快照里www.sina.com.cn的存檔 尋找和www.sina.com.cn類似的網頁 尋找網頁有連結到www.sina.com.cn 尋找網頁包含有'www.sina.com.cn'

其他重要功能

目錄服務 如果不想搜尋網頁,而是想尋找某些專題網站,可以訪問GOOGLE的分類目錄“

相關詞條

熱門詞條

聯絡我們