搜尋引擎

搜尋引擎

搜尋引擎(Search Engine)是指根據一定的策略、運用特定的電腦程式網際網路上蒐集信息,在對信息進行組織處理後,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜尋引擎包括全文索引目錄索引元搜尋引擎垂直搜尋引擎、集合式搜尋引擎、門戶搜尋引擎與免費連結列表等。

基本介紹

定義,分類,全文索引,目錄索引,元搜尋,垂直搜尋,集合式搜尋,門戶搜尋,免費連結,工作原理,歷史,起源,發展,Excite,Openfind,影響,作用,商務模式,組成,搜尋器,索引器,檢索器,用戶接口,語言判斷,搜尋建議,使用方法,簡單查詢,高級查詢,未來展望,

定義

一個搜尋引擎由搜尋器 、索引器 、檢索器 和用戶接口 四個部分組成。搜尋器的功能是在網際網路 中漫遊,發現和蒐集信息。索引器的功能是理解搜尋器所搜尋的信息,從中抽取出索引項,用於表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。

分類

全文索引

搜尋引擎分類部分提到過全文搜尋引擎從網站提取信息建立網頁資料庫的概念。搜尋引擎的自動信息蒐集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍內的網際網路網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。隨著搜尋引擎索引規則發生很大變化,主動提交網址並不保證你的網站能進入搜尋引擎資料庫,最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你並自動將你的網站收錄
蜘蛛搜尋引擎蜘蛛搜尋引擎
當用戶以關鍵字查找信息時,搜尋引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵字的匹配程度、出現的位置、頻次、連結質量——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁連結返回給用戶。這種引擎的特點是搜全率比較高。

目錄索引

目錄索引也稱為:分類檢索,是網際網路上最早提供WWW資源查詢的服務,主要通過蒐集和整理網際網路的資源,根據搜尋到網頁的內容,將其網址分配到相關分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結構索引。目錄索引無需輸入任何文字,只要根據網站提供的主題分類目錄,層層點擊進入,便可查到所需的網路信息資源。
雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類的網站連結列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵字Keywords)進行查詢。
與全文搜尋引擎相比,目錄索引有許多不同之處。
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功;而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其像Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜尋引擎時,一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
搜尋引擎與目錄索引有相互融合滲透的趨勢。一些純粹的全文搜尋引擎也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo! ;這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在默認搜尋模式下,一些目錄類搜尋引擎首先返回的是自己目錄中匹配的網站,如中國的搜狐新浪網易等;而另外一些則默認的是網頁搜尋,如Yahoo。這種引擎的特點是找的準確率比較高。

元搜尋

元搜尋引擎(METASearch Engine)接受用戶查詢請求後,同時在多個搜尋引擎上搜尋,並將結果返回給用戶。著名的元搜尋引擎有InfoSpaceDogpileVivisimo等,中文元搜尋引擎中具代表性的是搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源排列搜尋結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo

垂直搜尋

垂直搜尋引擎為2006年後逐步興起的一類搜尋引擎。不同於通用的網頁搜尋引擎,垂直搜尋專注於特定的搜尋領域和搜尋需求(例如:機票搜尋、旅遊搜尋、生活搜尋、小說搜尋、視頻搜尋、購物搜尋等等),在其特定的搜尋領域有更好的用戶體驗。相比通用搜尋動輒數千台檢索伺服器,垂直搜尋需要的硬體成本低、用戶需求特定、查詢的方式多樣。

集合式搜尋

集合式搜尋引擎:該搜尋引擎類似元搜尋引擎,區別在於它並非同時調用多個搜尋引擎進行搜尋,而是由用戶從提供的若干搜尋引擎中選擇,如HotBot在2002年底推出的搜尋引擎。

門戶搜尋

門戶搜尋引擎:AOLSearch、MSNSearch等雖然提供搜尋服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他搜尋引擎。

免費連結

免費連結列表(Free For All Links簡稱FFA):一般只簡單地滾動連結條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

工作原理

第一步:爬行
搜尋引擎是通過一種特定規律的軟體跟蹤網頁的連結,從一個連結爬到另外一個連結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜尋引擎蜘蛛的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。
第二步:抓取存儲
搜尋引擎是通過蜘蛛跟蹤連結爬行到網頁,並將爬行的數據存入原始頁面資料庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到權重很低的網站上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
第三步:預處理
搜尋引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
⒈提取文字
⒊去停止詞
⒋消除噪音(搜尋引擎需要識別並消除這些噪聲,比如著作權聲明文字、導航條、廣告等……)
5.正向索引
6.倒排索引
7.連結關係計算
8.特殊檔案處理
除了HTML 檔案外,搜尋引擎通常還能抓取和索引以文字為基礎的多種檔案類型,如 PDF、Word、WPS、XLS、PPT、TXT 檔案等。我們在搜尋結果中也經常會看到這些檔案類型。 但搜尋引擎還不能處理圖片、視頻、Flash 這類非文字內容,也不能執行腳本和程式。
第四步:排名
用戶在搜尋框輸入關鍵字後,排名程式調用索引庫數據,計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由於搜尋引擎的數據量龐大,雖然能達到每日都有小的更新,但是一般情況搜尋引擎的排名規則都是根據日、周、月階段性不同幅度的更新。
選擇
與網站內容相關
搜尋次數多,競爭小
主關鍵字,不可太寬泛
主關鍵字,不太特殊
商業價值
提取文字
中文分詞
去停止詞
消除噪聲
去重
正向索引
倒排索引
連結關係計算
特殊檔案處理

歷史

網際網路發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選網際網路上的優秀網站,並簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站。也有人把這種基於目錄的檢索服務網站稱為搜尋引擎,但從嚴格意義上講,它並不是搜尋引擎。
1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出Archie。當時,全球資訊網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期蒐集並分析FTP伺服器上的檔案名稱信息,提供查找分別在各個FTP主機中的檔案。用戶必須輸入精確的檔案名稱進行搜尋,Archie告訴用戶哪個FTP伺服器能下載該檔案。雖然Archie蒐集的信息資源不是網頁(HTML檔案),但和搜尋引擎的基本工作方式是一樣的:自動蒐集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。

起源

所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名稱查找檔案的系統,於是便有了Archie。Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名稱列表,用戶必須輸入精確的檔案名稱搜尋,然後Archie會告訴用戶哪一個FTP地址可以下載該檔案 ;由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。

發展

Excite

Excite的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜尋軟體版本,後來被叫做Excite for Web Servers。
註:Excite後來曾以概念搜尋聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎 Dogpile
2.1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜尋效率明顯提高。
註:Yahoo!以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務。
Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。
3.1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。
第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜尋引擎概念上非常好聽,但搜尋效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。
4.智慧型檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網路,給予用戶智慧型知識提示,最終幫助用戶獲得最佳的檢索效果。
例:
⑴查詢“計算機”,與“電腦”相關的信息也能檢索出來;
⑵可以進一步縮小查詢範圍至“微機”、“伺服器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟體”、“計算機套用”等範疇;
⑶還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。
5.個性化趨勢是搜尋引擎的一個未來發展的重要特徵和必然趨勢之一。一種方式通過搜尋引擎的社區化產品(即對註冊用戶提供服務)的方式來組織個人信息,然後在搜尋引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜尋結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶的搜尋需求限定的範圍,然後按照用戶需求範圍擴展到網際網路上其他的同類網站給出最相關的結果。另外一種是針對大眾化的,Google個性化搜尋引擎,或者yahooMindSet,或者我們都知道的前台聚類的vivisimo。但是無論其中的哪一種實現方式,即Google的主動選擇搜尋範圍,還是yahoo,vivisimo的在結果中重新組織自己需要的信息,都是一種實驗或者創想,短期內無法成為主流的搜尋引擎套用產品。
6.格線技術(great global grid):由於沒有統一的信息組織標準對網路信息資源進行加工處理,難以對無序的網路信息資源進行檢索、交接和共享乃至深層次的開發利用,形成信息孤島。格線技術就是要消除信息孤島實現網際網路上所有資源的全面連通。
全球信息格線(Global Information Grid)
Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程式。由於專門用於檢索信息的Robot程式像蜘蛛(spider)一樣在網路間爬來爬去,因此,搜尋引擎的Robot程式被稱為spider程式。
1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的連結關係來檢測全球資訊網規模的“機器人(Robot)”程式。開始,它僅僅用來統計網際網路上的伺服器數量,後來也能夠捕獲網址(URL)。
1994年4月,史丹福大學(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo共同創辦了Yahoo。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。雅虎於2002年12月23日收購inktomi,2003年7月14日收購包括Fast和Altavista在內的Overture,2003年11月,Yahoo全資收購3721公司。
1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個伺服器的內容。WebCrawler是網際網路上第一個支持搜尋檔案全部文字的全文搜尋引擎,在它之前,用戶只能通過URL和摘要搜尋,摘要一般來自人工評論或程式自動取正文的前100個字。
1994年7月,卡內基·梅隆大學(Carnegie Mellon University)的Michael Mauldin將John Leavitt的spider程式接入到其索引程式中,創建了Lycos。除了相關性排序外,Lycos還提供了前綴匹配和字元相近限制,Lycos第一個在搜尋結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜尋引擎的數據量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜尋引擎的重要代表。
1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(A Meta Search Engine Roundup)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理,提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜尋引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜尋喜好設定。
1995年12月,DEC的正式發布AltaVista。AltaVista是第一個支持自然語言搜尋的搜尋引擎,第一個實現高級搜尋語法的搜尋引擎(如AND、 OR、 NOT等)。用戶可以用AltaVista搜尋新聞組(Newsgroups)的內容並從網際網路上獲得文章,還可以搜尋圖片名稱中的文字、搜尋Titles、搜尋Java applets、搜尋ActiveX objects。AltaVista也聲稱是第一個支持用戶自己向網頁索引庫提交或刪除URL的搜尋引擎,並能在24小時內上線。AltaVista最有趣的新功能之一,是搜尋有連結指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜尋框區域下放了“tips”以幫助用戶更好的表達搜尋式,這些小tip經常更新,這樣,在搜尋過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜尋引擎廣泛採用。1997年,AltaVista發布了一個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜尋結果中找到想要的。
1997年8月,Northernlight搜尋引擎正式現身。它曾是擁有最大資料庫的搜尋引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級搜尋語法,第一個支持對搜尋結果進行簡單的自動分類。
1998年10月之前,Google只是史丹福大學(Stanford University)的一個小項目BackRub。1995年博士生Larry Page開始學習搜尋引擎設計,於1997年9月15日註冊了域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。Google以網頁級別(Pagerank)為基礎,判斷網頁的重要性,使得搜尋結果的相關性大大增強。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google贏得了極高的口碑和品牌美譽。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個在非英語國家起的名字。
Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發布了自己的搜尋引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜尋引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜尋可利用ODP自動分類,支持Flash和pdf搜尋,支持多語言搜尋,還提供新聞搜尋、圖像搜尋、視頻、MP3、和FTP搜尋,擁有極其強大的高級搜尋功能。(2003年2月25日,Fast的網際網路搜尋部門被Overture收購)。
1996年8月,sohu公司成立,製作中文網站分類目錄,曾有“出門找地圖,上網找搜狐”的美譽。隨著網際網路網站的急劇增加,這種人工編輯的分類目錄已經不適應。sohu於2004年8月創建獨立域名的搜尋網站“搜狗”,自稱“第三代搜尋引擎”。

Openfind

Openfind ;創立於1998年1月,其技術源自台灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜尋引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜尋引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜尋引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜尋領域。
2000年1月,兩位北大校友,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度(Baidu)公司。2001年8月發布百度搜尋引擎Beta版(此前Baidu只為其它入口網站搜狐新浪Tom等提供搜尋引擎),2001年10月22日正式發布Baidu搜尋引擎,專注於中文搜尋。
Baidu搜尋引擎的其它特色包括:百度快照、網頁預覽/預覽全部網頁、相關搜尋詞、錯別字糾正提示、mp3搜尋、Flash搜尋。2002年3月閃電計畫(Blitzen Project)開始後,技術升級明顯加快。後推出貼吧知道、地圖、國學、百科、文檔、視頻、部落格等一系列產品,深受網民歡迎。2005年8月5日在納斯達克上市,發行價為USD 27.00,代號為BIDU。開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄。
2003年12月23日,原慧聰搜尋正式獨立運作,成立了中國搜尋。2004年2月,中國搜尋發布桌面搜尋引擎網路豬1.0,2006年3月中搜將網路豬更名為IG(Internet Gateway) 。
2005年6月,新浪正式推出自主研發的搜尋引擎“愛問”。2007年起,新浪愛問使用google搜尋引擎。
2007年7月1日 ;全面採用網易自主研發的有道搜尋技術,並且合併了原來的綜合搜尋和網頁搜尋。有道網頁搜尋、圖片搜尋部落格搜尋為網易搜尋提供服務。其中網頁搜尋使用了其自主研發的自然語言處理、分散式存儲及計算技術;圖片搜尋首創根據拍攝相機品牌、型號,甚至季節等高級搜尋功能;部落格搜尋相比同類產品具有抓取全面、更新及時的優勢,提供“文章預覽”,“部落格檔案”等創新功能。

影響

搜尋引擎給網咖行業帶來的影響
百度聯盟可以算是唯一一個能夠覆蓋所有網咖並和幾乎所有主流網咖軟體締結合作關係的媒體運營平台。而google方面也不甘示弱,谷歌已經注意到了網咖市場,網咖已經成為了谷歌的新型合作夥伴。網咖的首頁和工具條上都會出現谷歌的標誌,相應地會給谷歌帶去流量。谷歌對網咖市場的關注,表明谷歌注意到網咖作為中國網際網路市場的特色之一。由於中國PC擁有量遠落後於美國等西方國家,網咖作為網民主要上網地點的比例逐年在上升,中國網民在網咖上網的比例偏高。據CNNIC 第20次中國網際網路發展狀況統計報告顯示,超過1/3(37.2%)的網民表示經常去網咖上網,比2006年12月的32.3%高了5個百分點,第一次超過網民在工作單位上網的比例而成為第二大上網場所。
搜尋引擎對網站的影響
一個網站的命脈就是流量,而網站的流量可以分為兩類。一類是自然流量,一類就是通過搜尋引擎而來的流量。如果搜尋引擎能夠能多能有效的抓取網站內容,那么對於網站的好處是不言而喻的。所以,SEO也應運而生了。
在兩大搜尋引擎的工作中,百度的工作周期相對來說比google短一些,百度大約在10天左右重新訪問網站一次,Google大約在15天左右重新訪問一次網站。由於一天之內不能遊歷全球所有的網站,如果推廣網站時,能到更多的網站上提交相應的網站信息,也是加快蜘蛛收錄網站內容的重要環節。

作用

搜尋引擎是網站建設中針對“用戶使用網站的便利性”所提供的必要功能,同時也是“研究網站用戶行為的 一個有效工具”。高效的站內檢索可以讓用戶快速準確地找到目標信息,從而更有效地促進產品/服務的銷售,
而且通過對網站訪問者搜尋行為的深度分析,對於進一步制定更為有效的網路行銷策略具有重要價值。
⒈從網路行銷的環境看,搜尋引擎行銷的環境發展為網路行銷的推動起到舉足輕重的作用;
⒉從效果行銷看,很多公司之所以可以套用網路行銷是利用了搜尋引擎行銷;
⒊就完整型電子商務概念組成部分來看,網路行銷是其中最重要的組成部分,是向終端客戶傳遞信息的重要環節。

商務模式

在搜尋引擎發展早期,多是作為技術提供商為其他網站提供搜尋服務,網站付錢給搜尋引擎。後來,隨著2001年網際網路泡沫的破滅,大多轉向為競價排名方式。
搜尋引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜尋結果頁面放置廣告,通過用戶的點擊向廣告主收費。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他於1998年6月創立GoTo公司(後於2001年9月更名為Overture),實施這種模式,取得了很大的成功,並且申請了專利。這種模式有兩個特點,一是點擊付費(Pay Per Click),用戶不點擊則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。 2001年10月,Google推出AdWords,也採用點擊付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!於2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。
AdSense是Google於2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁發布者進入Google龐大的廣告商網路。Google在這些第三方網頁放置跟網頁內容相關的廣告,當瀏覽者點擊這些廣告時,網頁發布者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地刪除一些帳號,引起部分人的不滿。類似的廣告方式,其他搜尋引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN ;除了可以在網頁上顯示與內容相關的廣告以外,還可以通過在 RSS ;訂閱中來顯示廣告。微軟的廣告計畫叫AdCenter。百度也推出主題推廣。

組成

搜尋引擎一般由搜尋器、索引器、檢索器和用戶接口四個部分組成;

搜尋器

其功能是在網際網路中漫遊,發現和蒐集信息;

索引器

其功能是理解搜尋器所搜尋到的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表;

檢索器

其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,並能按用戶的查詢需求合理反饋信息;

用戶接口

其作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。

語言判斷

人們喜歡以他們所知道的語言列出的搜尋結果,這對搜尋行銷人員是十分重要的。當一個搜尋者輸入上面圖中的搜尋請求時,只有用中文寫的網頁將被顯示在搜尋結果裡面。
在有些國家,例如日本和中國,大部分搜尋者想要結果限制在母語上。但是在其他地方例如瑞典,搜尋可以採用瑞典語和英語來進行。不同國家的搜尋者有不同的語言偏好。
對搜尋行銷人員而言,重要的是搜尋引擎知道網頁所使用的語言,如果網頁沒能被正確地識別,可能就會從本應發現它的搜尋者面前消失,從而降低你的引薦訪問。
搜尋引擎判斷網頁所使用的語言有很多不同的方法:
語言meta標籤
很多網頁通過一個HTML標籤來表明網頁使用的語言,例如<META http-equiv=”content-language” content="ja"> ;表示使用的是日語,看起來簡單,搜尋蜘蛛程式讀取標籤,於是搜尋引擎知道是什麼語言了。但是相對多的語言meta標籤是完全錯誤的,沒有標籤,句法錯誤,以及語言編碼錯誤等等。搜尋引擎確實查看這些標籤,但是它們很少只從這些標籤來判定網頁的語言。
字元編碼
計算機檔案(包括HTML網頁)需要“對譯本(Key)”正確翻譯檔案中的字元(字母,數字等等)。這種對譯本被稱為字元編碼。由網頁中meta標籤里聲明,例如<META http-equiv=content-type content="text/html;charset=GBK">。
網站瀏覽器和搜尋蜘蛛程式假定網頁按照西方語言編碼,因此使用這些語言寫的網頁不需要這個標籤。為了瀏覽器顯示正確,亞洲、阿拉伯和古代斯拉夫語的文本確實需要這個標籤。因此,當搜尋引擎看到針對這些語言的標籤,它對正確顯示網頁的語言有了很高的保證。
內容分析
搜尋引擎通過研究內容中的字元模式來最終判定網頁的語言,哪怕是短到只有兩句話的網頁,內容分析的精確度也非常高。Meta標籤只有在內容分析後還不確定的情況下才被使用。
多數情況下,搜尋引擎會自行正確地判斷網頁的內容,對於只有很少幾個詞的網頁,要保證網頁被正確識別,正確的編碼語言和meta語言標籤很重要。

搜尋建議

細化搜尋條件
你給出的搜尋條件越具體,搜尋引擎返回的結果也會越精確。
比方說你想查找有關電腦冒險遊戲方面的資料,輸入game是無濟於事的。computer game範圍就小一些,當然最好是敲入computer adventure game,返回的結果會精確得多。
此外一些功能辭彙和太常用的名詞,如對英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜尋引擎是不支持的。這些詞被稱為停用詞(Stop Words)或過濾詞(Filter Words),在搜尋時這些詞都將被搜尋引擎忽略。
搜尋邏輯命令
搜尋引擎基本上都支持附加邏輯命令查詢,常用的是“+”號和“-”號,或與之相對應的布爾(Boolean)邏輯命令AND、OR和NOT。用好這些命令符號可以大幅提高我們的搜尋精度。
精確匹配搜尋
除利用前面提到的邏輯命令來縮小查詢範圍外,還可使用""引號(注意為英文字元。雖然一些搜尋引擎已支持中文標點符號,但顧及到其他引擎,最好養成使用英文字元的習慣)來進行精確匹配查詢(也稱短語搜尋)。
特殊搜尋命令
●標題搜尋
多數搜尋引擎都支持針對網頁標題的搜尋,命令是“title:”,在進行標題搜尋時,前面提到的邏輯符號和精確匹配原則同樣適用。
●網站搜尋
此外我們還可以針對網站進行搜尋,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot),(soubaike).org
●連結搜尋
在Google和AltaVista中,用戶均可通過“link:”命令來查找某網站的外部導入連結(inbound links)。其他一些引擎也有同樣的功能,只不過命令格式稍有區別。你可以用這個命令來查看是誰以及有多少網站與你做了連結。
關鍵字競爭程度判斷
搜尋結果數越大,競爭越大
Intitle搜尋,結果數越多,競爭越大
競價結果數越多,競爭越大
競爭對手情況
內頁排名數量
關鍵字的挖掘
頭腦風暴
咨問客戶
下拉選單
相關搜尋
競價詞
百度指數
百度關鍵字工具
金花
追問
飛達魯
八爪魚交叉組合
百度風雲榜

使用方法

簡單查詢

在搜尋引擎中輸入關鍵字,然後點擊“搜尋”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。

高級查詢

雙引號(" ")
給要查詢的關鍵字加上雙引號(半角,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜尋引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。
使用加號(+)
在關鍵字的前面使用加號,也就等於告訴搜尋引擎該單詞必須出現在搜尋結果中的網頁上,例如,在搜尋引擎中輸入“+電腦+電話+傳真”就表示要查找的內容必須要同時包含“電腦、電話、傳真”這三個關鍵字。
使用減號(-)
在關鍵字的前面使用減號,也就意味著在查詢結果中不能出現該關鍵字,例如,在搜尋引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。
通配符(*和?)
通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜尋引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。
使用布爾檢索
所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵字與關鍵字之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵字,各個關鍵字之間的關係可以用邏輯關係詞來表示。
and,稱為邏輯“與”,用and進行連線,表示它所連線的兩個詞必須同時出現在查詢結果中,例如,輸入“computer and book”,它要求查詢結果中必須同時包含computer和book。
or,稱為邏輯“或”,它表示所連線的兩個關鍵字中任意一個出現在查詢結果中就可以,例如,輸入“computer or book”,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。
not,稱為邏輯“非”,它表示所連線的兩個關鍵字中應從第一個關鍵字概念中排除第二個關鍵字,例如輸入“automobile not car”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。
near,它表示兩個關鍵字之間的詞距不能超過n個單詞。
在實際的使用過程中,你可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。
使用元詞檢索
大多數搜尋引擎都支持“元詞”(metawords)功能,依據這類功能用戶把元詞放在關鍵字的前面,這樣就可以告訴搜尋引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜尋引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵字後加上“domainrg”,就可以查到所有以org為後綴的網站。
其他元詞還包括:image:用於檢索圖片,link:用於檢索連結到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵字的網頁。
區分大小寫
這是檢索英文信息時要注意的一個問題,許多英文搜尋引擎可以讓用戶選擇是否要求區分關鍵字的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指全球資訊網或環球網,而web則表示蜘蛛網。
特殊搜尋命令
intitle:是多數搜尋引擎都支持的針對網頁標題的搜尋命令。例如,輸入“intitle:家用電器”,表示要搜尋標題含有“家用電器”的網頁。

未來展望

隨著網際網路的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質量亦變得良莠不齊,沒有保證。所以,未來的搜尋引擎將會朝著知識型搜尋引擎的方向發展,期以為搜尋者提供更準確及適用的數據。網上的百科全書如雨後春筍般發展起來;另一方面,亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。

相關詞條

熱門詞條

聯絡我們