HillTop

HillTop

HillTop ,是一項搜尋引擎結果排序的專利,是Google的一個工程師Bharat在2001年獲得的專利。Google的排序規則經常在變化,但變化最大的一次也就是基於HillTop算法進行了最佳化。

基本介紹

  • 外文名:HillTop
  • 類別:搜尋引擎結果排序的專利
  • 獲得專利者:Bharat
  • 獲得專利時間:2001年
算法,算法難點,運行方式,運行頻率,投入使用,在套用中不足,商務俱樂部,

算法

其實HillTop算法的指導思想和PageRank的是一致的,都是通過網頁被連結的數量和質量來確定搜尋結果的排序權重。但HillTop認為只計算來自具有相同主題的相關文檔連結對於搜尋者的價值會更大:即主題相關網頁之間的連結對於權重計算的貢獻比主題不相關的連結價值要更高。如果網站是介紹“服裝”的,有10個連結都是從“服裝”相關的網站連結過來,那這10個連結比另外10個從“電器”相關網站連結過來的貢獻要大。。在1999與2000年,當這個算法被Bharat與其他Google開發人員開發出來的時候,Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標文檔的連結決定了被連結網頁“權重得分”的主要部分。
與PageRank結合HillTop算法確定網頁與搜尋關鍵字的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權威頁面的方法。這對於兩個具有同樣主題而且PR相近的網頁排序過程中, HillTop算法就顯得非常的重要了。HillTop同時也避免了許多想通過增加許多無效連結來提高網頁PageRank值的作弊方法。
定義相關網站
Google最早利用HillTop算法去定義相關網站:一個網站與另一個網站的相關性,實際上,HillTop算法在Google中也作為一個識別跨站點的連結交換干擾(spam)與識別相似連結的技術。HillTop算法要求:如果有兩個以上相關主題的網站連結到你的網站,那么你的網站在搜尋結果中出現的機會會更大,如果HillTop算法不查找到最少兩個相關性的網站,那么搜尋返回的結果的機會絕對是0。
HillTop算法實際上是拒絕了部分通過隨意交換連結的方法來擾亂Google的排名規則而得到較好排名的做法,而在HillTop的論文中也提到很多關於識別“網站連結交換聯盟”的設計:如根據IPv4地址的頭3段,根據域名的別名推測:1
PR值對於搜尋關鍵字的匹配度作用不大:因為在很多包含相應關鍵字的非相關主題的網站具有很高的PR值。這就是Google在HillTop算法中儘量避免的東西:應該盡其所能去列出與搜尋關鍵字相關的結果。
總得看來,從過去到今天,很多搜尋引擎停止了那種只使用一種有價值的算法去決定排名的做法。如:meta keyword標籤等。這只是一個開始,Google在第一步已經完全忽略html header中的meta標籤了。與不可見的meta標籤相比,一個網站的可視部分使用干擾技術較在meta使用的要少,因為可視部分畢竟還要面對大部分的實際的訪問者。

算法難點

基於“專家”文檔的HillTop算法最大的難點是第一次“專家文檔”的篩選,從目前的觀察來看:Google顯然首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點很高的優先權。在運行時:Google會在龐大的記憶體里儲存搜尋頻率比較高的關鍵字的索引,以備搜尋者在短期內繼續用同樣的關鍵字短語等進行搜尋。這些高頻關鍵字還有另外一種作用,在“佛羅里達”更新之前很多人已經注意到的了:含有那些突增的搜尋關鍵字的網站會得到較快的更新頻率。如關於:\"SARS",每天的搜尋次數數以百萬計:Google就會優先對與這個主題有關的網站進行更新。
回頭看一下以前每個月的“Google Dance”,也能得出以下的結論:Google也明顯地為一個關鍵字給予一個隨機的“權重”,動態的根據關鍵字查詢統計發現這些熱門關鍵字,然後基於HillTop算法面向主題地找到這些含有熱門關鍵字的網頁,讓這些網頁作為相應關鍵字的“專家”文檔,針對這些索引入口保持比較高的更新頻率:這點顯然對於應對突發事件非常有效。而那些含有查詢頻率比較低的關鍵字所對應的網頁可能要1月才更新一次。簡單的說就是:Google會根據主題的熱門程度動態調整相應網站的索引的強度。而Google中文用戶在總體用戶中的比例與Google索引的中文網頁在索引的總體網頁中的比例,從某種程度上說,也是有一定關係的。

運行方式

Google所擁有的伺服器體系架構就是網路上分布的一萬台奔騰級伺服器。而一旦了解了Hilltop算法後,我們很難相信這樣的奔騰伺服器能夠具備如此的處理能力:試想一下,首先要從成千上萬的主題性檔案中找到“專家檔案”,然後計算目標網頁自這些專家檔案的連結的得分,然後再將數值返回 Google算法的其它排名系統,並做進一步處理—而所有這些要在大約0.07秒內--這個讓Google舉世聞名的搜尋速度內完成。確實使人難以置信。

運行頻率

我們認為,要保證Google一貫的“閃電般”搜尋速度,Google會對搜尋頻率較高(熱門)的查詢詞(即所謂的“商業詞”黑名單)定期運行批處理,並將結果存儲起來供日後使用。Google的資料庫擁有數目龐大的高查詢頻率的查詢詞,收集自實地搜尋和其AdWords自助廣告系統中所使用的關鍵字。Google很可能對關鍵字搜尋次數設定了上限值,凡搜尋頻率高於此閾值的查詢詞都將被納入Hilltop系統,然後Hilltop系統再對收集的所有高查詢頻率關鍵字定期運行批處理,可能一個月一次。增量級的稍小規模的批處理可能會頻繁一些。同時,每個月將對Hilltop系統運行批處理後的結果對Google的萬台伺服器的資料庫進行同步更新,但稍小規模的批處理的資料庫更新會更加頻繁一些。
對於那些用戶查詢頻率不算高,因而無此“榮幸”被納入Hilltop算法的查詢詞語,Google仍將使用原來的算法並顯示原來的排名結果。因而對於那些高度明確或專業化的關鍵字,由於它們被排除在新算法的範圍之內,因而有望保持原來的排名。

投入使用

Google早在2003年2月就獲得了該專利,但在實際投入使用前,需要首先保證新算法和Google當時所使用的頁面等級和頁面相關性系統的完全兼容性,所以需要對其兼容性做大量測試,然後再評估算法整合後所提供的結果,再做精工調整,然後是進一步的繁複測試…我想所有這些都需要大量時間。

在套用中不足

專家頁面的搜尋和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性;而專家頁面的質量和公平性在一定程度上難以保證。 Hiltop忽略了大多數非專家頁面的影響。
在Hilltop的原型系統中,專家頁面只占到整個頁面的1.79%,不能全面反映民意。
Hilltop算法在無法得到足夠的專家頁面子集時(少於兩個專家頁面),返回為空,即Hilltop適合於對查詢排序進行求精,而不能覆蓋。這意味著Hilltop可以與某個頁面排序算法結合,提高精度,而不適合作為一個獨立的頁面排序算法。
Hilltop中根據查詢主題從專家頁面集合中選取與主題相關的子集也是線上運行的,這與前面提到的HITS算法一樣會影響查詢回響時間。隨著專家頁面集合的增大,算法的可伸縮性存在不足之處。

商務俱樂部

簡介
奇川商務俱樂部(英文名:Hilltop Club)是奇川創意生態圈旗下的重要品牌之一,位於廣州珠江邊,比鄰廣州塔羊城發展新貌盡收眼底,擁有廣州最美的空中花園。
服務定位
Hilltop Club只為“HILLTOP大客戶俱樂部聯盟”成員提供訂單式服務,俱樂部不對公眾開放。
兩大核心服務內容
Hilltop商務會所,提供高端商務接待定製與主題活動定製服務
1. 商務接待定製:360度一覽無餘臨江景致,近千平米優美空中花園,獨一無二日式空中鐵板燒,並可根據特定接待需要,提供食材、酒水、接待形式、空間氛圍、商務禮品等全方位專屬定製。
2. 主題活動定製:空間布局靈活百變,室內室外隨意變換,雅座區、鐵板燒區、吧檯區、水景區等各具韻味。同時,以奇川公關精英團隊作為主題活動的有力支撐,為聯盟成員提供從創意到執行一系列的專業服務定製。
品牌特色
Hilltop 以獨有的品牌特色,深受客戶歡迎,成功打造出專屬的品牌標籤:
1. Hilltop 花藝:英國花藝師鐘偉雄傾情加盟,提供宴會、展會、主題活動等商務花藝服務,婚禮、生日Party 等個人花藝服務。
2. Hilltop 藝術:知名藝術家魏琪敏鼎力加盟,打造獨特藝術空間,從藝術品賞鑒、藝術展到藝術沙龍,讓品牌與藝術對話,詮釋全新的藝術趣味。
3. Hilltop 影像:加拿大影像專家陳戈傾力合作,用影像呈現文化、藝術、商業三者的交融與碰撞,以新銳、時尚視角闡釋品牌內涵、釋放品牌魅力。
4. Hilltop=文化+藝術+商業+時尚+個性+……:Hilltop 禮品、Hilltop雜誌、Hilltop旅遊等項目現正逐步推進,將為客戶提供更多Hilltop 時尚文化的消費之選。
服務定位
Hilltop Club只為“HILLTOP大客戶俱樂部聯盟”成員提供訂單式服務,俱樂部不對公眾開放。

相關詞條

熱門詞條

聯絡我們