SogouT

SogouT是搜狗公司等合作開發的網際網路語料庫,包括了來自網際網路各種類型的1.3億個原始網頁, 壓縮前的大小超過了5TB。該語料庫同時還包括使用用戶行為挖掘方法構建出的1萬餘個查詢以及對應的標準答案集合,對於中文信息檢索、自然語言處理等方面的研究都有較大的推動傷。同時該語料庫採取免費方式向國內外研究同行發放,目前已向國內多家研究機構及日本、美國等地的研究機構發放了複製件。

發展背景
在網際網路語料庫極度鼓脹的大前提下,如何提高正確答案集合標註的效率以及客觀性是一個越來越困難的工作。為了解決這一困境,清華大學智慧型技術與系統國家重點實驗實提出了“基於用戶行為分析的搜尋引擎自動評價方法”的解決思路。這一思路的核心是利用對搜尋引擎的用戶查詢、點擊行為的巨觀分析,自動挑選適用於搜尋引擎評價的查詢集合,並進一步自動定位對應這些查詢的標準答案。由於挑選查詢集合和標準答案的過程由計算機來完成,因此可以及時、準確、客觀地反映搜尋引擎的真實性能。
基於這一核心技術,實驗室開發了一系列相關網際網路套用產品,其中就包括“搜尋儀”及與搜尋公司合作開發的sogouT網際網路語料庫。

相關詞條

熱門詞條

聯絡我們