書籍詞頻統計器

任何人都可以使用其界面。登錄該項目頁面,其使用十分簡單,只要在搜尋欄輸入想要搜尋的辭彙,便可看到自1800年到21世紀的辭彙變化,以中文辭彙為例,主要的變化可在20世紀初,上世紀40年代和80年代看到,詞頻的數據增減曲線代表著時代和文化的變化

基本介紹

  • 中文名:書籍詞頻統計器
  • 拼音:shūjícípíntǒnɡjìqì
  •  英文:Books,wordfrequencydevices
  • 類型:機器
簡介,數據,意義,出現頻率,

簡介

Google2010年12月19日推出了與哈佛大學合作的科學實驗項目“圖書詞頻統計器”,可對1800年到2000年世界上4%的圖書,總計5億個辭彙進行詞頻統計,查看語言和文化的發展趨勢,實驗基於谷歌圖書館的數字圖書,目前這一實驗項目也支持中文。
數據 其可以對比多達5個詞語在每年出版的圖書里出現的次數多寡。更棒的是所有數據都以創作共用形式授權免費下載和使用,目前的數據截止於2009年7月,Google說隨著他們掃描更多的圖書會一直持續更新這些數據。

數據

其基於谷歌圖書館自有的500萬本已經數位化了的小說和非小說,將其中的共5億個辭彙進行統計,這些書最早出版於1800年,最遲則到2000年,其中包括了英語、法語、西班牙語、德語、中文和俄羅斯語。
使用十分簡單 任何人都可以使用其界面。登錄該項目頁面,其使用十分簡單,只要在搜尋欄輸入想要搜尋的辭彙,便可看到自1800年到21世紀的辭彙變化,以中文辭彙為例,主要的變化可在20世紀初,上世紀40年代和80年代看到,詞頻的數據增減曲線代表著時代和文化的變化。如記者輸入中文的“愛情”,這個辭彙分別在上世紀30年代,60年代達到兩個小高潮,在80年代則到達了最頂峰,如輸入“工業”一詞,在60年代和90年代出現了兩個高峰,而當輸入“網際網路”時,則只有近新世紀時才出現一個最大峰值。

意義

英文詞頻的變化同樣顯示了英語國家的社會變化,如“女性”一詞在70年代很少出現,但之後卻開始出現高峰,和西方國家女權主義運動同步,此外,還可以看到,“弗洛伊德”的出現頻率要高於“伽利略”、“達爾文”或“愛因斯坦”。
這一實驗項目是谷歌和哈佛大學合作而成,其實驗研究已在權威科學雜誌《科學》刊登論文。對於語言、文學、歷史和藝術研究,這一實驗將提供很大的參考價值,同時,非學術界的普通人也可以通過任何辭彙的搜尋查看社會文化的發展趨勢。
儘管歷史上的大部分圖書已屬於公共領域,但20世紀仍有不少書屬於著作權範圍,所以谷歌沒有提供單本書的下載,但是,網友可以定製對詞頻的統計,而這些統計數據結果也屬於“創造共享計畫”,可以免費下載。

出現頻率

分別用英、法、德、俄和西這五種主要語言,對“中國”和“美國”兩個單詞進行搜尋後發現,“中國”一詞的出現頻率遠高於“美國”。
從1978年到2008年這三十年間,上述五種主要外文書籍中,“中國”一詞的出現頻率都呈整體上升趨勢,其中法語、西班牙語和俄語的趨勢最為明顯。
以西班牙語為例,1978年時,西語書籍中“中國”出現的頻率是萬分之零點二五,即每四萬個詞里才會提到“中國”一次,而到了2008年,這一比例已經達到了萬分之零點五,增長了整整一倍。而對“中國”一詞關注率最高的則是英語國家,最多時每一萬個詞中“中國”就會出現一次。
相比之下,近30年間,“美國”一詞在各種語言的書籍中出現的頻率都遠不如“中國”。英文書籍中,“美國”的詞頻一直在萬分之零點四左右徘徊,而同期“中國”的詞頻是它的兩倍。而在法語書籍中,二者的差距更大,最高時“中國”一詞的出現頻率是“美國”的四倍。

相關詞條

熱門詞條

聯絡我們