google廣東話語音搜尋

基本介紹

該廣東話版本的語音搜尋，是繼國語及台灣國語之後，第三個中文版本。外語版本則已有英、日、法、韓語等。現時美國Android或iPhone手機用家中，有25%會使用「語音搜尋」。

Google技術總監陸韻晟昨聯同研究科學家宋雲軒出席發布會，示範使用搜尋app。他舉例說，只要開啟app的語音搜尋功能，然後說︰「香港尖沙嘴日本料理」，手機熒幕會隨即顯出Google搜尋到的食店網站及相關地圖位置。陸指廣東話語句經常中英夾雜，如「爛gag」（爛笑話）等詞語，在語音搜尋app一樣能辨認。

背後的故事

語音一向是人們與手機互動的最自然方式。事實上，說話通常比打字更快更容易。Google在開發英語、國語和日語版本的「語音搜尋」(Voice Search)之後，陸續支援多種語言版本，當中包括韓語、法語、德語、義大利語、西班牙語、捷克語、波蘭語、俄語和土耳其語。現在，輪到香港人最熟悉的廣東話了。

廣東話向來被寓為全球最難學的語言之一，而Google認為在手機平台上，由於鍵盤通常很細小，中文輸入往往比拉丁字母困難得多。香港常用的中文輸入法包括倉頡及手寫輸入，倉頡並不是一個易上手的輸入法，而手寫輸入法雖然易學，但就有慢的缺點。兩者對香港用戶來說都不是一個理想的手機搜尋輸入法。Google因而相信，開發廣東話語音搜尋服務能解決香港用戶缺乏理想的手機輸入法的問題。

不過，在開發過程中，Google亦遇到不少挑戰，有些是廣東話獨有的，有些是亞洲語言共通的，也有是開發任何語言的語音搜尋都會遇到的，以下就是我們在開發過程中遇到的一些有趣的挑戰：

數據收集

對比起英文，現時全球只有很少廣東話資料庫夠大夠齊全，足以用來訓練一套辯識系統。建立一套辯識系統同時需要聲音及文字數據，聲音數據方面，Google用了DataHound收集技術，透過智慧型手機錄下及上載大量義工的廣東話聲音樣本。文字數據方面，香港谷歌的搜尋紀錄是最好的資料庫，能快速且準確地訓練語言模型。

中文辭彙限制

中文與西方語文不同，詞與詞之間並沒有空格分開，為了限制說話辯認器(speechrecognizer)的詞庫大小，及簡化詞典開發，Google選擇了用字，而非詞語，作為系統的基本組成單元，因此亦容許不同字有不同的讀音。

中英夾雜

Google發現香港用戶比起國內及台灣的用戶更喜歡在說話時夾雜英文，例如中國用戶的搜尋平均有10%夾雜英文，台灣是15%，然而香港則有30%的搜尋是中英夾雜的。要建立一個能準確辯認中英夾雜句子的系統，Google把英文詞語連上一系列相關廣東話發音單元上。

音調問題

雖然語言學家就廣東話究竟有多少個音調仍未有共識，6個、7個、9個或10個都有人提出，但無論如何，還是一個字：多。為了準確辨認廣東話，Google把一個音調加一個母音(vowel)的組合當成一個辨認單元，為了不讓最後的模型變得太複雜，工程師們把一些很少用到的組合合成一個單一模型。

google廣東話語音搜尋

基本介紹

基本介紹

背後的故事

相關詞條

熱門詞條