Deep Speech

研發歷程

語音收集

百度團隊收集了9600人的7000個小時的語音，但多數是在安靜環境下。為了提升噪音環境下的語音識別能力，百度向語音樣本中添加了大約15種類型的噪音，比如酒店、汽車和捷運內的環境噪音，從而將語音樣本中的數據擴充到10萬個小時。然後，百度讓系統在噪音環境下學習識別語音。

產品公布

百度近日在美國康奈爾大學圖書館的網站上發表論文稱，已開發出了一種新的語音識別系統Deep Speech，準確率超過了蘋果、谷歌的產品。

百度近日在美國康奈爾大學圖書館的arXiv.org網站上發表論文稱，已開發出了一種新的語音識別系統Deep Speech，準確率超過了蘋果、谷歌的產品。

產品特點

百度首席科學家吳恩達以及由Awni Hannun領導的10人研究團隊在美國康奈爾大學圖書館網站上稱，他們已經開發出了一種新的，更為準確的語音識別系統Deep Speech，該系統使用了端對端的深度學習技術。語音識別是一項越來越重要的技術，已經被用於蘋果語音助手Siri、語音輸入功能Dictation以及谷歌語音搜尋中。

吳恩達稱，按照衡量語音識別系統出錯率的標準基準，Deep Speech的準確性已經超越了蘋果、谷歌的語音識別系統。特別是在汽車或人群等噪音環境下，Deep Speech的表現更為出色。

吳恩達稱，測試顯示，在噪音環境下，Deep Speech語音識別出錯率比谷歌語音識別引擎(Google Speech API)、語音識別公司wit.ai、微軟必應語音搜尋、蘋果Dictation的語音系統低10%以上。

Deep Speech

研發歷程

語音收集

產品公布

產品特點

相關詞條

熱門詞條