AI合成主播

AI合成主播

“AI合成主播”是2018年11月7日第五屆世界網際網路大會上,搜狗與新華社聯合發布的全球首個全仿真智慧型AI主持人。通過語音合成、唇形合成、表情合成以及深度學習等技術,克隆出具備和真人主播一樣播報能力的“AI合成主播”。

基本介紹

  • 中文名:AI合成主播
  • 研發單位:新華社、搜狗
  • 發布日期:2018年11月7日
  • 類型:AI
主播介紹,技術原理,研發作用,發展動態,升級亮點,研發意義,媒體評論,

主播介紹

“AI合成主播”是在搜狗“分身”技術的支持下,通過人臉關鍵點檢測、人臉特徵提取、人臉重構、唇語識別、情感遷移等多項前沿技術,並結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。該項技術能夠將所輸入的中英文文本自動生成相應內容的視頻,並確保視頻中音頻和表情、唇動保持自然一致,展現與真人主播無異的信息傳達效果。
“AI合成主播”不僅有中文“AI合成主播”,同時還有以“聯接中外、溝通世界”為使命的英文“AI合成主播”。

技術原理

建立輸入文本與輸出音頻信息的關聯,在圖像生成引擎中,使用業界的搜狗人臉識別、三維人臉重建、表情建模等技術對人臉表情動作進行特徵學習和建模,建立輸入文本、輸出音頻與輸出視覺信息的關聯映射,最終生成輸出分身視頻。

研發作用

“AI合成主播”使用新華社中、英文主播的真人形象,配合搜狗“分身”的語音、合成等技術模擬真人播報畫面。這種播報形式,突破了以往語音圖像合成領域中,只能單純創造虛擬形象,並配合語音輸出唇部效果的約束,提高了觀眾信息獲取的真實度。利用“搜狗分身”技術,“AI虛擬主播”還能實時高效地輸出音視頻合成效果,使用者通過文字鍵入、語音輸入、機器翻譯等多種方式輸入文本後,將獲得實時的播報視頻。這種操作方式將減少新聞媒體在後期製作的各項成本,讓新聞視頻的製作效率有了提高。
“AI合成主播”擁有和真人主播同樣的播報能力,能24小時不間斷播報。

發展動態

2019年2月19日,搜狗公司與新華社新媒體中心聯合發布了首個站立式AI合成主播,新的AI合成主播從過去的“坐著播新聞”升級成結合肢體動作的“站立式播報”,標誌著“搜狗分身”技術再次取得突破。
2019年3月,新華社聯合搜狗公司近日在京發布全新升級的站立式AI合成主播,並推出全球首個AI合成女主播。

升級亮點

新版的AI合成主播採用了wavernn波形建模技術,替換掉傳統聲碼器,實現音頻合成。通過模型最佳化及多風格數據的使用,新版的AI合成主播實現了表情合成、肢體動作與語義的匹配。
隨著圖形生成引擎的最佳化,AI合成主播從過去的“坐著播新聞”升級成結合肢體動作的“站立式播報”,利用“搜狗分身”技術繼續賦予AI合成主播肢體語言的能力,讓AI合成的主播更智慧型。

研發意義

“AI合成主播”不僅在全球AI合成領域實現了技術創新和突破,更是在新聞領域開創了實時音視頻與AI真人形象合成的先河。“AI合成主播”結合新華社“現場新聞”報導,將“AI合成主播”與短視頻一體化生產製作。
最新推出的站立式AI合成主播即將投入到2019年新華社全國兩會的報導籌備中,並將在搜狗搜尋、輸入法等平台上與用戶見面。
隨著“搜狗分身”技術能力的不斷提高,AI合成主播的定製周期也降低,合成效果和穩定性也有提升。僅靠少量用戶真實音視頻數據,即可定製出高逼真度的分身模型,幫助媒體在融媒體轉型、新聞時效性、跨語種傳播能力等領域升級。

媒體評論

 ↑BBC(英國廣播公司)、REUTERS(路透社)的報導頁面 ↑BBC(英國廣播公司)、REUTERS(路透社)的報導頁面
《參考訊息》報導
援引外媒報導稱,中國的新聞主播可能面臨一些新的競爭——人工智慧機器人在播報新聞時可以模仿人的面部表情和舉止。
除此之外,《泰晤士報》、福克斯新聞、今日俄羅斯電視台、法蘭西24電視台、《新聞周刊》、《洛杉磯時報》、美國國家公共電台等媒體也進行了報導。
《路透社》報導
路透社報導稱,這個AI主播是以中國新聞主播邱浩為原型的,它身穿黑西裝打著領帶。這是中國旨在提升其在人工智慧技術方面能力努力的一部分。
《獨立報》報導
英國《獨立報》網站則稱,新華社的AI主播是一位栩栩如生的數位化播報員,可以通過模仿真人主播的形象和聲音朗讀文本內容。
在受到讚許的同時,有些媒體認為“AI合成主播”還需要進一步完善。美國《赫芬頓郵報》網站稱,新華社似乎知道AI主播是需要不斷完善的,正如AI主播在其首次播報中所強調的那樣。它說:“作為一名正在研發中的人工智慧新聞主播,我知道我需要改進的還有很多。謝謝。”
學者的分析
英國謝菲爾德大學人工智慧和機器人學榮譽教授諾埃爾·夏基表示,AI主播是一個不錯的嘗試,今後我們會看到它不斷改進。

相關詞條

熱門詞條

聯絡我們