語音產生裝置:簡介,語音產生裝置的歷史,存取方法,信息建設,固定和動態顯示設備,固

語音生成設備 （SGDs）， 也被稱為聲音輸出通信輔助設備 ，是一種電子輔助和替代通信（AAC）系統。為有語言障礙的人補充、代替言語或書寫，使他們能夠口頭傳達他們的需求。對於那些有語言溝通障礙的人來說，SGDs是很重要的。因為這個系統讓每個人在溝通互動上成為積極的參與者。語音生成設備對於肌萎縮性側索硬化症（ALS）的患者特別有幫助，但最近已被用於協助預測性語音不足的兒童。

基本介紹

中文名：語音生成設備
外文名：SGDs
又稱：聲音輸出通信輔助設備

簡介,語音產生裝置的歷史,存取方法,信息建設,固定和動態顯示設備,固定顯示設備,動態顯示設備,輸出,數位化語音,合成語音,選擇字集和辭彙,最初的內容選擇,自動化內容維護,倫理問題,挑戰,

簡介

SGDs有多個輸入和顯示方法，給予不同類型的語言障害者使用。有些SGDs提供許多的符號頁面來因應大量的言語訊息，因此隨著系統定位這些符號頁面時，一次僅能看到部分的符號。語音產生裝置可以產生透過錄製自然語音或語音合成的聲音，這種聲音或許帶有較少的情感訊息，但可以讓使用者表達豐富的語言訊息。

許多因素會引響系統內容、組織和SGD系統的辭彙更新，例如在用戶的需求，以及該設備使用的情境。透過技術的進步，改善現有的辭彙量和輸出語速是當前活躍的研究領域。使用者對辭彙的使用應當是有高度重要性，是經常適用，具有一定範圍的含義，並且是在功能務實。

存取設備上訪問訊息有很多種方法：直接、間接地，或者使用專門的存取設備，雖然特定的存取方式會依用戶的能力決定雖然速率增強策略可以增加輸出的用戶的速率，導致通信的效率提高，語音生成系統輸出通常比語音慢得多。

第一個已知的SGD原型是在70年代中期，在硬體和軟體開發進展迅速。這意味著SGD功能，當前可以整合到智慧型手機等設備。SGDs的用戶包括著名的史蒂芬·霍金，羅傑艾伯特、托尼Proudfoot、和皮特Frates（ALS的冰桶挑戰的創始人）。

語音產生系統可以是純粹為AAC開發的專用設備，或者非專用設備，如電腦運行的其他軟體，來使系統作為AAC設備的電腦設備。

語音產生裝置的歷史

SGDs早在電子通信輔助根。第一個這樣的援助是命名於1960年在英國註冊由馬嶺原型病人操作的選擇技術（POSSUM）一小口和粉扑打字機控制器POSSUM通過一組發光的顯示器上的符號進行掃描。在1970年，荷蘭代爾夫特理工大學的研究人員創建的亮點操作打字機（LOT），它利用端點的小幅度移動在字元的矩陣，每個配備了光電電池來指向一個小光點。儘管在商業上不成功，LOT仍深受其用戶好評。

在70年代和80年代初，許多公司開始出現了成為後來SGDs的突出廠家。托比邱吉爾因腦炎而失去說話能力後，於1973年創立托比邱吉爾有限公司，在美國，Dynavox（當時稱為有情系統技術）的發起是出於卡內基-梅隆大學的學生專案，始於1982年，以幫助一名年輕腦癱女子腦麻痹溝通的。在20世紀80年代初期，技術改進導致語音溝通系統大大增加數目，產品多樣性，和可商購的通信設備性能，並縮小尺寸和降低價格。替代性的存取，如目標掃描（也稱為眼睛指向）校準使用者眼睛的移動直接引導SGD產生想表達的話語。使用者選則這種順序性地替代性存取掃描，已在通信設備中得以取得。語音輸出的可包括數位的和合成的語音。

硬體和軟體的開發進展迅速且繼續進行，其中包括由歐洲共同體資助的項目。第一個商用動態畫面的語音生成裝置是在20世紀90年代開發的。軟體程式被開發，使得以點腦為基礎的通訊面板得以研發。正當提高存取性和系統能力時，高科技裝置繼續變得更小，更輕。;通信設備可利用眼動追蹤系統，執行如同電腦做的文字處理網路功能，並可作為獨立接入其他設備，如電視，廣播和電話的環境控制裝置。

著名的ACC使用者包括史蒂芬·霍金，羅傑艾伯特托尼Proudfoot，和皮特Frates。由於ALS所引起的病發性殘疾，以及經過緊急性的氣管手術，霍金無法說話。氣管切開術。從那獨特的語音合成設備發出的聲音已經和他密不可分。在過去的20年左右有語言缺陷的年輕的孩子使用SGD有所增加，如自閉症，唐氏綜合症，以及手術後的預期性腦部損傷。

在21世紀初開始，專家看到不僅SGDs在成人身上有好處，兒童也是。神經語言學家發現SGDs在幫助在腦部手術後歷經暫時性語言缺陷的ALS兒童時，同樣有效。特別是，數位化的SGDs已被用作用於在恢復過程中的兒科患者。

存取方法

有許多方法可以存取話語訊息：直接，間接地，或專業化的存取設備。直接存取方涉及與系統的物理接觸，透過使用鍵盤或觸控板。關於使用系統，從SGDs間接和通過個別裝置存取的使用者必須透過操縱感、游標、視覺指示器、光學指標、紅外線指示器或開關來使用掃描器。

個別使用的方法將依賴於用戶的技巧和能力有所不同。直接選擇可用身體，指針，滑鼠，操縱桿，或眼動，而開關控制掃描通常用於間接選擇。不同於直接選擇（例如，在鍵盤上打字，觸控螢幕），當電子設備的掃描指標（或游標）是所需的選項時，目標掃描的用戶只能在進行選擇。那些無法使讓眼睛校準游標的使用者，用眼睛注視來指向和調整，選擇所需要的單詞和短語。掃描的速度和的圖案模式，以及選擇系統項目的方法，都是依使用者個別的生理條件、視覺或認知能力而設計。

信息建設

增進式和替代式溝通一般比語音慢很多，用戶通常每分鐘生產8-10字。速率增強策略可以增加輸出的用戶的速率，大約每分鐘增加12-15個詞語，因此提高溝通的效率。

在任何SGD中可能有大量的聲音表現形式有利於促進效率和有效的溝通，包括問候，表達欲望，和詢問問題。隨著使用者操縱各種網頁，SGDs有許多符號頁面來因應大量的聲音表達，因此一次只有部分的符號可在螢幕上看見。語音產生裝置通常顯示一組使用選項: 一則使用動態變化的螢幕，或固定顯示的螢幕。

提高SGD溝通速率有兩個主要的方式：編碼和預測

編碼讓用戶產生一個或兩個激活他們的SGD的字，句子或短語。標誌性的編碼策略，如結合的圖示（圖片符號）精簡語意產生的單詞或短語。在數字，字母，數字，字母和編碼（也稱為縮寫擴展），單詞和句子被編碼為字母和數字序列。例如，鍵入“HH”或“G1”（用於問候1）可以得到“你好，你怎么樣？“。

預測是一個速率的增強策略，通過預測的單詞或短語，試圖減少用的擊鍵次數。然後，用戶無需編寫整個單詞，就可以選擇正確的預測用詞。文字預測軟體會根據語言的使用頻率、與其他文字的關聯性、過去的使用或文法切合度來決定選字。然而，用戶已表示靜態的鍵盤布局比具有預測性的設計在每分鐘可以產生多個字（用掃描接口），這表明在使用掃描界面時，事先預示認知字詞的排列法已否定了預測性的界面。

一些像是聽覺科學的“聲音互動裝置”，結合編碼和預測到同一個系統中。例如，鍵入“HMF”可以是“你能不能幫我找到____”，然後預測功能可以幫助用戶完成句子，比如“你能不能幫我找到“我的眼鏡”？或者你能幫我找到“我的車鑰匙”？

另一種提升溝通效率是Dasher ，它使用語言模型和算術編碼來呈現螢幕上目標字母。這些字詞都是根據過去的使用歷史給予選擇。

文字產生的速率大部分依賴系統里的概念層次：TALK系統，以每分鐘60字的展示輸出，讓使用者選擇大量的句子。

固定和動態顯示設備

固定顯示設備

固定顯示設備是指那些在特定模板中符號和數據項都是固定的;一些來源稱為“靜態”顯示。這樣的顯示裝置具有比一些其他裝置更簡單的學習曲線。

固定顯示複製了傳統低技術ACC的典型格局（低技術被定義為那些不需要電池，電或電子設備），如通訊板。他們有共同的缺點;例如，它們常限制符號和訊息的數量。要注意的是，隨著二十一世紀製造技術的進步，固定顯示SGDs已不再被廣泛使用。

動態顯示設備

動態顯示設備通常也是觸摸面板設備。平板、TextSpeak Design，Tobii技術與Word+。的設備是最普遍使用的動態顯示設備。當按下按鍵時，裝置通常會產生電子生產的視覺符號，改變一連串的顯示選擇。用戶可以利用頁面連結來選取單字或訊息所在的頁面，更改符號。動態顯示設備的首頁可能會顯示與許多不同上下文或對話的主題符號。按任何一個符號能打開一個與該主題相關的螢幕頁面。例如，看排球比賽的時候，用戶可以按“運動”符號打開與有關體育的訊息的頁面，然後按記分牌的符號，說出“比分是多少？”

動態顯示裝置的優點包括大量的辭彙可用性，並能透過句構看到句子動態顯示裝置的進一步優點是，能提供對多樣的溝公平到，包括手機，簡訊和電子郵件。由林雪平大學的研究顯示，電子郵件寫作練習讓使用SGD的兒童開發新的社交技能，增加他們的社會參的能力。

輸出

SGD的輸出可以是數位化的或合成的：數位為化語音是直接錄製字詞或語音；然而合成的語音是用文本語音錄製軟體錄製，帶有較少的情感訊息，但使用者能藉由打入新詞說出豐富的訊息。如今，每個使用者都使用了結合錄製的語音和文本語音技術的語音生成裝置。然而，一些設備僅能以一種類型的語音輸出。

數位化語音

單詞，短語或整個訊息可以被數位化，並存儲到使用者的播放裝置。這個過程稱為語音儲存。錄製化語音的優點包括: (1)給予聽話者自然的韻律和語音自然度。例如，有相同的年齡和性別的AAC用戶的人可以被選來錄製聲音）。(2)它提供了額外的聲音，這些聲音也是很重要的，像是笑聲或吹哨聲。此外，當語音失常患者失去說能力，數位化SGDs為患者和家人提供一定程度的常態服務。

只使用錄音語音輸出的主要缺點是，用戶不能產創新的語音;它們僅限於使用預先錄製在設備中的訊息。根據設備的不同，錄音長度有可能會被限制。

合成語音

SGDs運用合成語音和語言的語音規則的套用來把使用者的訊息翻譯成語音輸出。（語音合成）。使用者可以自由地創建新的詞和信息，並且被那些已被預先記錄在他人設備語音所限制。

智慧型手機和電腦已經透過應用程式的更新，增加合成語音的使用率。這應用程式讓使用者在清單中選擇已被當作話語說過的詞組和訊息。相關應用程式，如Speak it！或是為iPhone提供的便宜的協助性表達裝置，讓使用者無需造訪醫生或學習使用專業機械。

合成SGDs可以使多樣的訊息產生變得個人化或相互整合:可以透過單一的字母、字詞、詞組句子、圖片來產生。透過合成語音，訊息除儲存能力便沒有限制，對於記憶空間的需求也沒這么大。

合成語音引擎提供許多語言使用，引擎的參數，可以被使用者所操控。如說話速率、音調範圍、性別、重音分布、停頓和發音異常。

選擇字集和辭彙

SGD的選擇字集是集合了所有的訊息、符號和編碼。方便使用者的一種裝置。內容、組織和選擇字集的更新都是興新的研究領域。同時也受許多因素引響，包括使用者的能力，興趣和年齡。AAC系統的選擇字集可包括使用者尚未知道的詞語，這些字詞被歸類在“後續學習”許多因素會引響系統內容、組織和SGD系統的辭彙更新，例如在用戶的需求，以及該設備使用的情境。

最初的內容選擇

研究人員Beukelman和Mirenda列出了一些對初始內容選擇可能的來源（如家庭成員，朋友，教師和護理人員）。廣大的資源需求，是因為需要，個人沒有經歷過任何特定情境會產生的所有語音表達。例如，家長和治療師可能不會想到邀加入俚語，如“是嗎。”

以前技術已經典型說話者會說的話語和ACC使用者在語音設備上所產出的話語內容。如此的研發過程對於產生核心的話語集或語音表達是很好地的，但當特定的字詞需要用在特定情形時，就沒什麼效率。（例如，使用者對騎馬有興趣，直接關連到騎馬相關的字詞。“邊緣辭彙”是指辭彙對個人的興趣或需要是特定、獨特的。開發邊緣辭彙的設備典型的技術是: 進行與多個“話語人”採訪：兄弟姐妹，父母，老師，同事和其他相關人員

其他研究人員，如Charlie Musselwhite同和聖路易斯表明初期的辭彙項目應該是用戶很感興趣的，經常使用，且有一系列的語意漢語用功能。這些標準已被廣泛用於在AAC中，作為SGD的生態學性質檢驗。

自動化內容維護

Beukelman和Mirenda強調辭彙的選擇也包括正在進行的辭彙維護;然而，維護AAC的困難是，用戶或他們的照顧者必須手動編制任何新的話語（例如新的朋友或個人的故事的名字），而且沒有自動添加內容的解決方案。若干研究方法試圖克服這一困難，相關議題從“推斷輸入”，如基於載入與用戶的朋友和家人的日誌談話產生的內容，到網際網路採集到的數據、語言材料，如WebCrawler網路。而且，通過利用LIFELOG為基礎來更改的方法，設備的內容可基於使用者發生在他們一天中的事件而改變。通過得到更多用戶的使用數據，更高品質的訊息可冒險從他人使用者的資料中生成。例如，通過利用全球定位系統，設備的內容可以基於地理位置而改變。

倫理問題

最近開發的許多SGDs系統包括表現測量和分析工具，以幫忙監視由用戶使用的內容。這引起了人們對隱私的關注，有的認為，用戶使用的設備應有讓用戶決定是否要在這樣的監控下使用。類似的考量是關於自動內容生成裝置提議，隱私的議題日益成為SGD設計的考量因素。隨著AAC設備被設計成為所有地區用戶所使用，有個攸關法律、社會和科技的議題，關注於個人資料和家庭的分配問題，這些問題在ACC的使用資料中都能被找到。個人信息管理系統例如，SGDs必須設計出來，如此才能支持使用者有權刪除自動加入系統的對話或內容。

挑戰

動態生成語音設備通常是由專業人士增進式的對話所完成的。專家必須迎合患者的需求，因為患者通常選擇他們想要什麼樣的詞/詞組。例如，使用患者根據自己的年齡，殘疾，興趣等。因此，內容的組織是非常耗時的。此外，SGDs很少是由醫療保險公司支付。因此，資金和人員的資源分配極有限。波士頓兒童醫院的約翰·科斯特洛博士極力在他的醫院或夸國醫院招集和募款，維持這些計畫的執行和良好的工作人員素質。

語音產生裝置