聲音晶片_中文百科全書

聲音晶片又稱：IC語音，又被叫做語音晶片。語音晶片，顧名思義就是可以存儲控制播放語音的IC。在當前科技發達的時代，積體電路是推動科技發展一個不可或缺的重要部件。

基本介紹

中文名：聲音晶片
外文名：Voice processing chip
被叫：語音晶片
屬性：語音信號
類型：晶片
類型：硬體

聲音晶片又稱：IC語音，又被叫做語音晶片。

（一）、聲音基礎知識

1、什麼是聲音晶片？

聲音晶片定義：將聲音信號通過採樣轉化為數字，存儲在IC的ROM中，再通過電路將ROM中的數字還原成語音信號。

普通聲音晶片放音功能實質上是一個DAC過程，而ADC過程主要是由電腦完成，其中包括對語音信號的採樣、壓縮、EQ等處理。

錄音晶片包括ADC和DAC兩個過程，都是由晶片本身完成的，包括語音數據的採集、分析、壓縮、存儲、播放等步驟。

ADC=Analog Digital Change 模數轉換

DAC= Digital Analog Change 數模轉換

音質的優劣取決於ADC和DAC位數的多少。

2、語音信號的量化表述：（分類：聲音晶片和音樂晶片）

(a) “聲音晶片”介紹：

（1）語音信號的量化

採樣率（f）、位數（n）、波特率（T）

採樣：將語音模擬信號轉化成數位訊號。

採樣率：每秒採樣的個數（byte）。

波特率：每秒鐘採樣的位數(bit)。波特率直接決定音質。Bps: bit per second

採樣位數指在二進制條件下的位數。一般在沒有特別說明的情況下，聲音的採樣位數指8位，由00H--FFH，靜音定為80H。

（2）採樣率

奈奎斯特抽樣定理（Nyquist Law）：要從抽樣信號中無失真地恢復原信號，抽樣頻率應大於2倍信號最高頻率。

抽樣頻率小於2倍頻譜最高頻率時，信號的頻譜有混疊。抽樣頻率大於2倍頻譜最高頻率時，信號的頻譜無混疊。

嗓音的頻頻寬度為20～20K HZ左右，普通的聲音大概在3KHZ以下。所以，一般CD取的音質為44.1K和16bit，如果碰到某些特別的聲音，如樂器，音質也有用48K和24bit的情況，但不是主流。

一般在我們處理針對普通語音IC的時候，採樣率最高達到16K就夠了、說話聲一般取8K（如電話音質）、6K左右。低於6K效果比較差。

在套用單片機的過程中，採樣越高，定時器中斷速度越快，會影響到其他信號的監控和檢測，所以要綜合考慮。

（3）語音壓縮技術。

由於語音數據量龐大，對語音數據進行有效壓縮是很必要的，能夠使我們在有限的ROM空間裡錄入更多的語音內容。有以下幾種方式：

語音分段：將語音中可以重複的部分截取出來，通過排列組合將內容完整地回放出來。

語音採樣：一般我們使用的喇叭頻響曲線在中頻部分，較少用到高頻，所以，在喇叭音質可以接受的情況下，適當降低採樣頻率，達到壓縮效果，這種過程是不可逆的，無法恢復原貌，叫有損壓縮。

數學壓縮：主要是針對採樣位數進行壓縮，這種方式也是有損壓縮。例如，我們經常採用的ADPCM壓縮格式，是將語音數據從16bit壓縮到4bit，壓縮率是4倍。MP3是對數據流進行壓縮，涉及到數據預測問題，它的波特率壓縮倍率為10倍左右。

通常，以上幾種壓縮方式都是綜合起來使用的。

（4）常用語音格式

PCM格式： Pulse Code Modulation 脈衝編碼調製，它將聲音模擬信號採樣後得到量化後的語音數據，是最基本最原始的一種語音格式。同它極為類似的還有RAW格式和SND格式。它們都是純語音格式。

WAV格式：Wave Audio Files 是微軟公司開發的一種聲音檔案格式，也叫波形聲音檔案，被Windows平台及其應用程式廣泛支持。WAV格式支持許多壓縮算法，支持多種音頻位數、採樣頻率和聲道，但WAV格式對存儲空間需求太大不便於交流和傳播。WAV檔案裡面存放的每一塊數據都有自己獨立的標識，通過這些標識可以告訴用戶究竟這是什麼數據，這些數據包括採樣頻率和位數，單聲道(mono)還是立體聲(stero)等。

ADPCM格式：是利用對過去的幾個抽樣值來預測當前輸入的樣值，並使其具有自適應的預測功能與實際檢測值進行比較，隨時對測得的差值自動進行量化級差的處理，使之始終保持與信號同步變化。它適用於語音變化率適中的情況，而且聲音回放過程簡短。它的優點是對於人聲的處理比較逼真，一般達到90%以上，已廣泛地套用於電話通信領域。

MP3格式： Moving Picture Experts Group Audio Layer III，簡稱為MP3。它是利用 MPEG Audio Layer 3 的技術，採取了名為“感官編碼技術”的編碼算法：編碼時先對音頻檔案進行頻譜分析，然後用過濾器濾掉噪音電平，接著通過量化的方式將剩下的每一位打散排列，最後形成具有較高壓縮比的mp3檔案，並使壓縮後的檔案在回放時能夠達到較接近原音源的聲音效果。它的實質是vbr（Variant Bitrate 可變波特率）可以根據編碼的內容動態地選擇合適的波特率，因此編碼的結果是在保證了音質的同時又照顧了檔案的大小。

mp3壓縮率10倍甚至12倍。是最初出現的一種高壓縮率的語音格式。

Linear Scale格式：根據聲音的變化率大小，把聲音分成若干段，對每段用線性比例進行壓縮，但是它的比例是可變的。

Logpcm格式：基本上對整個聲音進行線性壓縮，將最後若干位去掉。這種壓縮方式在硬體上很容易實現，但音質比Linear Scale差一些，特別是音量較小聲音比較細膩的情況下效果較差。主要用於pure speech

（b）“音樂晶片”介紹：

（1）音樂的通道與音色：

包絡（envelope）方波(patch) 通道（channel）

包絡：合成音色的一部分，單位時間內音符輸出的變化，常見有“ADSR”

方波：合成音色的一部分，單位時間內音符方波電流的變化。（另見三角波等）

通道：在同一時間內，晶片輸出的音符個數，即“單音樂器”的個數。

PCT：模擬音色的一種，通過採樣256個點的樂器聲音來模擬出各個音符的音高。(音色柔和，占空間小，但不夠真實)

FULL WAVE：通過採集一種樂器聲音來模擬各個音符音高。（樂器聲真實，但占用空間大，且採集音色音質要求高）

（2）音樂的壓縮：　由於音樂數據量龐大，對音樂數據進行有效壓縮是很必要的，能夠使我們在有限的ROM空間裡錄入更多的音樂內容。有以下幾種方式：

音樂分段：將音樂中可以重複的部分截取出來，通過排列組合將內容完整地回放出來。

音色：根據音樂的豐滿程度、需求程度，來確定Full wave，PCT、dual tone的選擇，各個音色占用空間不懂，音色質量也不同。。

數學壓縮：主要是針對採樣的音色（Full wave）進行壓縮，這種方式也是有損壓縮，對於要採集的音色進行降採樣、處理等減小採集音色的大小（同語音類的修音）。

（3）常用音樂格式：　MID格式：MIDI(Musical Instrument Digital Interface)樂器數字接口，是20 世紀80 年代初為解決電聲樂器之間的通信問題而提出的。MIDI 傳輸的不是聲音信號, 而是音符、控制參數等指令。

WAV格式：（相見語音IC類介紹）採集音色的格式。

3、語音ROM空間的表述

語音晶片為表述的形象化，由語音長度來表示

a)普通語音晶片以6K採樣率為語音長度計算標準。

b)錄音IC以4K採樣率為語音長度計算標準。

即：以6k（4k）採樣率晶片可以播放的長度。

4、語音晶片的要素

相同品種的晶片成本與晶片的大小成正比。

a)I/O口的分配和ROM的大小（語音秒數）決定晶片成本。低秒數語音晶片其I/O口較少。

b)音質提高，採樣提高，語音秒數縮短。

音質降低，採樣降低，語音秒數變長

c) 語音秒數的計算方法：M/(n*f) 　M---ROM大小（bit） n*f---波特率

5、聲音處理軟體介紹

1）SoundForge

2）Cooledit

3）goldwave

4）Calewalk

6、聲音晶片分類：　聲音晶片根據積體電路類型來分,凡是與聲音有關係的積體電路被統稱為語音晶片(又稱語音IC,這裡應該叫成Voice IC),但是在語音晶片的大類型中,又被分為語音IC(這裡應該叫成Speech IC),音樂IC(這裡應該叫成Music IC)兩種.

（a）現在市場上常見語音晶片分類：

短時間晶片有10秒，20秒，40秒，80秒,170秒的晶片

常用的模組有：6分鐘，8分鐘，16分鐘，1小時的等。

長時間的晶片有：340秒，500秒，1000秒，2000秒更長

通用的晶片有：3秒到340秒

(b)現在市場上常見音樂晶片分類：

單音片：是一種最基本的音樂IC,是音樂單通道的,同一時間音符輸出的多少,決定了單音片的效果,有70多,100多音符等等.

音樂通道：2通道、3通道、4通道、8通道、12通道等更多

聲音晶片

基本介紹

相關詞條

熱門詞條