音頻信号

音頻信号

信息載體
音頻信号是(Audio)帶有語音、音樂和音效的有規律的聲波的頻率、幅度變化信息載體。根據聲波的特征,可把音頻信息分類為規則音頻和不規則聲音。其中規則音頻又可以分為語音、音樂和音效。規則音頻是一種連續變化的模拟信号,可用一條連續的曲線來表示,稱為聲波。聲音的三個要素是音調、音強和音色。聲波或正弦波有三個重要參數:頻率ω0、幅度An和相位ψn,這也就決定了音頻信号的特征。近幾年來,在網絡流媒體、移動設備、數字廣播等領域,數字音頻信号處理得到了廣泛的應用。[1]
    中文名:音頻信号 外文名: 别名: 音階:C D E F G A B 簡譜符号:1 2 3 4 5 6 7 頻率(Hz):261 293 330 349 392 440 494

基本特征

基頻與音調

頻率是指信号每秒鐘變化的次數。人對聲音頻率的感覺表現為音調的高低,在音

樂中稱為音高。音調正是由頻率ω所決定的。音樂中音階的劃分是在頻率的對數坐标(20×log)上取等分而得的:

頻率(對數)48.349.350.350.851.852.853.8

諧波與音色

n×ωO稱為ωO的高次諧波分量,也稱為泛音。音色是由混入基音的泛音所決定的,高次諧波越豐富,音色就越有明亮感和穿透力。不同的諧波具有不同的幅值An和相位偏移ψn,由此産生各種音色效果。

幅度與音強

人耳對于聲音細節的分辨隻有在強度适中時才最靈敏。人的聽覺響應與強度成對數關系。一般的人隻能察覺出3分貝的音強變化,再細分則沒有太多意義。我們常用音量來描述音強,以分貝(dB=20log)為單位。在處理音頻信号時,絕對強度可以放大,但其相對強度更有意義,一般用動态範圍定義:動态範圍=20×log(信号的最大強度/信号的最小強度)(dB)

音寬與頻帶

頻帶寬度或稱為帶寬,它是描述組成複合信号的頻率範圍。

指标

頻帶寬度:音頻信号的頻帶越寬,所包含的音頻信号分量越豐富,音質越好。

動态範圍:動态範圍越大,信号強度的相對變化範圍越大,音響效果越好。

信噪比:信噪比SNR(SignaltoNoiseRatio)是有用信号與噪聲之比的簡稱。噪音可分為環境噪音和設備噪音。信噪比越大,聲音質量越好。

主觀度量法:人的感覺機理對聲音的度量最有決定意義。感覺上的、主觀上的測試是評價聲音質量不可缺少的部分。當然,可靠的主觀度量值是較難獲得的。

平衡與非平衡傳輸

1.信号的平衡傳輸

平衡傳輸是一種應用非常廣泛的音頻信号傳輸方式。它是利用相位抵消的原理将音頻信号傳輸過程中所受的其他幹擾降至最低。它需要并列的三根導線來實現,即接地、熱端、冷端。所以平衡輸入、輸出插件必須具有3個腳位。

傳輸線當然也得是2芯1屏蔽層的線,由于熱端信号線和冷端信号線在同一屏蔽層内相對距離很近,所以在傳輸過程中受到的其他幹擾信号也幾乎相同。然而被傳輸的熱端信号和冷端信号的相位卻相反,所以在下一級設備的輸入端把熱端信号和冷端信号相減,相同的幹擾信号被抵消,被傳輸信号由于相位相反而不會損失。所以在專業的場合和傳輸距離比較遠的時候通常使用平衡傳輸方法。

2.信号的非平衡傳輸

非平衡傳輸隻有兩個端子信号端與接地端,在要求不高和近距離信号傳輸的場合使用,如家庭音響系統。這種連接也常用于電子樂器、電吉他等設備。

采集方式

電台等由于其自辦頻道的廣告、新聞、廣播劇、歌曲和轉播節目等音頻信号電平大小不一,導緻節目播出時,音頻信号忽大忽小,嚴重影響用戶的收聽效果。在轉播時,由于傳輸距離等原因,在信号的輸出端也存在信号大小不一的現象。過去,對大音頻信号采用限幅方式,即對大信号進行限幅輸出,小信号不予處理。這樣,仍然存在音頻信号過小時,用戶自行調節音量,也會影響用戶的收聽效果。随着電子技術,計算機技術和通信技術的迅猛發展,數字信号處理技術已廣泛地深入到人們生活等各個領域。其中語音處理是數字信号處理最活躍的研究方向之一,在IP電話和多媒體通信中得到廣泛應用。語音處理可采用通用

數字信号處理器DSP和現場可編程門陣列(FPGA)實現,其中DSP實現方法具有實現簡便、程序可移植行強、處理速度快等優點,特别是TI公司TMS320C54X系列在音頻處理方面有很好的性價比,能夠解決複雜的算法設計和滿足系統的實時性要求,在許多領域得到廣泛應用。在DSP的基礎上對音頻信号做AGC算法處理可以使輸出電平保持在一定範圍内,能夠解決不同節目音頻不均衡等問題。

TI公司DSP芯片TMS320VC5402具有獨特的6總線哈佛結構,使其能夠6條流水線同時工作,工作頻率達到100MHZ。利用VC5402的2個多通道緩沖串行口(McBSP0和McBSP1)來實現與AIC23的無縫連接。VC5402的多通道帶緩沖的串行口在标準串口的基礎上加了一個2K的緩沖區。每次串口發送數據時,CPU自動将發送緩沖中的數據送出;而當接收數據時,CPU自動将收到的數據寫入接收緩存。在自動緩沖方式下,不需每傳送一個字就發一次中斷,而是每通過一次緩沖器的邊界,才産生中斷至CPU,從而減少頻繁中斷對CPU的影響。

音頻芯片采用TLV320AIC23,它是TI公司的一款高性能立體聲音頻A/D,D/A放大電路。AIC23的模數轉換和數模轉換部件高度集成在芯片内部,采用了先進的過采樣技術。AIC23的外部硬

件接口分為模拟口和數字口。模拟口是用來輸入輸出音頻信号的,支持線路輸入和麥克風輸入;有兩組數字接口,其一是由/CS、SDIN、SCLK和MODE構成的數字控制接口。AIC23是一塊可編程的音頻芯片,通過數字控制口将芯片的控制字寫入AIC23内部的寄存器,如采樣率設置,工作方式設置等,共有12個寄存器。音頻控制口與DSP的通信主要由多通道緩沖串行口McBSP1來實現。

AIC23通過數字音頻口與DSP的McBSP0完成數據的通信,DSP做主機,AIC23做從機。主機提供發送時鐘信号BCLKX0和發送幀同步信号BFSX0。在這種工作方式下,接收時種信号BCLKR0和接收幀同步信号BFSR0實際上都是由主機提供的。圖1是AIC23與VC5402的接口連接。

AIC23的數字音頻接口支持S(通用音頓格式)模式,也支持DSP模式(專與TIDSP連接模式),在此采用DSP模式。DSP模式工作時,它的幀寬度可以為一個bit長。圖2是音頻信号采集的具體電路圖。

電路的設計和布線是信号采集過程中一個很重要的環節,它的效果直接關系到後期信号處理的質量。對于DSP達類高速器件,外部晶體經過内部的PLL倍頻以後可達上百兆。這就要求信号線走等長線和繪制多層電路闆來消除電磁幹擾和信号的反射。在兩層闆的前提下,可以采取頂層與底層走交叉線、盡量加寬電源線和地線的寬度、電源線成"樹杈型"、模拟區和數字區分開等原則,可以達到比較好的效果。

AGC

AGC算法

使放大電路的增益随信号強度的變化而自動調整的控制方法,就是AGC-自動增益控

制。實現AGC可以是硬件電路,即AGC閉環電子電路,也可以是軟件算法。本文主要讨論用軟件算法來實現音頻信号的AGC。

音頻AGC是音頻自動增益控制算法,更為準确的說是峰值自動增益控制算法,是一種根據輸入音頻信号水平自動動态地調整增益的機制。當音量(無論是捕捉到的音量還是再現的音量)超過某一門限值,信号就會被限幅。限幅指的是音頻設備的輸出不再随着輸入而變化,輸出實質上變成了最大音量位置上的一條水平線;當檢測到音頻增益達到了某一門限時,它會自動減小增益來避免限幅的發生。另一方面,如果捕捉到的音量太低時,系統将自動提高增益。當然,增益的調整不會使音量超過用戶在調節向導中設置的值。圖3是音頻AGC算法的結構框圖。

實現過程

首先從串口獲取音頻數據,它是16位的整型數,一般來說,這些數都是比較小的,通過AGC算法将輸入的音頻數據投影在一個固定區間内,從而使得不論輸入的數據點數值大小都會等比例地向這

個空間映射。一方面将獲得的音頻數據最大值與原來的峰值進行比較,如果有新的峰值出現就計算新的增益系數;另一方面在一定的時間周期内獲取一個新的峰值,這個峰值就具有檢測性能,又與原峰值比較,然後就計算新的增益系數。這個增益系數是相對穩定的。當音量加大時,信号峰值會自動增加,從而增益系數自動下降;當音量減小時,新的峰值會減小并且取代原來的峰值,從而使峰值下降,使增益系數上升。最後輸出的數據乘以新增益系數後映射到音頻信号輸入的投影區間内。圖4是音頻信号AGC算法的程序流程圖。

AGC_Coff是初始增益系數,初始值為1;maxAGC_in是增益峰值,初始值為0;time是采樣點計數,門限值為4096;AGC_in是新的音頻數據,MAXArrIn是新的音頻增益峰值;映射區間【-20000,20000】。

整個系統的軟件部分為5人模塊。系統主函數main()、CMD文件、中斷向量表、DSP5402頭文件和專為C語言開發的庫函數rtdx.lib。其中主函數部分是核心,主要包括:DSP器件初始化、MCBSP1初始化、MCBSP0初始化、AIC23初始化(内部12個可編程寄存器設置)及算法程序等。

在CCS2.0集成開發環境下,采用*.c語言和*.asm語言相結合的方式編寫程序。将編寫的程序*.c、*.asm和鍊接程序*.cmd文件編譯鍊接後生成執行目标文件*.out,通過仿真器将執行目标文件*.out下載到系統闆上,經過調試、編譯并運行,以音樂作為音頻信号源輸入到系統闆上。

數字化

綜述

普通的CD采用了數字技術,不過它隻是簡單地把模拟信号加以數字化。為了把模拟信

号數字化,首先要對模拟信号進行采樣。根據Nyquest采樣定律,通常其采樣頻率至少是信号中的最高頻率分量的兩倍。對于高質量的音頻信号,其頻率範圍是從20Hz-20kHz。所以其采樣頻率必須在40kHz以上。在CD中采用了44.1kHz的采樣頻率。在對模拟信号采樣以後,還必須對其幅度上加以分層。在CD中,其分層以後的幅度信号用16比特的二進制信号來表示,也就是把模拟的音頻信号在幅度上分為65,536層。這樣,它的動态範圍就可以達到96分貝=20Log65536(6分貝/比特)。這種直接模數(A/D)變換的方法也稱為PCM編碼。直接數字化的最大缺點是比特率非常高。達到44.1x16=705.6kbps,或即88.2kBps。比特率高就意味着要求的存儲容量很大。要記錄1分鐘的音樂,就需要5.047MB的存儲容量。對于兩路立體聲,就需要10.584MB。而要記錄幾十分鐘的音樂就需要幾百兆的存儲容量。

PCM編碼原理

把模拟信号轉換成數字信号的過程稱為模/數轉換,它主要包括:

采樣:在時間軸上對信号數字化;

量化:在幅度軸上對信号數字化;

編碼:按一定格式記錄采樣和量化後的數字數據。

脈沖編碼調制PCM(PulseCodeModulation)是一種模數轉換的最基本編碼方法,CD-DA就是采用的這種編碼方式。

采樣頻率

采樣頻率是指一秒鐘内采樣的次數。

采樣的三個标準頻率分别為:44.1KHz,22.05KHz和11.025KHz。

采樣理論

如果對某一模拟信号進行采樣,則采樣後可還原的最高信号頻率隻有采樣頻率的一

半,或者說隻要采樣頻率高于輸入信号最高頻率的兩倍,就能從采樣信号系列重構原始信号。

根據該采樣理論,CD激光唱盤采樣頻率為44KHz,可記錄的最高音頻為22KHz,這樣的音質與原始聲音相差無幾,也就是我們常說的超級高保真音質(SuperHighFidelity-HiFi)。

量化位數

量化位是對模拟音頻信号的幅度軸進行數字化,它決定了模拟信号數字化以後的動态範圍。由于計算機按字節運算,一般的量化位數為8位和16位。量化位越高,信号的動态範圍越大,數字化後的音頻信号就越可能接近原始信号,但所需要的存貯空間也越大。

量化位等份動态範圍(dB)應用825648-50數字電話166553696-100CD-DA聲道數有單聲道和雙聲道之分。雙聲道又稱為立體聲,在硬件中要占兩條線路,音質、音色好,但立體聲數字化後所占空間比單聲道多一倍。

編碼算法

編碼的作用一是采用一定的格式來記錄數字數據,二是采用一定的算法來壓縮數字數據。

壓縮比

壓縮編碼的基本指标之一就是壓縮比:壓縮比通常小于1。壓縮算法包括有損壓縮和無損壓縮;有損壓縮指解壓後數據不能完全複原,要丢失一部分信息。壓縮比越小,丢掉的信息越多、信号還原後失真越大。根據不同的應用,可以選用不同的壓縮編碼算法,如PCM,ADPC,MP3,RA等等。

數據格式

數據率為每秒bit數,它與信息在計算機中的實時傳輸有直接關系,而其總數據量又

與計算機的存儲空間有直接關系。因此,數據率是計算機處理時要掌握的基本技術參數,未經壓縮的數字音頻數據率可按下式計算:

數據率=采樣頻率(Hz)×量化位數(bit)×聲道數(bit/s)

用數字音頻産生的數據一般以WAVE的文件格式存貯,以“.WAV”作為文件擴展名。WAV文件由三部分組成:文件頭,标明是WAVE文件、文件結構和數據的總字節;數字化參數如采樣率、聲道數、編碼算法等等;最後是實際波形數據。WAVE格式是一種Windows下通用的數字音頻标準,用Windows自帶的媒體播放器可以播放WAV文件。MP3的應用雖然很看好,但還需專門的播放軟件,其中較成熟的為RealPlayer。

為了存儲數字化了的音樂,就隻能盡量開發高容量的存儲系統。在70年代末,終于開發出了利用激光讀寫的光盤存儲系統。因為這種光盤比起密紋唱片,無論在體積和重量上都要小得多,輕得多,所以稱它為CD(CompactDisk)。意思為輕便的碟片。而一張CD的容量大約為650MB,也就隻能存儲61.4分鐘音樂。

純粹音樂CD通常也稱為CD-DA。DA就是數字音頻(DigitalAudio)的縮寫。它的技術指标是由一本所謂的“紅皮書”所定義。這本紅皮書是菲立普公司和索尼公司在1980年公布的。以後,在1987年,又由國際電工委員會(IEC)制定為IEC908标準。根據這些标準可以比較精确地計算一張CD所能存儲的音樂時間。實際上在CD碟片中是以扇區為單位的,每個扇區中所包含的字節數為2352個字節。總共有345k個扇區。因此總的字節數為345kx2352=811440kB。可以存放76.92分鐘的立體聲音樂。還有一種方法來計算播放的時間,CD在播放時,其播放的速度為每秒鐘75個扇區。一張CD有345k個扇區,因而可以播放的時間為345k/75=4600秒=76分40秒。兩種方法計算的結果是一樣的。

信号壓縮

因為音頻信号數字化以後需要很大的存儲容量來存放,所以很早就有人開始研究

音頻信号的壓縮問題。音頻信号的壓縮不同于計算機中二進制信号的壓縮,在計算機中,二進制信号的壓縮必須是無損的,也就是說,信号經過壓縮和解壓縮以後,必須和原來的信号完全一樣,不能有一個比特的錯誤。這種壓縮稱為無損壓縮。但是音頻信号的壓縮就不一樣,它的壓縮可以是有損的隻要壓縮以後的聲音和原來的聲音聽上去和原來的聲音一樣就可以了。因為人的耳朵對某些失真并不靈敏,所以,壓縮時的潛力就比較大,也就是壓縮的比例可以很大。音頻信号在采用各種标準的無損壓縮時,其壓縮比頂多可以達到1.4倍。但在采用有損壓縮時其壓縮比就可以很高。下面是幾種标準的壓縮方法的性能。按質量由高往低排列。

需要注意的是,其中的Mbyte不是正好1兆比特,而是1024x1024=1048576Byte。必須指出,這些壓縮都是以犧牲音質作為代價的,尤其是最後兩種方法,完全靠降低采樣率和降低分辨率來取得的。這對音質的損失太大,所以這些方法并不可取。

相關詞條

相關搜索

其它詞條