多聲道數(shù)字音頻系統(tǒng)的編碼及應(yīng)用

  文件類別:其它

  文件格式:文件格式

  文件大?。?27K

  下載次數(shù):77

  所需積分:2點

  解壓密碼:qg68.cn

  下載地址:[下載地址]

清華大學(xué)卓越生產(chǎn)運營總監(jiān)高級研修班

綜合能力考核表詳細內(nèi)容

多聲道數(shù)字音頻系統(tǒng)的編碼及應(yīng)用
多聲道數(shù)字音頻系統(tǒng)的編碼及應(yīng)用 Multi-channel Audio Coding and Its Applications 胡 澤 (北京廣播學(xué)院錄音藝術(shù)學(xué)院) [摘要]隨著存儲媒體容量和傳輸帶寬的不斷提高,高質(zhì)量多聲道數(shù)字音頻系統(tǒng)也逐漸取 代傳統(tǒng)的單聲道、立體聲系統(tǒng),而成為新的傳播媒體方式。本文著重介紹當前幾種典型 的多聲道數(shù)字音頻系統(tǒng)的編、解碼技術(shù)。以MPEG-2、AC-3、DTS、MPEG AAC多聲道數(shù)字音頻系統(tǒng)來討論它們各自聲道的配置、數(shù)據(jù)容量、數(shù)據(jù)率等所帶來的優(yōu)缺 點,最后介紹在數(shù)字音視頻廣播中,多聲道數(shù)字音頻系統(tǒng)的應(yīng)用。 前言 對于CD格式來說,大家都知道它具有良好的信噪比、超過80dB以上的動態(tài)范圍以及超 過15kHz的頻率范圍,這使得它具有良好的音頻質(zhì)量和滿意的收聽效果,但是它僅僅提供 了兩個聲道。多聲道數(shù)字音頻系統(tǒng)通過聲道的擴展,不僅在質(zhì)量上與CD音頻不相上下, 同時還帶給聽眾身臨其境的感受,而這是傳統(tǒng)單聲道和立體聲無法實現(xiàn)的,因此多聲道 數(shù)字音頻系統(tǒng)已被更多的聽眾接受,同時也逐漸成為音樂制作的主流。 在眾多的國際標準中,如SMPTE、EBU、ITU- R、ISO/IEC、MPEG等,都涵蓋著一種稱之為5.1聲道的多聲道數(shù)字音頻格式。在即將制定 的DVD- Audio標準中,也規(guī)定將采用24bit采樣精度、88.2,96,192KHz采樣率的多聲道數(shù)字音 頻格式。 一種廣泛接受的多聲道數(shù)字音頻系統(tǒng)配置方案就是我們常稱的5.1聲道系統(tǒng),也就是 3/2/.1的配置方案。這種方法是按照ITR- U的建議BS.775來確定用于重放的揚聲器擺放位置的,如圖1所示。 根據(jù)建議可知,5個全頻帶的重放揚聲器分為前置揚聲器(包括L、R、C)和后置揚聲 器(也稱環(huán)繞揚聲器,包括Ls、Rs),按照圖示所規(guī)定的角度和方位進行擺放,并且它 們都位于一個圓的邊界上,其中L、R揚聲器與C揚聲器分別呈30度夾角,Ls、Rs揚聲器與 C揚聲器分別呈110度夾角。除此5個全頻帶的聲道外,還有一個低頻增強聲道,稱之為L FE,它的頻率范圍在200Hz以下,大約是全頻帶倍頻程的10%左右,因此也稱點一聲道。 它的放置沒有特殊的要求,一般放置在前面。 5個重放揚聲器的擺放并不是說能夠完全重現(xiàn)真實的空間聲像,其實5個揚聲器的使用 僅僅是一種重現(xiàn)空間聲像而采用的粗略的實現(xiàn)方式。當然,一方面重放的效果取決于音 頻素材的制作,另一方面則需要嚴格的重放揚聲器的空間位置擺放和收聽者的位置關(guān)系 。在電影院里我們往往能夠感受到聲像定位準確的音頻效果,現(xiàn)在也有一些提法,認為 8個、10個、12個甚至更多的重放揚聲器會有更加完美的音頻效果。這些觀點有它存在的 理由,聲像的表現(xiàn)當然是越準確越好,但是一味的通過增加重放揚聲器的數(shù)量以及增加 音頻聲道數(shù)的話,它也會帶來另外的負面影響,如聲像的定位更加困難等等,因此我們 在此僅僅通過5.1聲道的實現(xiàn)方式來進行闡述。另外,我們還應(yīng)明確一點,對于家庭消費 者來說,5.1聲道已經(jīng)足夠表現(xiàn)較完美的音頻效果了。 不管是那種擺放方式,它的實現(xiàn)都離不開基本的編碼方式和主要規(guī)則。另外5.1聲道 方式還會帶來較大的壓縮比和較低的比特率(相對于更多聲道的情況),下面就詳細的 來介紹一下多聲道數(shù)字音頻系統(tǒng)的編碼方式。 圖1 ITR-U的建議BS.775確定的用于重放的揚聲器擺放位置 多聲道數(shù)字音頻的編碼 從立體聲向多聲道的過渡,增加了對存儲和傳輸媒體的需要。下面以CD格式為例,假設(shè) 它的采樣頻率為Fs=44.1kHz,采樣精度R為16bit,那么CD格式的音頻數(shù)據(jù)率B為: BCD=2×R×Fs=1.411Mb/s 由此可知,一個小時的CD格式的音樂需要635MB的存貯空間,其實CD最長的重放時間為7 4分鐘。那么如果使用的是多聲道時,此時的數(shù)據(jù)率為: Bcdmultichannel=5.1×R×Fs=3.598Mb/s 同樣一個小時的多聲道格式的音樂需要1.62GB的存儲空間,遠遠大于CD的容量。同時當 前已應(yīng)用的多聲道系統(tǒng)面臨著帶寬的問題。如美國的數(shù)字電視中僅僅給多聲道的音頻38 4kb/s的帶寬,在Internet音頻廣播中,也只有56kb/s的數(shù)據(jù)通道,因此由上可知,多聲 道數(shù)字音頻系統(tǒng)面臨者存儲容量和傳輸帶寬的限制。 如何將多聲道數(shù)字音頻數(shù)據(jù)率降低的同時又能夠保證音頻質(zhì)量,是多聲道數(shù)字音頻系 統(tǒng)面臨的重大問題。眾所周知,對于線性PCM來說,它的實現(xiàn)簡單,在高容量/高帶寬的 前提下可以提供CD質(zhì)量的音頻信號。從另一個角度來看,采樣精度的提高以及采樣頻率 的提高,會帶來更高的音頻質(zhì)量,如將采樣精度由R=16提高到R=24;將采樣頻率由Fs=4 4.1kHz或Fs=48kHz提高到Fs=96kHz或Fs=192kHz。這種發(fā)展趨勢已經(jīng)逐漸地由一些錄音工 程師和音樂制作商所接受,同樣多聲道數(shù)字音頻系統(tǒng)則也要順應(yīng)這種趨勢。但如果仍然 采用線性PCM,這無疑是增加了更大的數(shù)據(jù)量,提高了現(xiàn)有的數(shù)據(jù)率。 我們知道線性PCM并沒有充分利用音頻信號的特性進行編碼,在PCM數(shù)據(jù)流中存在著大 量的冗余信息。同時要強調(diào)的是不管音頻信號如何編解碼、傳輸,最終還是要靠我們的 人耳來實現(xiàn)的,如圖2所示,因此我們可以充分地考慮人耳的聽覺特性,并加以利用,如 人耳的掩蔽效應(yīng)、哈斯效應(yīng)等等。這樣就可以將音頻信號中與人耳有關(guān)的那部分冗余信 息去除掉,在編碼時則僅僅對有用的那部分音頻信號進行編碼,從而降低了參與編碼的 數(shù)據(jù)量。同時再將編碼的信號進行比特精度的分配,對于幅度比較大的信號或變化比較 快的信號分配更多的比特數(shù),而對于幅度小、變化慢的信號則減少比特數(shù)的分配,從而 達到減少數(shù)據(jù)率的可能性,實現(xiàn)編碼的高效率。當然這種結(jié)果是以編碼過程復(fù)雜化為代 價的。下面具體分析幾種聲學(xué)模型。 圖2 編碼、傳輸、人耳聽音的實現(xiàn) 2.1 根據(jù)聽覺域度對可聞信號進行編碼 人耳對聲振動的感受,在頻率及聲壓級方面都有一定的范圍,頻率范圍正常人約為2 0Hz~20kHz,而聲壓級范圍則是如圖聽閾曲線來描述的。意即在這條曲線之下的對應(yīng)頻率 的信號是聽不到的。 聲壓級 A 聽閾曲線 B 頻率f 圖3 聽覺域度對編碼的作用 如圖3所示,對于信號A來說,由于其聲壓級超過聽閾曲線的聲壓級域值,所以可以對 人耳造成聲振動的感受,意即聽到A信號。而對B信號來說,其聲壓級位于聽閾曲線之下 ,雖然它是客觀存在的,但人耳是不可聞的。因此,可以將類似的信號去除掉,以減少 音頻數(shù)據(jù)率。 2. 2 根據(jù)掩蔽效應(yīng),只對幅度強的掩蔽信號進行編碼 人耳能在寂靜的環(huán)境中分辨出輕微的聲音,但在嘈雜的環(huán)境中,同樣的這些聲音則被嘈 雜聲淹沒而聽不到了。這種由于一個聲音的存在而使另一個聲音要提高聲壓級才能被聽 到的現(xiàn)象稱為聽覺掩蔽效應(yīng)。 聲壓級 A 后向掩蔽 前向掩蔽 B C 頻率f 圖4 聽覺掩蔽效應(yīng) 如圖4所示,雖然B、C兩信號的聲壓級已超過聽閾曲線的范圍,人耳已可以聽到B、C 兩信號的存在,但是由于A信號的存在,通過前向掩蔽將C信號淹沒掉,通過后向掩蔽將 B信號淹沒掉,從而最終到達人耳引起感覺的只有A信號。因此,可以將類似的B、C信號 去除掉以減少音頻數(shù)據(jù)率。 2. 3 量化噪聲使得不必全部編碼原始信號 類似于人耳的聽閾曲線,由于數(shù)字信號存在著量化噪聲,如圖5所示,對于信號A和B 來說,并不一定要將A、B信號進行全部幅度的編碼,而只需將A、B信號與量化噪聲的差 值進行編碼就可以達到相同的聽覺效果,因此,在編碼過程中實際量化幅度就可以大大 的減少,而減少數(shù)據(jù)率。 聲壓級 A B 量化噪聲 頻率f 圖5 量化噪聲對編碼的影響 2. 4 通過子帶分割來進行優(yōu)化、編碼 在傳統(tǒng)的編碼過程中,都是將整個頻帶作為操作對象,采用相同的比特分配對每個信 號進行量化。而實際上,由于聽覺曲線的存在及其它因素,對于幅度較小的信號可以分 配較少的比特數(shù)就可以達到要求,因此將整個頻帶分成多個子頻帶,然后對每個子頻帶 的信號獨立編碼,從而使得在每個子頻帶中比特分配可以根據(jù)信號自身來適應(yīng)。 聲壓級 子頻帶 A D C B 頻率f 圖6 子帶編碼、優(yōu)化 如圖ABCD四個信號,如果對整個頻帶編碼,對于D信號來說分配16比特來量化則顯得 多余浪費,所以如果將ABCD分別置于不同的子帶內(nèi),則可在分別所處的子帶內(nèi)使用最適 合的比特數(shù)分配給信號來編碼,從而減少數(shù)據(jù)率,同時如果用于分割的子帶分辨率越高 ,意即子帶的頻帶相對越窄,那么在子帶中分配的比特數(shù)就越精確,而減少了比特率。 2. 5 不同的實現(xiàn)方式 當前在數(shù)字音頻編碼領(lǐng)域存在著各種不同的編碼方案和實現(xiàn)方式,為了能夠讓大家對 此有一個較完整的認識,在本文中僅對當前流行的幾種典型的編碼方法做一個介紹。不 管是通過那一種方式實現(xiàn),其基本的編碼思路方框圖都大同小異,如圖7所示。對于每一 個音頻聲道中的PCM音頻信號來說,首先都要將它們映射到頻域中,這種時域到頻域的映 射可以通過子帶濾波器(如MPEG Layers I,II,DTS)或通過變換濾波器組(如AC- 3,MPEG AAC)實現(xiàn)。這兩種方式的最大不同之處在于濾波器組中的頻率分辨率的不同。 圖7 多聲道數(shù)字音頻系統(tǒng)基本的編碼方框圖 每個聲道中的音頻采樣塊首先要根據(jù)心理聲學(xué)模型來計算掩蔽門限值,然后由計算出 的掩蔽門限值來決定如何將公用比特區(qū)中的比特分配給不同的頻率范圍內(nèi)的信號,如MP EG Layers I,II,DTS所采用;或由計算出的掩蔽門限值來決定哪些頻率范圍內(nèi)的量化噪聲可以引 入而不需要去除,如AC-3,MPEG AAC所采用。然后根據(jù)音頻信號的時域表達式進行量化,隨后采用靜噪編碼(如MPEG Layers I,II,DTS,MPEG AAC)。最后,將控制參數(shù)及輔助數(shù)據(jù)進行交織產(chǎn)生編碼后的數(shù)據(jù)流。解碼過程則首先將 編碼后的數(shù)據(jù)流進行解復(fù)用,然后通過比特流中傳輸?shù)目刂茀?shù)對音頻數(shù)據(jù)反量化,或 通過心理聲學(xué)模型參數(shù)反向運算得到音頻信號(如AC- 3),最后將得到的音頻信號由頻域反變換到時域,完成解碼過程。 另外多聲道數(shù)字音頻編碼技術(shù)還充分利用了聲道之間的相關(guān)性及雙耳聽覺效應(yīng),來進 一步去除聲道之間的冗余度和不相關(guān)度。去除通道之間的相關(guān)度,一種最常用的方法是 M/S方式,在這種方式中是將兩個獨立聲道的頻譜相加和相減,根據(jù)兩個聲道的相關(guān)度大 小,來決定是傳輸和/差信號還是傳輸原始信號。 由于人耳對于頻率超過2- 3kHz的聲音定位主要是通過內(nèi)耳密度差分(IID)實現(xiàn)的,因此為了進一步減少數(shù)據(jù)率, 將各個聲道中頻率超過約定門限值的信號組合后再進行傳輸。這種技術(shù)應(yīng)用在MPEG Layers I,II,III中,實現(xiàn)強度立體聲編碼;用在AC- 3中對兩個聲道或耦合聲道實現(xiàn)多聲道編碼。在MPEG AAC中,則既可實現(xiàn)強度立體聲編碼,又可實現(xiàn)多聲道編碼。 杜比數(shù)字AC-3編解碼壓縮過程 AC-3最早是在1991年的電影“Batman Returns”中應(yīng)用的。它的應(yīng)用不僅在電影界占有一席之地,而且它已被北美地區(qū)的數(shù)字 電視及DVD視頻定為其數(shù)字音頻實施規(guī)范。我們熟知的AC-2,AC- 3都是由兩聲道發(fā)展而來的,即杜比數(shù)字(Dolby Digital)。對于數(shù)字音頻信號來說,通過應(yīng)用數(shù)字壓縮算法,來減少正確再現(xiàn)原始脈沖 編碼調(diào)制(PCM)樣本所需要的數(shù)字信息量,得出原始信號經(jīng)數(shù)字壓縮后的表達式。 3. 1 AC-3編碼過程 AC-3編碼器接受PCM音頻并產(chǎn)生相應(yīng)的AC-3數(shù)碼流。在編碼時,AC- 3算法通過對音頻信號的頻域表達式進行粗量化,達到高的編碼增益(輸入碼率對輸出碼 率之比)。如圖8所示。 編碼過程的第一步是把音頻表達式從一個PCM時間樣本的序列變換為一個頻率系數(shù)樣 本塊的序列。這在分析濾波器中完成。512個時間樣本的相互重疊樣本塊被乘以時間窗而 變換到頻域。由于相互重疊的樣本塊,每個PCM輸入樣本將表達在兩個相繼的變換樣本塊 中。頻域表達式則可以二取一,使每個樣本塊包含256個頻率系數(shù)。這些單獨的頻率系數(shù) 用二進制指數(shù)記數(shù)法表達為一個二進制指數(shù)和一個尾數(shù)。這個指數(shù)的集合被編碼為信號 頻譜的粗略表達式,稱作頻譜包絡(luò)。核心的比特指派例行程序用這個頻譜包絡(luò),確定每 個單獨尾數(shù)需要用多少比特進行編碼。將頻譜包絡(luò)和6個音頻樣本塊粗略量化的尾數(shù),格 式化成一個AC-3數(shù)據(jù)幀(FRAME)。AC-3數(shù)碼流是一個AC-3數(shù)據(jù)幀的序列。 圖8 AC-3編碼框圖 在實際的AC-3編碼器中,還包括下述功能: o 附有一個數(shù)據(jù)幀的信頭(header),其中包含與編碼的數(shù)碼流同步及把它解碼的信 息(比特率、取樣率、編碼的信道數(shù)目等)。 o 插入誤碼檢測碼字,以便解碼器能檢驗接收的數(shù)據(jù)幀是否有誤碼。 o 可以動態(tài)的改變分析濾波器組的頻譜分辨率,以便同每個音頻樣本塊的時域/頻域特 性匹配的更好。 o 頻譜包絡(luò)可以用可...
多聲道數(shù)字音頻系統(tǒng)的編碼及應(yīng)用
 

[下載聲明]
1.本站的所有資料均為資料作者提供和網(wǎng)友推薦收集整理而來,僅供學(xué)習(xí)和研究交流使用。如有侵犯到您版權(quán)的,請來電指出,本站將立即改正。電話:010-82593357。
2、訪問管理資源網(wǎng)的用戶必須明白,本站對提供下載的學(xué)習(xí)資料等不擁有任何權(quán)利,版權(quán)歸該下載資源的合法擁有者所有。
3、本站保證站內(nèi)提供的所有可下載資源都是按“原樣”提供,本站未做過任何改動;但本網(wǎng)站不保證本站提供的下載資源的準確性、安全性和完整性;同時本網(wǎng)站也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的損失或傷害。
4、未經(jīng)本網(wǎng)站的明確許可,任何人不得大量鏈接本站下載資源;不得復(fù)制或仿造本網(wǎng)站。本網(wǎng)站對其自行開發(fā)的或和他人共同開發(fā)的所有內(nèi)容、技術(shù)手段和服務(wù)擁有全部知識產(chǎn)權(quán),任何人不得侵害或破壞,也不得擅自使用。

 我要上傳資料,請點我!
COPYRIGT @ 2001-2018 HTTP://m.musicmediasoft.com INC. ALL RIGHTS RESERVED. 管理資源網(wǎng) 版權(quán)所有