監(jiān)聽延遲(到底能有多低?)
作者:Joe Albano
編譯:3asic
很多人都知道監(jiān)聽延遲是大多數(shù)制作人在面對的問題,但是你知道它的原理嗎?那就來看 Joe Albano 為大家詳細(xì)解釋吧。
最新最尖端的計算機高速輸入輸出接口 Thunderbolt(雷電)和 USB3 使得超低延遲變成了可能,設(shè)備制造商也在抓緊應(yīng)用以獲得自己的產(chǎn)品優(yōu)勢。但不像一些精通數(shù)字音頻宿主的技術(shù)人員,一般的制作人和錄音工程師大多都對延遲只有一些基本認(rèn)知。當(dāng)然他們知道在大多數(shù)情況下,擁有低延遲是一件“好事”,但他們不一定知道有多低比較合適,或者這些延遲的區(qū)別在實際應(yīng)用上具有什么影響。下面是一些我們在確定數(shù)字音頻宿主環(huán)境下合適的延遲設(shè)置時,需要注意的一些事項。
延遲
讓我們老生常談一下:監(jiān)聽延遲是在數(shù)字音頻經(jīng)過計算機(數(shù)字音頻宿主)處理時不可避免會出現(xiàn)的現(xiàn)象。技術(shù)上來說,延遲的意思是“等待時間”,是音頻在任何數(shù)字音頻設(shè)備經(jīng)過錄制、處理、回放的過程中處理信息所產(chǎn)生的時間。延遲是不可避免的,但延遲的時間可以小到人耳完全無法分辨,不過有的時候也會大到讓音樂人在戴著耳機時感受到明顯的“回聲“效果。不過這樣的延遲在簡單的回放中(比如在沒有人實時錄制、表演,或者進(jìn)行縮混時),一般完全不會讓人察覺。但是在實時錄制過程中,樂手或是歌手在耳機里實時監(jiān)聽數(shù)字音頻宿主中返回的信號時,過大的延遲時間是會被人輕易注意到的,同時也可能會引發(fā)各式各樣的問題。
有一些技術(shù)上的原因會導(dǎo)致音頻的延遲。音頻接口中的“模擬-數(shù)字”或是“數(shù)字-模擬”轉(zhuǎn)換器會產(chǎn)生一些很小量的延遲,但這樣的延遲基本只會有一毫秒左右,在總體的延遲中完全可以被忽略。大部分音頻延遲主要是因為數(shù)字音頻信號在錄制和回放的時候,數(shù)據(jù)從緩慢的機械硬盤到內(nèi)存之間的交換過程。

內(nèi)存緩沖
內(nèi)存緩沖是為了保證數(shù)據(jù)交換時的可靠性,不會因為讀取/寫入速度不均而導(dǎo)致無法同步造成的“噼啪”聲。這是需要在數(shù)字音頻宿主中的音頻設(shè)置中確定的數(shù)值——內(nèi)存緩沖的大小,以數(shù)字采樣的數(shù)量為單位。

宿主緩沖設(shè)定
較大的緩沖值會讓計算機工作的更加得心應(yīng)手,處理音頻的時候會更加可靠,不會出現(xiàn)“噼啪”聲,但會產(chǎn)生時長可觀的音頻延遲,因為需要在內(nèi)存中緩沖、處理的音頻采樣數(shù)量較大。較小的緩沖值會減小這種惱人的延遲,但是每一臺計算機都有它的極限,超過這個信號處理能力的極限,“噼啪”聲或是更嚴(yán)重的故障聲就會出現(xiàn)。這樣的問題有時是可以被重現(xiàn)的,但有時卻是間歇性出現(xiàn)(讓找到性能瓶頸的過程變得更加艱難),但它就代表計算機達(dá)到了它的處理性能極限。更快的接口速度一般是穩(wěn)定性能下音頻延遲的瓶頸所在,但是如果計算機中某一個部分的性能不夠好(比如 5400 轉(zhuǎn)的機械硬盤,或是沒有什么剩余空間的硬盤),那這也會成為音頻延遲的決定性因素。
自然的,音樂是時間的藝術(shù),沒有人希望在錄制最好表演的時候出現(xiàn)過大的音頻延遲,影響樂手的發(fā)揮,所以至少在錄音過程中,把延遲設(shè)定為可能的最小值是非常重要的。當(dāng)然某些時候我們有另外的解決方案,比如零延遲的模擬監(jiān)聽回放方案,但是由于現(xiàn)在數(shù)字音頻技術(shù)的廣泛應(yīng)用,我假設(shè)幾乎所有的錄音都是經(jīng)過數(shù)字音頻宿主的,所以延遲設(shè)定是整套系統(tǒng)中非常重要的部分。
多大才是過大?
人類并不能很明顯的區(qū)分非常小的延遲。一般來說,小于 10 - 12 毫秒的延遲一般不會被人所察覺。如果表演者在監(jiān)聽自己的聲音時出現(xiàn) 10 - 12 毫秒以下的延遲,那么一般來說這樣的延遲會下意識的被人腦忽略成接收信息時產(chǎn)生的延遲,他們也會在下意識中適應(yīng)這樣的延遲,在和其他部分的配合中也會處于良好的同步狀態(tài)。
讓我們再說得深入一些,聲學(xué)上來說,在樂手齊聚一室進(jìn)行演奏的時候,總會有一些由于聲速而產(chǎn)生的延遲會出現(xiàn),樂手自身也會下意識的適應(yīng)著這樣的環(huán)境。聲波在空氣中傳輸?shù)乃俣却蟾旁诿亢撩?1 英尺左右。所以如果兩個樂手在房間中相距 8 英尺的距離,那么樂手 A 聽到樂手 B 演奏的內(nèi)容的時間,是樂手 B 實際演奏時間的 8 毫秒之后,反之亦然,當(dāng)然他們都能很好的進(jìn)行演奏。幸運的是,我們的聽覺并不會受到如此之短的延遲的影響。我們?nèi)祟惐旧砭褪遣煌昝赖模覀円呀?jīng)習(xí)慣了接收信息時的延遲時間,在音樂的角度上來說,這樣的延遲時間并不影響作為樂手演奏時律動的準(zhǔn)確性。
你的感受不一定相同
不過,就算我們把延遲的水平降低到 10 - 12 毫秒的水平,有一些音樂人可能會比一般人更加敏感一些,這也取決于他們演奏樂器的不同。打擊樂手,比如鼓手,可能對這樣短的延遲更加敏感一些,因為打擊樂器具有非常明確短小的起音時間。在工作室中,我有接觸過一些鼓手,能感受到僅為 6 - 8 毫秒的延遲,而其他樂手基本都完全不會感受到。我發(fā)現(xiàn)這其實也是因為他們也同時聽到了這些樂器的聲學(xué)原聲的緣故——為他們更換更好的隔音耳機,同時增加他們的監(jiān)聽音量,可以很好的解決問題。這讓他們可以下意識的習(xí)慣自己擊打鼓棒的時間與實際聽到鼓聲時間之間的微小延時。
但是大部分情況下,正常的延時時間應(yīng)該沒有任何問題:大多數(shù)時候 8 - 12 毫秒的延時都行得通,同時這也不需要設(shè)置成最低的緩沖值,讓大多數(shù)計算機都可以很好的平衡處理能力和延遲之間的選擇。但如果你明確的需要更低的延遲,那你可能需要知道你計算機能安全達(dá)到的最低緩沖區(qū)數(shù)值設(shè)定,也就是你計算機能夠可靠的處理數(shù)字音頻的極限。這需要你在真正的錄音工作之前就提前做好準(zhǔn)備,所以在最初設(shè)置你的數(shù)字音頻工作環(huán)境的時候,就需要做好這樣的測試。
最低能有多低
所以我們提到的緩沖區(qū)大小和延遲時間之間究竟有沒有什么關(guān)聯(lián)呢?這時候我們就要提到采樣率了:下面的一張表格是在 44.1k 采樣率下常用的緩沖區(qū)大小數(shù)值和延遲時間的對比。

在 44.1k 采樣率下的緩沖區(qū)與延遲時間的對比
需要注意的是,緩沖區(qū)有兩個,一個是輸入(錄音)緩沖區(qū),另一個是輸出(回放)緩沖區(qū)。在錄音時,音頻經(jīng)過全部的兩個緩沖區(qū),但是 MIDI 觸發(fā)的虛擬樂器只需要經(jīng)過回放緩沖區(qū)(不過當(dāng)然 MIDI 也會增加一些延遲)。
一般來說在大部分小型系統(tǒng)中,64 采樣大小的緩沖區(qū)設(shè)定一般是理想的——加上“模擬-數(shù)字”和“數(shù)字-模擬”轉(zhuǎn)換器的延遲(某些音頻接口的驅(qū)動也會增加一些額外的延遲時間),你應(yīng)該會得到一個接近 4 - 5 毫秒的延遲時間。如果你在使用音響監(jiān)聽,那么這個延遲時間還需要增加 3 毫秒左右(聲速大概是每毫秒 1 英尺左右,還記得嗎?)。如果這樣的設(shè)置會產(chǎn)生一些“噼啪”聲,那么一般來說 128 采樣大小的緩沖區(qū)也足夠解決這些問題了,同時總體 7 - 8 毫秒的延遲也應(yīng)該適合絕大部分的演奏錄音了。
如果你的計算機仍舊無法在 128 采樣的緩沖區(qū)設(shè)置下可靠的工作,那么你就會陷入一個比較尷尬的境地。某些音樂人(尤其是使用虛擬樂器時)也可以接受 256 采樣緩沖區(qū)的設(shè)置,不過其他人就不一定了。就我自己的感受而言,在演奏樂器時,雖然它只有一點點惱人,我也可以繼續(xù)我的演奏,但是我覺得我對節(jié)拍的把握并沒有很理想。如果緩沖區(qū)的設(shè)置會讓延遲保持在 10 - 12 毫秒以上,那么你肯定需要使用耳機進(jìn)行監(jiān)聽,同時在宿主軟件中查找有沒有選項可以關(guān)閉額外的保護(hù)性延遲,可能會對縮短延遲時間有一些幫助。同時,也需要查找一下在樂手的設(shè)備中可能產(chǎn)生延遲的部件,比如如果使用 POD 作為吉他效果器,那么 POD 會增加額外的幾毫秒的延遲。所以對我來說 256 采樣的緩沖區(qū)設(shè)定基本上是不在我的選項當(dāng)中的——我可能需要轉(zhuǎn)換成純模擬的監(jiān)聽電路,同時沒有辦法在錄音期間使用任何數(shù)字音頻宿主提供的信號處理功能。
極限
在大部分當(dāng)下的數(shù)字音頻宿主和音頻接口中,一般來說它們都會提供一個 32 采樣的緩沖區(qū)選項。它能把整體的延遲降低到 1 - 3 毫秒的區(qū)間,這也基本上是軟件數(shù)字音頻處理,以及高端硬件加速數(shù)字錄音設(shè)備的延遲的極限了。在這個選項里,延遲的瓶頸會變成你計算機的年代和接口類型了。三四年前的計算機可能會在這個選項下出現(xiàn)一些問題,但是去年或者今年發(fā)布的新款計算機有一定的可能性可以在這個選項下穩(wěn)定工作,當(dāng)然這也需要你的音頻接口與計算機之間使用某種高速接口來連接,比如之前我們說到的 Thunderbolt(雷電)或是 USB3。
更老的接口規(guī)范,比如 FireWire(火線)或者 USB2,在 32 采樣這么低的緩沖區(qū)設(shè)定下,可能沒有辦法正常工作,當(dāng)然試試看也不會有什么損失(再說一遍,一定要在正式錄音之前測試�。�。但如果你在使用一個比較老的音頻接口(如果沒壞就不會想去換的那種),比如使用 Firewire 400 接口的型號,就算使用轉(zhuǎn)接口連接到新款計算機上的 Thunderbolt 接口,也不會有 Thunderbolt 接口的高速性能。128 或是最低 64 采樣的緩沖區(qū)大小應(yīng)該會是最穩(wěn)定的選項,同時在這樣的設(shè)定下,99.9% 的情況下應(yīng)該都不會出現(xiàn)什么問題。
所以當(dāng)你設(shè)計安裝好你最新的數(shù)字音頻工作站的時候,千萬不要忘了花一點點時間在緩沖區(qū)設(shè)定上,同時也要作為樂手(或者找到一個樂手)來測試一下不同設(shè)定之下的延遲狀況。也不要僅僅找到不會出現(xiàn)“噼啪”聲的最低值,你需要保證整個工作環(huán)境可以輕松應(yīng)對一定的壓力,畢竟這是低延遲錄音的基本挑戰(zhàn)。
轉(zhuǎn)自《midifan月刊》2017年11月第140期
| 【打印此頁】【返回首頁】 |
