自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的普及和視頻內(nèi)容共享信息和經(jīng)驗(yàn)的使用正在急劇增加。用于捕捉聲音的麥克風(fēng)的性能和質(zhì)量必須高,以確保良好的用戶體驗(yàn)。關(guān)鍵因素包括噪聲、畸變、頻率響應(yīng)和元件匹配。
在之前的文章中,已經(jīng)簡(jiǎn)單說明了,麥克風(fēng)性能的特點(diǎn)通常是自噪聲和動(dòng)態(tài)范圍。動(dòng)態(tài)范圍的上限由聲學(xué)過載點(diǎn)(AOP Acoustic Overload Point)定義。下限由信噪比(SNR Signal-to-noise Ratio)定義。信噪比描述了麥克風(fēng)的自噪聲。麥克風(fēng)只能在其自噪聲層以上的聲壓級(jí)(SPL)下接收信號(hào)。因此,高信噪比的麥克風(fēng)可以在比低信噪比的麥克風(fēng)更低的聲壓下工作。本文,則集中于信噪比(SNR)和聲學(xué)過載點(diǎn)(AOP),并解釋了在語(yǔ)音識(shí)別和音頻/視頻捕獲系統(tǒng)中具有高麥克風(fēng)性能的好處。
麥克風(fēng)輸出中的噪聲可以定義為任何不是預(yù)期輸入源的信號(hào),通常被認(rèn)為是輸出信號(hào)中不希望出現(xiàn)的元素。噪聲水平越高,越會(huì)降低音頻信號(hào)的質(zhì)量。噪聲可以來自麥克風(fēng)外部,也可以來自麥克風(fēng)本身。人們通常聽到麥克風(fēng)的自噪音作為一種嘶嘶聲,影響感知的聲音質(zhì)量。對(duì)于算法來說,噪聲會(huì)惡化信號(hào)的保真度,從而降低系統(tǒng)性能。
麥克風(fēng)的噪聲可以用不同的方式表達(dá):
自噪聲(Vrms、dBV、dBFS)是麥克風(fēng)本身在不受外界聲音激勵(lì)時(shí)產(chǎn)生的rms噪聲電壓。
信噪比(SNR (dB))描述了麥克風(fēng)相對(duì)于預(yù)期輸入信號(hào)的自噪聲。信噪比的測(cè)量通常使用一個(gè)標(biāo)準(zhǔn)的聲學(xué)輸入信號(hào)來表示想要的聲音,一個(gè)94 dBSPL (1 Pa)正弦波。
等效輸入噪聲EIN (dBSPL)是進(jìn)入麥克風(fēng)的(假想的)聲學(xué)噪聲水平,它相當(dāng)于麥克風(fēng)輸出時(shí)的電子噪聲水平。
所有現(xiàn)實(shí)生活中的音頻傳感器都是非線性系統(tǒng),因?yàn)樗鼈兿蛲ㄟ^它們的信號(hào)添加內(nèi)容。在失真的情況下,增加的內(nèi)容位于原始信號(hào)中出現(xiàn)的頻率的諧波。失真通常以總諧波失真THD(如果包含自噪聲則為THD+N)來測(cè)量。它是當(dāng)麥克風(fēng)被正弦波激發(fā)時(shí),信號(hào)諧波中的能量(通常是第二到第五次諧波)與基頻中的能量之比。測(cè)試信號(hào)通常是一個(gè)1 kHz的正弦信號(hào),處于相對(duì)較高的聲壓級(jí)(SPL),通常為94 dBSPL或更高。THD以百分比(%)表示。聲學(xué)過載點(diǎn),AOP通常定義為THD超過10%的聲壓級(jí)。AOP的單元是dBSPL。
在大多數(shù)情況下,保持傳入麥克風(fēng)的聲音的原始形式和內(nèi)容是有益和重要的。在原始信號(hào)中加入內(nèi)容,比如失真,可能會(huì)讓聽聲音的人聽起來不舒服。增加的能量越多(即THD值越高),感知到的音頻質(zhì)量就越差。失真還可能使語(yǔ)音識(shí)別系統(tǒng)等算法產(chǎn)生混淆,特別是對(duì)輸入信號(hào)的內(nèi)容進(jìn)行非常詳細(xì)分析的語(yǔ)音識(shí)別系統(tǒng),失真造成的影響會(huì)更大。
圖1 Acoustical SNR 信噪比示意
音頻/視頻錄制的目的是捕捉來自受試者的傳入聲音,并將其復(fù)制到麥克風(fēng)系統(tǒng)的輸出中。當(dāng)錄音是為人類的耳朵,它是可取的電子輸出信號(hào)匹配的聲音信號(hào)盡可能接近,提供一個(gè)“自然”的聲音記錄。麥克風(fēng)及其信噪比是聲捕獲信號(hào)鏈的關(guān)鍵部分,影響錄音質(zhì)量。下表給出了一些典型的用例。
在自然情況下,每增加一倍距離,聲壓減半(降低6分貝)。捕獲的聲源越遠(yuǎn),到達(dá)麥克風(fēng)的聲音信號(hào)就越安靜。由于麥克風(fēng)的自噪聲實(shí)際上是恒定的,輸入信號(hào)電平的降低會(huì)導(dǎo)致麥克風(fēng)輸出信號(hào)的信噪比降低。通常,弱信號(hào)必須被放大,使其達(dá)到設(shè)備信號(hào)路徑的適當(dāng)水平。放大信號(hào)也會(huì)放大輸出信號(hào)中的噪聲。放大倍數(shù)越大,噪聲上升到顯著降低捕獲信號(hào)質(zhì)量的水平的風(fēng)險(xiǎn)就越大。
高麥克風(fēng)信噪比有助于保持本底噪聲是幾乎聽不見的,即使信號(hào)被放大。捕獲距離越長(zhǎng),麥克風(fēng)的自噪聲越小,以避免出現(xiàn)問題。當(dāng)距離很長(zhǎng)且聲源本身很安靜時(shí),這一點(diǎn)尤其重要。當(dāng)每增加一倍的距離,聲壓會(huì)衰減6分貝時(shí),使用高信噪比6分貝的麥克風(fēng),可以使捕捉距離加倍而不會(huì)降低信號(hào)質(zhì)量。
POLQA (Objective Listening Quality Assessment)是一種ITU-T標(biāo)準(zhǔn)模型,它使用數(shù)字語(yǔ)音分析來客觀地確定錄制語(yǔ)音信號(hào)的質(zhì)量和可理解性。高信噪比的麥克風(fēng)在POLQA測(cè)試中表現(xiàn)明顯更好,并具有更好的語(yǔ)音清晰度。當(dāng)用高信噪比麥克風(fēng)記錄信號(hào)時(shí),同一水平的信號(hào)更容易理解。
和SNR一樣,AOP也是一個(gè)重要的音頻/視頻質(zhì)量因素。失真很容易使視頻記錄變得無用。網(wǎng)上有很多在流行音樂/搖滾音樂會(huì)上拍攝的智能手機(jī)視頻,由于音頻失真嚴(yán)重,無法觀看。如果預(yù)期聲音(或干擾聲音)的傳入聲壓水平高或非常高,則高AOP可以改善聲音質(zhì)量。高AOP幫助麥克風(fēng)系統(tǒng)處理傳入聲音信號(hào)中可能出現(xiàn)的非常高的信號(hào)峰值,即使平均聲壓水平不是非常高。參見下表中的一些典型用例。
直到幾年前,消費(fèi)電子設(shè)備麥克風(fēng)AOP的標(biāo)準(zhǔn)水平還在110到120 dBSPL之間。在最近的過去,AOP的需求已經(jīng)上升了。為了確保音質(zhì)和語(yǔ)音識(shí)別性能滿足客戶的要求,設(shè)備設(shè)計(jì)者應(yīng)該選擇AOPs接近或高于130 dBSPL的麥克風(fēng)。在較低的聲壓水平下,觀察比為AOP指定的10%更低的THD水平更有意義。除了擁有高的AOP之外,THD保持在低水平(低于2%)也很重要,對(duì)于預(yù)期的應(yīng)用程序(例如,高達(dá)120 dBSPL), THD應(yīng)該達(dá)到足夠高的聲壓級(jí)。
在系統(tǒng)中,所捕獲的聲音用于算法時(shí),聲音質(zhì)量目標(biāo)可能與信號(hào)用于人耳時(shí)不同。信號(hào)并不一定要聽起來很自然,只要它是為算法優(yōu)化的。不管用例是什么,保持信號(hào)不受干擾、工件、失真和噪聲的影響總是很重要的。
自然語(yǔ)音識(shí)別(ASR)是將語(yǔ)音信號(hào)自動(dòng)轉(zhuǎn)錄成文字的任務(wù)。轉(zhuǎn)錄正確率越來越接近人類水平,大約為95%。然而,到目前為止,只有在環(huán)境條件良好的實(shí)驗(yàn)室里才有可能達(dá)到這個(gè)水平。在現(xiàn)實(shí)生活環(huán)境和遠(yuǎn)距離語(yǔ)音識(shí)別涉及一些重要的聲學(xué)挑戰(zhàn),如背景噪聲、混響、回聲消除和麥克風(fēng)定位。僅僅有一個(gè)好的語(yǔ)音識(shí)別引擎是不夠的。系統(tǒng)中的每個(gè)元素都應(yīng)該以高標(biāo)準(zhǔn)執(zhí)行,以防止出現(xiàn)質(zhì)量瓶頸。麥克風(fēng)的工作是提供語(yǔ)音識(shí)別系統(tǒng)最好的輸入信號(hào)。 高輸入信號(hào)質(zhì)量有助于ASR系統(tǒng)分析傳入的聲音,并找到其中的特征,從而識(shí)別語(yǔ)音內(nèi)容。關(guān)鍵參數(shù)包括噪聲、畸變、頻率響應(yīng)和相位。
高AOP可以幫助在嘈雜環(huán)境中的語(yǔ)音識(shí)別系統(tǒng)。有時(shí),語(yǔ)音信號(hào)本身并不強(qiáng),同時(shí)存在其他干擾。例如,在語(yǔ)音控制的家庭娛樂系統(tǒng)和數(shù)字助理中,有靠近麥克風(fēng)的揚(yáng)聲器,可以輸出響度大的音樂或語(yǔ)音信息。高AOP有助于保持低失真,改善噪聲和回聲的消除。
距離語(yǔ)音源越遠(yuǎn),輸入到ASR算法的信號(hào)的信噪比越低。因此,當(dāng)目標(biāo)捕捉距離越長(zhǎng),麥克風(fēng)信噪比越高。
語(yǔ)音識(shí)別系統(tǒng)的一個(gè)關(guān)鍵功能是能夠忽略非待轉(zhuǎn)錄語(yǔ)音的聲音和噪聲。音頻/視頻捕捉和人與人之間的溝通質(zhì)量也可以通過從信號(hào)中排除不需要的聲音來提高。目標(biāo)是增加信噪比,在這種情況下,信噪比是想要的聲音(信號(hào))與不想要的環(huán)境聲音(噪音)的比率。
將多麥克風(fēng)與算法相結(jié)合,可以實(shí)現(xiàn)噪聲消除和方向性。定向傳聲器系統(tǒng),如波束形成,可以集中麥克風(fēng)對(duì)所需方向的靈敏度和突出所需的聲源。不需要的聲音也可以根據(jù)參數(shù)取消,如兩個(gè)麥克風(fēng)之間的水平差異。盲源分離是一種更為復(fù)雜的降噪系統(tǒng)。它可以消除與方向、距離和位置無關(guān)的噪聲。所有這些噪聲消除方法都得益于其接收信號(hào)的準(zhǔn)確性和高質(zhì)量。麥克風(fēng)應(yīng)具有高信噪比,低失真,平坦頻響(也改善了相位響應(yīng))和低群延遲。
為了優(yōu)化噪聲消除算法的功能,系統(tǒng)中使用的麥克風(fēng)應(yīng)該具有相同的特性。麥克風(fēng)與麥克風(fēng)匹配的作用至關(guān)重要。麥克風(fēng)之間的靈敏度、相位特性和延遲的差異越小越好。
從2005年到2015年,最先進(jìn)的麥克風(fēng)在大眾市場(chǎng)消費(fèi)電子設(shè)備的信噪比從低于60分貝提高到約65分貝。隨著新的高性能語(yǔ)音識(shí)別系統(tǒng)和其他捕獲用例的需求,即使65 dB也不再足夠了。目前高端麥克風(fēng)的信噪比接近70分貝。
高麥克風(fēng)性能是實(shí)現(xiàn)高語(yǔ)音識(shí)別和音頻捕獲質(zhì)量的關(guān)鍵。自動(dòng)語(yǔ)音識(shí)別算法和相機(jī)等技術(shù)的性能正在迅速提高,設(shè)備購(gòu)買者對(duì)用戶體驗(yàn)的期望也在提高。避免麥克風(fēng)成為改進(jìn)瓶頸是很重要的。幸運(yùn)的是,現(xiàn)在有高性能的麥克風(fēng)。噪聲性能在過去的幾年中有了顯著的提高。隨著AOP達(dá)到130 dBSPL的標(biāo)志,SNR已經(jīng)超過了70 dB的水平,而質(zhì)量下降的失真正在成為過去。這種水平的麥克風(fēng)性能有助于充分提升設(shè)備整體表現(xiàn)。
上一篇:優(yōu)派4K電競(jìng)顯示器XG320U 驚艷來襲,帶你披荊斬棘!
下一篇:TWS耳機(jī)通話降噪中的技術(shù)
推薦閱讀
史海拾趣
- 潤(rùn)石科技推出RS3215-Q1系列低壓差線性穩(wěn)壓器
- CANape 23開啟智能測(cè)試新時(shí)代(下)
- 軟件定義汽車電源管理設(shè)計(jì):NXP的PMIC選型攻略解析
- 深度測(cè)評(píng)時(shí)空壺X1同聲傳譯器:全球最先進(jìn)AI同傳設(shè)備的非凡實(shí)力
- 鐵威馬F6-424 Max:六盤位擴(kuò)容+國(guó)產(chǎn)系統(tǒng)兼容,小白也能玩轉(zhuǎn)NAS
- 開關(guān)電源給鉛酸電池恒流恒壓充電的電流跳動(dòng)問題解析
- 自動(dòng)駕駛中的激光雷達(dá)是否會(huì)傷害攝像頭?
- AI/ML賦能的玻璃破碎傳感器:智能家居安防的新突破
- 觸覺技術(shù)助力企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出
- 蘋果被判侵犯3G專利,需向西班牙公司TOT賠償1.1億美元
- 從設(shè)計(jì)概念到 FPGA 原型僅需數(shù)分鐘,印度 InCore 完成 SoC Generator 平臺(tái)硅驗(yàn)證
- 消息稱因難尋客戶,三星推遲美國(guó)芯片工廠的完工時(shí)間
- BOE(京東方)聯(lián)合榮耀打造榮耀Magic V5 以領(lǐng)先LTPO技術(shù)打造行業(yè)新標(biāo)桿
- 華為ADS 4發(fā)布:多傳感器融合,提升自動(dòng)駕駛安全性
- 曉鶯說:線控制動(dòng)變革風(fēng)云
- 大眾商用車推出AirConsole 將其信息娛樂系統(tǒng)擴(kuò)展為游戲機(jī)
- 福州大學(xué)發(fā)明新機(jī)器視覺傳感器 可使機(jī)器人對(duì)極端光照做出超快反應(yīng)
- 蘋果獲沉浸式虛擬顯示器相關(guān)的專利
- 英特爾汽車“折戟”,十年布局一夜歸零
- 我用wince4.2 EVC4.0開發(fā)了一個(gè)應(yīng)用軟件,出現(xiàn)異常,請(qǐng)高手指教
- 請(qǐng)問版主:怎樣調(diào)節(jié)基本定時(shí)1ms與寫EEPROM之間的沖突?
- 關(guān)於捕獲資料與UART
- 最后1天,中獎(jiǎng)率74%:看“避免常見的 AC-DC 設(shè)計(jì)缺陷”視頻,抽好禮
- 2407中斷中,LACC PIVR,1為什么要左移位啊
- 串口波特率選擇
- 阿牛哥參加儀器儀表學(xué)術(shù)會(huì)議暨展覽會(huì)見聞
- CCS6的beta版本開始提供下載
- 【平頭哥RVB2601創(chuàng)意應(yīng)用開發(fā)】移動(dòng)modbus主站
- FPGA與CPLD從業(yè)經(jīng)歷調(diào)查?