你的位置:首頁(yè) > 傳感技術(shù) > 正文

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位就可搞定!

發(fā)布時(shí)間:2015-05-13 責任編輯:echolady

【導讀】本文主要介紹MEMS麥克風(fēng)陣列所需的硬件架構,利用MEMS麥克風(fēng)陣列定位并識別音頻和語(yǔ)音信源。自從微機電系統的麥克風(fēng)陣列的出世,麥克風(fēng)音頻定位就引起各界關(guān)注。

目前業(yè)界正在使用MEMS麥克風(fēng)陣列子系統開(kāi)發(fā)嵌入式音頻定位、自動(dòng)語(yǔ)音識別和自動(dòng)說(shuō)話(huà)人識別解決方案,聲音識別定位是我們識別確認他人身份的基本功能,當我們聽(tīng)到有人講話(huà)時(shí),會(huì )將頭轉向說(shuō)話(huà)人,查看說(shuō)話(huà)人。

音源定位是自動(dòng)語(yǔ)音識別和自動(dòng)說(shuō)話(huà)人識別系統的一個(gè)重要環(huán)節,對于提高語(yǔ)音識別系統的性能至關(guān)重要。麥克風(fēng)陣列可捕捉從不同方向傳來(lái)的聲音,通過(guò)算法運算使麥克風(fēng)指向某一個(gè)特定方向,放大從該方向捕捉到的音頻信號,同時(shí)衰減從其它方向捕捉的音頻信號,整個(gè)動(dòng)作就像一個(gè)智能麥克風(fēng)。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖1:綜合利用麥克風(fēng)音源互相關(guān)性(CC)、相變(PHAT)和最大相似性處理(ML)技術(shù)的音源定位

系統框架

整個(gè)系統由以下幾個(gè)子系統組成:音源方向測定、數據融合、自動(dòng)語(yǔ)音識別和自動(dòng)說(shuō)話(huà)人確認。其中,音頻方向測定子系統基于麥克風(fēng)陣列,運行三個(gè)不同的音頻方向估算算法;數據融合子系統負責推斷方向,自動(dòng)語(yǔ)音識別子系統利用傳入的音頻信號增強主音源信號強度,衰減主音源周?chē)钠渌纛l信號。最后,自動(dòng)說(shuō)話(huà)人確認子系統識別某些關(guān)鍵詞匯,再利用相關(guān)特征與說(shuō)話(huà)人匹配。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖2.系統框架(注:Secondary speaker:副揚聲器;primary speaker:主揚聲器;mic array:麥克風(fēng)陣列;data fusion:數據融合)

如果語(yǔ)音識別任務(wù)沒(méi)有成功,則反饋給數據融合系統,估算新方向傳入的語(yǔ)音,然后驅動(dòng)麥克風(fēng)陣列指向該方向。
[page]
語(yǔ)音識別和說(shuō)話(huà)人識別

語(yǔ)音特征提取(27 LPC-倒普系數)需要確定語(yǔ)音的端點(diǎn),將語(yǔ)音分成數個(gè)短禎(每禎20 ms),通過(guò)一個(gè)DTW模式對準算法與一組參考語(yǔ)音(模板)匹配。然后,應用歐氏距離測量法進(jìn)行相似性評估。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖3. 特征提取、模式匹配和評分是說(shuō)話(huà)人語(yǔ)音識別確認任務(wù)的主要環(huán)節

說(shuō)話(huà)人身份評分采用的是動(dòng)態(tài)時(shí)間規整近鄰(DTW-KNN)算法的距離測量方法,即動(dòng)態(tài)時(shí)間規整測量算法與近鄰決策算法的合并算法。這個(gè)算法需要使用均方根、過(guò)零率、自動(dòng)相關(guān)和倒普線(xiàn)性預測系數。使用歐氏距離算法計算成本函數,使用KNN 算法計算最小距離匹配度 k。

MEMS麥克風(fēng)陣列

我們采用STM32F4微控制器和MEMS麥克風(fēng)開(kāi)發(fā)一個(gè)硬件音頻信號同步采集處理子系統,其信號捕捉能力相當于8個(gè)采樣率高達48 KHz的麥克風(fēng) 。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖4.采用STM32F4微控制器和MEMS麥克風(fēng)的硬件音頻信號同步采集處理子系統

MEMS技術(shù)

MEMS技術(shù)的主要特性是在能夠同一芯片表面集成微電子和微機械單元,在同一封裝內整合不同的功能。這樣,過(guò)去分別由傳感器、執行器(例如,射流管理或機械交互)和邏輯、控制單元完成的不同功能,今天可以整合在同一個(gè)封裝內。從生化分析,到慣性系統,從機械傳感器,到音頻和聲波傳感器, MEMS產(chǎn)品覆蓋很多應用領(lǐng)域。

MEMS麥克風(fēng)和音頻編碼

MEMS麥克風(fēng)尺寸雖然比其它技術(shù)麥克風(fēng)小,但是,從物理和機械角度看,卻具備標準駐極體麥克風(fēng)的全部功能,其核心部件是一個(gè)振膜,振膜和固定框架共同組成一個(gè)可變電容器。當聲波引起振膜變形時(shí),電容會(huì )發(fā)生變化,從而導致電壓變化。

被捕捉到的信號的后期處理,即功率放大和模數轉換過(guò)程,都是在同一芯片上完成,因此,麥克風(fēng)輸出是高頻PDM信號。在脈沖密度調制過(guò)程,邏輯1對應一個(gè)正 (+A)脈沖,而邏輯0對應一個(gè)負(-A)脈沖。因此,假設輸入一個(gè)周期的正弦音頻,當輸入電壓在最大正振幅時(shí),輸出為一個(gè)由“1”組成的脈沖序列;當輸入電壓在最大負振幅時(shí),輸出則是一個(gè)由“0”組成的序列。當穿過(guò)0振幅時(shí),聲波在1和0序列之間快速變化。如果方法正確,PDM可通過(guò)數字方法給高品質(zhì)音頻編碼,而且實(shí)現方法簡(jiǎn)易,成本低廉。因此,PDM比特流是MEMS麥克風(fēng)常用的數據輸出格式。

另一方面,PCM是一個(gè)非常著(zhù)名的音頻編碼標準,以相同的間隔對信號振幅定期采樣,在數字步進(jìn)范圍內,每個(gè)采樣被量化至最接近值。決定比特流是否忠實(shí)原模擬信號的是PCM比特流的兩個(gè)基本屬性:采樣率,即每秒采樣次數;位寬,即每個(gè)采樣包含的二進(jìn)制數個(gè)數;通過(guò)降低采樣率(降低十分之一)和提高字長(cháng),可以將PDM編碼信號轉成PCM信號,PDM數據速率與降低十分之一的PCM采樣率的比值被稱(chēng)為降采樣率。因此,對于N:1降采樣率,只要每N個(gè)間隔采樣一次(不考慮剩余的N-1),即可完成降低十分之一的采樣過(guò)程。

麥克風(fēng)陣列

從硬件角度看,這款產(chǎn)品基于STM32F407VGT6高性能微控制器,能夠通過(guò)8個(gè)MEMS麥克風(fēng)采集信號。STM32F4微控制器基于工作頻率最高168 MHz的高性能ARM Cortex-M4 32 RISC處理器內核,集成高速嵌入式存儲器(閃存容量最高1 MB, SRAM容量最高192KB)以及標準和先進(jìn)的通信接口,例如,I2S全雙工接口、SPI、 USB FS/HS和以太網(wǎng)。
麥克風(fēng)陣列通過(guò)RJ45以太風(fēng)接口或USB OTG FS接口連接其它器件,與其它器件交互是通過(guò)可控制基本板設置的DIP開(kāi)關(guān)實(shí)現。

如下圖所示,每個(gè)MEMS麥克風(fēng)都是由同一個(gè)時(shí)鐘源觸發(fā),時(shí)鐘源由專(zhuān)用振蕩器驅動(dòng),對每個(gè)GPIO端口的一個(gè)引腳輸出1位PDM 高頻信號。輸出PDM數據頻率與輸入時(shí)鐘同步,因此,DMA控制器以同一頻率即音頻捕捉頻率對GPIO端口進(jìn)行讀操作,然后將1 ms音頻數據(每次)保存在存儲器緩沖電路。這時(shí),該緩沖器包含麥克風(fēng)交叉信號,然后軟件利用優(yōu)化的快速解碼函數對數據進(jìn)行解復用處理。最后,PDM 數據通過(guò)數字信號處理環(huán)節,再進(jìn)行PDM轉PCM處理。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖5.每個(gè)MEMS麥克風(fēng)都是由同一個(gè)時(shí)鐘源觸發(fā),時(shí)鐘源由專(zhuān)用振蕩器驅動(dòng),對每個(gè)GPIO端口的一個(gè)引腳輸出1位PDM高頻信號

麥克風(fēng)傳來(lái)的PDM信號經(jīng)過(guò)過(guò)濾和十分之一降采樣率處理,以取得所需頻率和分辨率的信號。麥克風(fēng)輸出的PDM數據頻率(麥克風(fēng)的輸入時(shí)鐘)必須是系統最終音頻輸出的倍數,濾波器管道輸出是一個(gè)16位值,我們將 [-32768, 32767]視為一個(gè)單位增益(0 dB)的輸出范圍。

原先濾波管道產(chǎn)生的數字音頻信號在信號調理前被進(jìn)一步處理。管道第一級是一個(gè)高通濾波器,主要用于除掉信號DC失調。為保護信號質(zhì)量,該濾波級是使用一個(gè)截止頻率不在可聽(tīng)頻率范圍內的 IIR濾波器,管道第二級是一個(gè)基于IIR濾波器的低通濾波器。兩個(gè)濾波器有啟用和禁用以及配置功能;可通過(guò)外部整數變量控制增益。

識別音頻和語(yǔ)音信源,利用MEMS麥克風(fēng)定位
圖6.麥克風(fēng)傳來(lái)的 PDM信號經(jīng)過(guò)過(guò)濾和十分之一降采樣率處理,以取得所需頻率和分辨率的信號

如上文所述,數據采集有兩個(gè)比特流解決方案,通過(guò)DP開(kāi)關(guān)選擇用哪一個(gè)方案。當選用 USB且在主機USB插入麥克風(fēng)陣列時(shí),主機將STM32_MEMS_Microphones視為一個(gè)標準的USB音頻設備。因此,主機系統無(wú)需安裝驅動(dòng)軟件。例如, STM32_MEMS_Microphones可直接連接第三方PC音頻采集軟件。當選用以太網(wǎng)時(shí),STM32_MEMS_Microphones發(fā)送RTP數據包。在網(wǎng)絡(luò )服務(wù)器的以太網(wǎng)設置頁(yè)對目的地IP、設備單播地址和采集參數進(jìn)行配置。

結語(yǔ)

音源定位識別是語(yǔ)音識別技術(shù)中的一個(gè)重要的語(yǔ)音預處理環(huán)節,對提高音頻應用和聲控應用性能具有重要意義。音源定位主要用于自動(dòng)語(yǔ)音識別、音頻模式識別、說(shuō)話(huà)人發(fā)現及識別。MEMS技術(shù)的問(wèn)世讓麥克風(fēng)陣列能夠嵌入在上述應用設計中,執行音頻信號預處理過(guò)程,為應用級提供最好的信息。

該嵌入式單個(gè)說(shuō)話(huà)人及其語(yǔ)音定位識別方案基于一個(gè)集成ARM處理器和一組MEMS麥克風(fēng)的原型板。初步測試結果證明了這一集成方案的可行性,且系統級模塊可以做語(yǔ)音、音頻識別目標板,滿(mǎn)足人機、人與周?chē)h(huán)境的自然用戶(hù)界面的功能要求。

相關(guān)閱讀:

通透了解MEMS硅晶振,只需一篇文章即可
MEMS慣性傳感器在工業(yè)控制的未來(lái)之路
技術(shù)圖解MEMS壓力傳感器的原理與應用

要采購麥克風(fēng)么,點(diǎn)這里了解一下價(jià)格!
特別推薦
技術(shù)文章更多>>
技術(shù)白皮書(shū)下載更多>>
熱門(mén)搜索
?

關(guān)閉

?

關(guān)閉

久久无码人妻精品一区二区三区_精品少妇人妻av无码中文字幕_98精品国产高清在线看入口_92精品国产自产在线观看481页