你的位置:首頁(yè) > 傳感技術(shù) > 正文

新一代語(yǔ)音識別:可徹底改變車(chē)內體驗的技術(shù),來(lái)了解一下!

發(fā)布時(shí)間:2024-04-01 來(lái)源:貿澤電子 責任編輯:lina

【導讀】語(yǔ)音識別是設備對語(yǔ)音命令做出響應的能力,它實(shí)現了對各種設備的免提控制。該技術(shù)最早的應用是自動(dòng)電話(huà)系統和醫療聽(tīng)寫(xiě)軟件?,F在,在汽車(chē)和智能手機中語(yǔ)音識別技術(shù)有了更廣泛的應用,比如蘋(píng)果的Siri和特斯拉汽車(chē)中的語(yǔ)音命令都采用了先進(jìn)的語(yǔ)音識別技術(shù)。


語(yǔ)音識別是設備對語(yǔ)音命令做出響應的能力,它實(shí)現了對各種設備的免提控制。該技術(shù)最早的應用是自動(dòng)電話(huà)系統和醫療聽(tīng)寫(xiě)軟件?,F在,在汽車(chē)和智能手機中語(yǔ)音識別技術(shù)有了更廣泛的應用,比如蘋(píng)果的Siri和特斯拉汽車(chē)中的語(yǔ)音命令都采用了先進(jìn)的語(yǔ)音識別技術(shù)。


在汽車(chē)中,語(yǔ)音助手的非常大好處是,它可以讓駕駛員的眼睛始終盯著(zhù)道路,而手一直放在方向盤(pán)上,同時(shí)還能獲得安全且免提的車(chē)內體驗,包括接打電話(huà)、選擇電臺、設置導航或播放音樂(lè )等?,F在,車(chē)載語(yǔ)音助手已成為大多數車(chē)輛的標準功能。


汽車(chē)語(yǔ)音助手的興起


汽車(chē)語(yǔ)音助手是一種語(yǔ)音識別控制系統,它允許駕駛員用語(yǔ)音控制車(chē)輛的功能和特征,比如用于車(chē)輛的氣候控制、娛樂(lè )設置、導航和其他功能,還可用于免提通話(huà)和發(fā)送短信。


本田是最早在汽車(chē)中使用語(yǔ)音識別技術(shù)的汽車(chē)制造商之一,該公司于2004年提供了一種語(yǔ)音導航系統,主要用于音頻、DVD和車(chē)內環(huán)境控制的語(yǔ)音命令和控制功能。隨著(zhù)時(shí)間的推移,汽車(chē)中的語(yǔ)音識別技術(shù)有了較大改進(jìn),如今,汽車(chē)中的語(yǔ)音識別技術(shù)已經(jīng)能夠準確解釋駕駛員的命令并執行較復雜的操作。 


早在2022年3月,大眾汽車(chē)就已選擇將Cerence公司的語(yǔ)音AI Cerence Drive 2.0系統集成到大眾高爾夫8 GTI中,所使用的Cerence Drive 2.0系統于2021年推出,它將自然語(yǔ)言理解和文本到語(yǔ)音技術(shù)等功能整合到一個(gè)堆棧中,使得汽車(chē)語(yǔ)音識別系統有了較高的響應速度。Siri、Alexa、Maluuba和Cotana等虛擬語(yǔ)音助手的日益普及,為我們的生活提供了便利,人們也因此更加習慣通過(guò)語(yǔ)音進(jìn)行車(chē)內控制的各種新興應用。自動(dòng)駕駛汽車(chē)的出現更是有力推動(dòng)了汽車(chē)語(yǔ)音識別系統的發(fā)展。


根據Precedence research的數據,2023年,全球汽車(chē)語(yǔ)音識別系統市場(chǎng)價(jià)值為28.9億美元,預計到2032年將超過(guò)約111.7億美元,在2023年至2032年的預測期內,復合年增長(cháng)率將達到16.20%。


目前,語(yǔ)音識別系統市場(chǎng)的市場(chǎng)參與者正在大力投資生物識別和人工智能技術(shù),在未來(lái)幾年將為汽車(chē)識別系統市場(chǎng)提供更多增長(cháng)機會(huì )。


新一代語(yǔ)音識別:可徹底改變車(chē)內體驗的技術(shù),來(lái)了解一下!

2022年至2032年汽車(chē)語(yǔ)音識別系統市場(chǎng)發(fā)展趨勢
(圖源:Precedence research)


來(lái)自Vynz research的分析結果表明,2023年,汽車(chē)語(yǔ)音識別市場(chǎng)的價(jià)值為28.1億美元,預計到2030年將達到68.7億美元,在2025年至2030年的預測期內的復合年增長(cháng)率為16.41%。


兩家機構的預測數據非常接近,從中我們也可以看出整個(gè)行業(yè)對汽車(chē)語(yǔ)音識別市場(chǎng)抱有的良好預期。


汽車(chē)創(chuàng )新中的語(yǔ)音識別技術(shù)


近年來(lái),語(yǔ)音識別技術(shù)徹底改變了消費者與汽車(chē)的互動(dòng)方式,從個(gè)性化的語(yǔ)音交互到提高安全性和整體用戶(hù)體驗的免提操作,語(yǔ)音技術(shù)已成為推動(dòng)汽車(chē)創(chuàng )新的催化劑。


特斯拉(Tesla)基于上下文的語(yǔ)音命令的實(shí)現代表著(zhù)汽車(chē)語(yǔ)音識別技術(shù)在應用上有了重大突破,這項技術(shù)可以讓用戶(hù)更直觀(guān)地與他們的Tesla汽車(chē)進(jìn)行互動(dòng)。


例如,用戶(hù)可以直接說(shuō)出自己的目的地,車(chē)輛就會(huì )為你規劃出行車(chē)路線(xiàn)圖,簡(jiǎn)化了導航過(guò)程。此外,該系統還能夠理解先前命令的上下文,具備復雜的自然語(yǔ)言理解能力,比如通過(guò)語(yǔ)音調整車(chē)內溫度設置。這一能力展現出增強車(chē)載語(yǔ)音控制系統的潛力,也證明了投資先進(jìn)語(yǔ)音識別技術(shù)的重要性。


對于車(chē)載語(yǔ)音助手來(lái)說(shuō),獲得準確而清晰的語(yǔ)音信號始終是一個(gè)重大挑戰。道路和風(fēng)噪以及多個(gè)人使用語(yǔ)音設備可能會(huì )干擾語(yǔ)音識別的準確率。目前的車(chē)載語(yǔ)音識別系統大多使用了波束成形技術(shù),該技術(shù)使用一維“到達方向”參數對聲音場(chǎng)景進(jìn)行建模。


然而,在汽車(chē)等封閉空間中,聲波往往會(huì )從窗戶(hù)和面板上反彈,因此,在建模之前還需要部署一個(gè)麥克風(fēng)陣列用來(lái)接收從數百個(gè)方向到達的語(yǔ)音信號。如今,語(yǔ)音識別的準確性已經(jīng)顯著(zhù)提高,在包含數萬(wàn)個(gè)單詞的詞匯表中,錯誤率可降至5%左右。

語(yǔ)音控制為控制現代汽車(chē)上復雜人機接口(HMI)功能提供了一種安全方便的解決方案。開(kāi)發(fā)人員利用機器學(xué)習 (ML) 和語(yǔ)音建模的強大功能,使用定制命令和多個(gè)喚醒詞將本地語(yǔ)音控制功能添加到汽車(chē)語(yǔ)音助手等應用中。


NXP擁有一系列語(yǔ)音控制和通信軟件和系統解決方案,為人對人和人對機器的語(yǔ)音應用提供高質(zhì)量、可靠的嵌入式語(yǔ)音處理。其產(chǎn)品組合中的新成員——智能語(yǔ)音技術(shù) (VIT),是一種全面的先進(jìn)語(yǔ)音控制軟件解決方案,可作為MCUXpresso軟件開(kāi)發(fā)套件 (SDK) 中的現成軟件庫。VIT軟件基于先進(jìn)的深度學(xué)習和語(yǔ)音識別技術(shù),提供了完整的遠場(chǎng)音頻前端(AFE),支持多達三個(gè)麥克風(fēng)、一個(gè)始終開(kāi)啟的喚醒詞引擎和一個(gè)語(yǔ)音命令引擎,以及生成客戶(hù)定義的喚醒詞和語(yǔ)音命令模型的在線(xiàn)工具。


如前所述,實(shí)現可靠的設備端語(yǔ)音控制并不是一件容易的事,開(kāi)發(fā)人員還需要選擇高性能信號處理硬件平臺以及相應的語(yǔ)音處理軟件,包括AFE波束成形器、單獨的喚醒詞引擎和語(yǔ)音命令引擎等。VIT軟件可在基于A(yíng)rm Cortex-M7和M33、Cadence Xtensa HiFi4和Fusion F1內核的NXP i.MX邊緣處理平臺上使用。目前,支持VIT的i.MX 跨界MCU平臺包括:


?  i.MX RT500 MCU(配備M33、DSP和GPU內核)

?  i.MX RT600 MCU(配備M33和DSP內核)

?  i.MX RT1060 MCU(配備M7內核)

?  i.MX RT1160 MCU(配備M7和M4內核)

?  i.MX RT1170 MCU,搭載1 GHz MCU(配備M7和M4內核)


其中,i.MX RT500跨界MCU是雙核微控制器,采用Arm Cortex-M33核和Cadence Xtensa Fusion F1 DSP,專(zhuān)為低功耗應用而設計。i.MX RT500 Cortex-M33內核的運行頻率高達275MHz,包括兩個(gè)協(xié)處理器,可提供更高的性能。Fusion DSP的運行頻率高達275MHz。該系列提供豐富的外設、嵌入式安全性和超低功耗,具有高達5MB SRAM和兩個(gè)FlexSPI,每個(gè)FlexSPI具有32KB緩存。


另一款i.MX RT1170跨界MCU集成了Arm Cortex-M7和Arm Cortex-M4內核,具有實(shí)時(shí)性能和高度集成。i.MX RT1170 Cortex-M7的運行頻率高達1GHz,Cortex-M4的運行頻率達到400MHz,同時(shí)具有2MB片上RAM。


這款實(shí)時(shí)MCU提供各種存儲器接口和豐富的連接接口,包括3個(gè)支持TSN/AVB技術(shù)的高速以太網(wǎng)接口以及UART、SPI、I2C、USB和3個(gè)CAN-FD接口。此外,i.MX RT1170還增強了內置安全,包括安全啟動(dòng)和加密引擎。


新一代語(yǔ)音識別:可徹底改變車(chē)內體驗的技術(shù),來(lái)了解一下!

支持VIT軟件的NXP i.MX RT1170跨界MCU系統框圖(圖源:NXP)


汽車(chē)語(yǔ)音識別技術(shù)的四大挑戰


語(yǔ)音識別技術(shù)已經(jīng)存在很長(cháng)時(shí)間了,盡管汽車(chē)語(yǔ)音助手的受歡迎程度穩步上升,但在實(shí)施和開(kāi)發(fā)語(yǔ)音識別技術(shù)時(shí)我們很可能遇到以下四個(gè)挑戰:


1. 準確性的挑戰


語(yǔ)音識別系統(SRS)的準確性必須很高才具有實(shí)用和商業(yè)價(jià)值。根據近期的一項調查,73%的受訪(fǎng)者聲稱(chēng)準確性不高是采用語(yǔ)音識別技術(shù)的主要障礙。在試圖提高語(yǔ)音識別模型的準確性時(shí),背景噪聲帶來(lái)的影響非常大。

解決方法可以從三個(gè)方面入手:一是在開(kāi)發(fā)模型之前了解用戶(hù)的使用環(huán)境,然后選擇一個(gè)聲源方向性好的麥克風(fēng);二是利用線(xiàn)性降噪濾波器如高斯濾波器來(lái)平抑噪聲;三是構建一個(gè)去噪算法,以便在輸入/輸出聲音時(shí)對信號進(jìn)行平滑處理。

2. 語(yǔ)言、口音和方言覆蓋率的挑戰


目前,沒(méi)有一種SRS可以覆蓋所有的語(yǔ)言、方言和口音??朔@一挑戰的一個(gè)有效方法是擴展數據集。只有足夠多的數據集才能為SRS提供AI/ML模型訓練。


3. 數據隱私和安全的挑戰


人的語(yǔ)音記錄可以被用作他們的生物特征數據。因此,許多人對使用語(yǔ)音識別技術(shù)持猶豫不決的態(tài)度。這個(gè)問(wèn)題目前沒(méi)有更好的解決辦法,企業(yè)唯一能做的就是盡可能保持應用的透明度,并允許用戶(hù)通過(guò)設置選項來(lái)限制數據收集。


4. 成本和部署的挑戰


開(kāi)發(fā)和實(shí)施SRS是一個(gè)成本高昂且持續不斷的過(guò)程。如果SRS需要覆蓋各種語(yǔ)言、口音和方言,則需要訓練一個(gè)大型數據集。在此過(guò)程中,數據收集過(guò)程需要大量的資金,訓練模型需要有強大的算力支持,高質(zhì)量的麥克風(fēng)價(jià)格非常昂貴。隨著(zhù)汽車(chē)語(yǔ)音識別系統市場(chǎng)需求的不斷上升,預計語(yǔ)音識別系統的價(jià)格在未來(lái)會(huì )逐步下降。


未來(lái)展望


Capgemini Research Institute 的研究數據顯示,2022年,77%的消費者使用了汽車(chē)語(yǔ)音助手進(jìn)行娛樂(lè )和導航,超過(guò)60%在駕駛時(shí)使用過(guò)語(yǔ)音助手的人在購買(mǎi)決策中考慮了汽車(chē)語(yǔ)音助手的可用性。


語(yǔ)音人工智能(AI)的崛起使得汽車(chē)變得更加自主、更加個(gè)性化,消費者對使用語(yǔ)音人工智能來(lái)提高駕駛體驗的興趣越來(lái)越大。目前,語(yǔ)音控制系統大多是一套基本的命令。當對話(huà)式人工智能出現后,這些系統將能夠理解多種形式的對話(huà),并與用戶(hù)之間開(kāi)展多功能的和自然的互動(dòng)。其中,精確的語(yǔ)音交互技術(shù)將是技術(shù)改進(jìn)的重點(diǎn)。一個(gè)高集成度、功能齊全的汽車(chē)語(yǔ)音助手可以提供準確的語(yǔ)音識別,有助于實(shí)現汽車(chē)語(yǔ)音識別從小眾到廣泛采用的轉變。


將ChatGPT集成到梅賽德斯-奔馳汽車(chē)公司的車(chē)輛中是汽車(chē)行業(yè)使用語(yǔ)音技術(shù)的重大進(jìn)步。數字語(yǔ)音助手為制造商提供了一個(gè)增強用戶(hù)體驗的機會(huì ),并根據駕駛員的要求為新的服務(wù)和收入機會(huì )提供了平臺。預計到2028年,全球銷(xiāo)售的新車(chē)中將有近90%搭載語(yǔ)音助手。


汽車(chē)行業(yè)一直是專(zhuān)利創(chuàng )新的熱土?;ヂ?lián)汽車(chē)的興起、人工智能(AI)、機器學(xué)習(ML)和自然語(yǔ)言處理(NLP)等技術(shù)的日益完善,進(jìn)一步推動(dòng)了汽車(chē)領(lǐng)域的創(chuàng )新活動(dòng)。Global Data在關(guān)于汽車(chē)創(chuàng )新的報告中指出,僅在過(guò)去三年,汽車(chē)行業(yè)就有超過(guò)170萬(wàn)項專(zhuān)利申請和授權。語(yǔ)音技術(shù)的進(jìn)步為汽車(chē)行業(yè)改善用戶(hù)的駕駛體驗開(kāi)辟了新的機會(huì )。從個(gè)性化語(yǔ)音交互到免提操作,語(yǔ)音技術(shù)已成為汽車(chē)創(chuàng )新的關(guān)鍵要素。

文章來(lái)源:貿澤電子

 

免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問(wèn)題,請聯(lián)系小編進(jìn)行處理。


推薦閱讀:

自動(dòng)駕駛車(chē)輛數據的中央集中式處理

意法半導體碳化硅數位電源解決方案被肯微科技采用于服務(wù)器電源供應器設計及應用

開(kāi)展倒計時(shí)8天|CITE2024邀您打卡開(kāi)年深圳首個(gè)電子信息展

低壓MOS在新能源園林機械上的應用

利用雙MOSFET最大限度地提高開(kāi)關(guān)轉換器應用的功率密度和性能


特別推薦
技術(shù)文章更多>>
技術(shù)白皮書(shū)下載更多>>
熱門(mén)搜索
?

關(guān)閉

?

關(guān)閉

久久无码人妻精品一区二区三区_精品少妇人妻av无码中文字幕_98精品国产高清在线看入口_92精品国产自产在线观看481页