【導讀】現代社會(huì )的各個(gè)方面都需要先進(jìn)的人工智能(AI)來(lái)處理,例如對周?chē)h(huán)境的識別、行動(dòng)決策和運動(dòng)控制,這包括工廠(chǎng)、物流、醫療、城市中的服務(wù)機器人以及安全攝像頭等應用場(chǎng)景。然而,要在邊緣端實(shí)現人工智能,我們需要克服兩大挑戰:功耗和靈活性。
現代社會(huì )的各個(gè)方面都需要先進(jìn)的人工智能(AI)來(lái)處理,例如對周?chē)h(huán)境的識別、行動(dòng)決策和運動(dòng)控制,這包括工廠(chǎng)、物流、醫療、城市中的服務(wù)機器人以及安全攝像頭等應用場(chǎng)景。然而,要在邊緣端實(shí)現人工智能,我們需要克服兩大挑戰:功耗和靈活性。
在云端,我們可以配備足夠的電源和冷卻機制來(lái)支持復雜的AI模型,但邊緣端的設備往往限制了功耗,這可能導致運行時(shí)間的縮短和成本的增加。此外,隨著(zhù)AI模型不斷發(fā)展,專(zhuān)用的AI加速硬件很快就會(huì )過(guò)時(shí),這意味著(zhù)我們需要一種更靈活的解決方案來(lái)支持新開(kāi)發(fā)的AI模型。因此,嵌入式端的AI加速成為一個(gè)重要的解決方案,它可以在邊緣設備上實(shí)現AI任務(wù)的高效執行,并為新的AI模型提供靈活性和支持。
為了滿(mǎn)足市場(chǎng)需求,瑞薩自主研發(fā)了用于A(yíng)I加速的處理器DRP-AI(Dynamically Reconfigurable Processor for AI人工智能動(dòng)態(tài)可配置處理器),該處理器集成與RZ/V系列芯片中。
DRP-AI處理器具備邊緣端設備所需的低功耗和靈活性,經(jīng)過(guò)多年技術(shù)迭代已發(fā)展到第三代,實(shí)現了比上一代高約10倍的能效。DRP-AI3(集成與RZ/V2H)能夠適應AI的進(jìn)一步發(fā)展和高性能機器人等應用的復雜要求。
DRP-AI3解決了低功耗挑戰,并實(shí)現了高實(shí)時(shí)處理。它為具有AI能力的產(chǎn)品提供了更高性能和更低功耗。接下來(lái),我們將深入了解DRP-AI3是如何實(shí)現這些目標的。
軟、硬結合系統性地實(shí)現AI模型的高速和低功耗
量化
從傳統的16位浮點(diǎn)運算更改為8位整數運算(INT8)。該方法也是現在比較流行的一種運算處理方式。
修剪
采用靈活的N:M修剪方法
N:M技術(shù)的基本概念是將原始權重矩陣劃分為M行的權重矩陣組,并將其重構為較小的N行權重矩陣組。在每組中,只提取有效權重,然后對新的權重矩陣組進(jìn)行并行運算。DRP-AI3引入了一個(gè)新功能,它可以通過(guò)自由切換每個(gè)權重矩陣組的N值來(lái)調整運算周期的數量,從而可以在實(shí)際的AI模型中對局部變化的修剪率執行最優(yōu)的運算處理。這種精細改變N的能力還允許詳細設置整個(gè)權重矩陣的修剪率,根據用戶(hù)對功耗、操作速度和識別精度的要求進(jìn)行最佳的修剪處理。
AI系統架構實(shí)現高功效
通過(guò)數據重用技術(shù)減少外部存儲器通信
DRP-AI采用了一種有效地重用一次輸入到AI-MAC的技術(shù)。例如,在3x3濾波器的卷積運算中,一個(gè)數據像素用于九個(gè)濾波器運算。im2col被廣泛用作GPU中的高度并行運算方法,它以矩陣運算的順序擴展所有圖像數據作為輸入到GPU的預處理步驟。然而,這會(huì )導致一個(gè)像素的數據信息出現九次,數據的數量增加了九倍,進(jìn)而增加了功耗和通信帶寬的消耗。相比之下,AI-MAC可以通過(guò)將取入與MAC算術(shù)單元相對應的寄存器中的數據移位到相鄰寄存器來(lái)重用數據,從而避免了重復存儲和傳輸數據,減少了功耗和通信帶寬的消耗。
通過(guò)采用如下圖所示的配置,與GPU相比,從外部存儲器和內部緩沖器到AI-MAC的數據加載的數量可以減少多達九倍。這種優(yōu)化方案顯著(zhù)降低了數據移動(dòng)所需的功率和通信帶寬消耗。此外,AI-MAC不僅可以對輸入數據進(jìn)行重用,還可以對輸出和權重信息進(jìn)行重用,從而將對外部存儲器的訪(fǎng)問(wèn)減少了一個(gè)數量級以上。
使用輸入的零數據控制功耗
人工智能模型計算的一個(gè)特點(diǎn)是每一層的權重數據和輸入/輸出數據中“零”值的比例很高,這被稱(chēng)為稀疏化。例如,在圖像識別模型中,所有層50%以上的輸入和輸出數據平均為零值。這主要是因為許多人工智能模型使用激活函數(如ReLU),該函數會(huì )將乘積和運算的所有負結果替換為零。在DRP-AI中,通過(guò)引入切換技術(shù)來(lái)減少不必要的計算能力。該切換技術(shù)預先檢測何時(shí)在操作的每個(gè)元素輸入中輸入零,并防止不必要的操作。
操作調度流程
除了數據重用技術(shù)之外,優(yōu)化外部數據訪(fǎng)問(wèn)或MAC處理等操作的順序和定時(shí)對于有效的AI執行至關(guān)重要。換句話(huà)說(shuō),調度操作流程可以最大化DRP-AI的性能。
例如,通過(guò)調度外部存儲器訪(fǎng)問(wèn)定時(shí),可以在A(yíng)I-MAC操作期間提前讀取下一操作的權重信息并將其存儲在緩沖器中,從而防止和減少外部存儲器訪(fǎng)問(wèn)延遲。這種方式也可應用于內部存儲器訪(fǎng)問(wèn)和任何內部算術(shù)處理的定時(shí)中,調度可以避免每個(gè)處理之間不必要的等待時(shí)間和功耗的產(chǎn)生。由于DRP-AI工具自動(dòng)生成這種優(yōu)化的調度,用戶(hù)能夠輕松應對。
瑞薩開(kāi)發(fā)的DRP-AI3(人工智能動(dòng)態(tài)可重構處理器)是一種獨特的AI加速器。它將嵌入式端所需的低功耗和靈活性與人工智能模型輕量級的處理能力相結合,相較于以前的模型,DRP-AI3的能效提高了10倍(10 TOPS/W)。
瑞薩將繼續擴大研發(fā)RZ/V系列,以提供更多配備這種卓越AI加速器的MPU產(chǎn)品。
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問(wèn)題,請聯(lián)系小編進(jìn)行處理。
推薦閱讀:
參觀(guān)2024 MWC上海,與意法半導體一起探索連接的力量
西部電博會(huì )開(kāi)展倒計時(shí)!觀(guān)眾預登記火熱進(jìn)行中!
汽車(chē)電氣化革命:高效電流傳感器與智能控制器解決方案