日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

芯來科技:以 RISC-V V 擴展加速 AI 推理,開啟嵌入式智能新紀元

2025-07-18 來源:愛集微 原創(chuàng)文章
102

關(guān)鍵詞: 芯來科技 RISC-V V擴展 嵌入式AI Nuclei AI Library BF16擴展

從智能家居到智能交通,從醫(yī)療診斷到工業(yè)自動化,AI 的應用場景不斷拓展,其對算力的需求也日益攀升。然而,在資源受限的嵌入式設(shè)備上實現(xiàn)高效的 AI 推理,一直是困擾業(yè)界的難題。

7月18日,在第五屆RISC-V中國峰會的AI分論壇上,芯來科技嵌入式軟件工程師舒卓發(fā)表演講時介紹了芯來科技是如何通過 RISC-V V擴展技術(shù),為這一難題提供了一套創(chuàng)新且高效的解決方案,為嵌入式 AI 的發(fā)展注入了強勁動力。

背景:嵌入式 AI 的挑戰(zhàn)與機遇

隨著 AI 技術(shù)的飛速發(fā)展,其應用范圍逐漸從云端服務器向邊緣設(shè)備和嵌入式系統(tǒng)延伸。嵌入式設(shè)備以其低功耗、高性能、高集成度等特性,在物聯(lián)網(wǎng)、智能穿戴、工業(yè)控制等領(lǐng)域展現(xiàn)出巨大的應用潛力。然而,嵌入式設(shè)備的硬件資源相對有限,其算力難以滿足復雜 AI 模型的直接運行需求。因此,嵌入式 AI 通常采用“訓練 - 推理分離”的模式,即在服務器上完成模型的訓練,然后將訓練好的模型部署到嵌入式設(shè)備上進行推理運算。

舒卓指出,在硬件架構(gòu)方面,嵌入式 AI 系統(tǒng)多采用“通用 + 專用”的架構(gòu)組合。專用架構(gòu)如專用的 DSA(Domain - Specific Architecture)或 NPU(Neural Processing Unit),它們針對特定的 AI 算法進行了優(yōu)化,能夠提供強大的算力支持,但靈活性較差,難以適應算法的快速迭代。而通用架構(gòu)則以 RISC-V V 擴展為代表,它能夠隨著算子的演進而不斷升級,為嵌入式設(shè)備提供了更為靈活的 AI 加速方案。

Nuclei AI Library:為 VPU 加速賦能

在這樣的行業(yè)背景下,芯來科技推出了 Nuclei AI Library,旨在為開發(fā)者提供一套基于 RISC-V V 擴展的高效 AI 算子優(yōu)化庫。Nuclei AI Library 的出現(xiàn),正是為了填補 NPU 在某些場景下無法滿足需求的空白,為嵌入式設(shè)備上的 AI 推理提供更強大的支持。

Nuclei AI Library 對常見的 AI 算子進行了深度優(yōu)化,覆蓋了 int8、int16、fp16、bf16、fp32 等多種數(shù)據(jù)格式,能夠滿足不同精度要求的 AI 應用場景。無論是矩陣運算、卷積操作,還是激活函數(shù)等,這些經(jīng)過優(yōu)化的算子都能在 RISC-V VPU(Vector Processing Unit)上實現(xiàn)高效的運行。而且,該庫還提供了對不同運行環(huán)境的支持,包括裸機、RTOS(Real - Time Operating System)以及 Linux 環(huán)境,極大地增強了其在實際應用中的適用性。

在實際的性能測試中,Nuclei AI Library 的表現(xiàn)令人矚目。以 GEMM(General Matrix Multiply,通用矩陣乘)算子為例,這是 AI 模型中算力占比極高的一個算子。通過采用一系列優(yōu)化策略,如避免使用效率較低的 Reduction 指令、充分“榨取”已加載的數(shù)據(jù)以減少 Load 操作、盡量用滿 V 數(shù)據(jù)寄存器等,Nuclei AI Library 在 Nuclei nx900fdv 上對 GEMM 算子進行了優(yōu)化,實測結(jié)果顯示其性能提升倍數(shù)顯著,為嵌入式設(shè)備上的矩陣運算帶來了質(zhì)的飛躍。

對于 CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))中占比極高的 CON2D(二維卷積)算子,Nuclei AI Library 同樣提供了高效的優(yōu)化方案。目前常用的優(yōu)化方法有兩種:一種是使用 Im2col + GEMM,另一種是使用 Winograd + GEMM 加速小尺寸卷積核。這兩種方法的核心都是將復雜的卷積運算轉(zhuǎn)化為矩陣乘法運算,從而充分利用矩陣運算的高效性。在 Nuclei nx900fdv 上的測試數(shù)據(jù)表明,經(jīng)過 V 擴展優(yōu)化后的 CON2D 算子性能得到了大幅提升,為嵌入式設(shè)備上 CNN 網(wǎng)絡(luò)的推理運算提供了有力支持。

Nuclei BF16 擴展:提升 AI 計算效率的利器

除了對常見 AI 算子的優(yōu)化,芯來科技還針對當前 AI 領(lǐng)域?qū)τ嬎阈屎途鹊碾p重需求,推出了 Nuclei BF16 擴展。BF16(Brain Floating - Point 16)是由 Google 提出的一種數(shù)值格式,它保留了與 FP32(32 位浮點數(shù))相同的 8 位指數(shù)寬度,從而具有與 FP32 相同的動態(tài)范圍,但在精度上略低于 FP32。然而,在許多深度學習應用場景中,這種精度的降低對最終結(jié)果的影響微乎其微,而 BF16 的位寬減半?yún)s能顯著提高內(nèi)存帶寬利用率,若再配合 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令優(yōu)化,計算效率可成倍提升。

RISC-V 官方目前定義了基本的 BF16 轉(zhuǎn)換指令和向量乘加指令(zvfbfmin 擴展),但這種方式存在一定的局限性,即需要將 BF16 轉(zhuǎn)換為 FP32 后才能進行其他計算,這無疑降低了計算效率和帶寬利用率。針對這一問題,芯來科技通過硬件與工具鏈的協(xié)同優(yōu)化,提出了 Nuclei BF16 擴展。該擴展兼容官方 BF16 指令,自定義了 BF16 rvv intrinsic function,生成與 FP16 相同的指令,并通過設(shè)置不同的寄存器值來切換硬件行為,從而避免了不必要的轉(zhuǎn)換,充分發(fā)揮了 BF16 的算力優(yōu)勢。

Nuclei BF16 擴展具有諸多顯著特點。首先,它生成的 BF16 指令與 F16 保持一致,通過 CSR(Control and Status Register,控制狀態(tài)寄存器)寄存器配置來動態(tài)決定硬件處理行為,這種靈活的配置方式使得硬件能夠根據(jù)不同的應用場景靈活切換運算模式。其次,Nuclei BF16 擴展提供了專用 intrinsic API,完整支持 BF16 標量和向量運算,為開發(fā)者提供了強大的工具,使其能夠充分利用 BF16 的高效計算能力。實際測試結(jié)果表明,采用 Nuclei BF16 擴展的方案相比官方 zvfbfmin 擴展,性能提升可達 1 倍以上,這一顯著的性能提升無疑為 AI 應用在嵌入式設(shè)備上的高效運行提供了有力保障。

Nuclei 矩陣擴展:定制化指令助力性能飛躍

在 AI 應用中,矩陣運算是最為基礎(chǔ)且頻繁的操作之一,其性能的優(yōu)劣直接關(guān)系到整個 AI 系統(tǒng)的運行效率。舒卓表示,為了進一步提升矩陣計算性能,芯來科技在 Nuclei GCC(GNU Compiler Collection)工具鏈中引入了定制化的 VPU 擴展 Xxlvqmacc。該擴展遵循 IME(Instruction - set Meta - Architecture,指令集元架構(gòu))group 規(guī)范設(shè)計,實現(xiàn)了高效的整數(shù)矩陣乘加指令,并提供了相應的 intrinsic functions,以方便開發(fā)者在實際編程中使用。

Xxlvqmacc 擴展支持 8 位整數(shù)輸入值擴展至 32 位精度,這對于需要高精度計算的 AI 應用場景具有重要意義。通過這種擴展,開發(fā)者可以在保持較低存儲和傳輸帶寬需求的同時,獲得更高的計算精度,從而在嵌入式設(shè)備上實現(xiàn)更為復雜的 AI 算法。例如,在進行矩陣乘法運算時,傳統(tǒng)的實現(xiàn)方式需要多層循環(huán)嵌套,逐個元素進行計算,這種方式在嵌入式設(shè)備上效率較低。而借助 Xxlvqmacc 擴展,開發(fā)者可以利用向量化的指令,一次性處理多個數(shù)據(jù),大大減少了循環(huán)迭代次數(shù),顯著提高了運算速度。

結(jié)語:引領(lǐng)嵌入式 AI 發(fā)展潮流

芯來科技通過 RISC-V V 擴展技術(shù)在 AI 推理領(lǐng)域的創(chuàng)新應用,成功地為嵌入式設(shè)備上的 AI 運算帶來了前所未有的性能提升。Nuclei AI Library 為開發(fā)者提供了豐富的優(yōu)化算子,涵蓋了多種數(shù)據(jù)格式和運行環(huán)境,極大地簡化了開發(fā)流程,降低了開發(fā)門檻;Nuclei BF16 擴展則針對 AI 領(lǐng)域?qū)τ嬎阈屎途鹊奶厥庑枨?,提出了高效的解決方案,顯著提高了 BF16 格式的計算性能;而 Nuclei 矩陣擴展更是從底層硬件指令層面出發(fā),為矩陣運算這一 AI 核心操作提供了強大的支持。

在未來的智能時代,隨著 AI 技術(shù)的不斷深化和應用場景的持續(xù)拓展,嵌入式設(shè)備上的 AI 推理將扮演越來越重要的角色。芯來科技憑借其在 RISC-V V 擴展領(lǐng)域的深厚技術(shù)積累和持續(xù)創(chuàng)新能力,將繼續(xù)引領(lǐng)嵌入式 AI 的發(fā)展潮流,助力各行業(yè)實現(xiàn)智能化升級,為人們的生活和工作帶來更多的便利和可能性。