摩爾線程五大硬核實力打造“AI工廠”,為大模型訓練提速
世界人工智能大會(WAIC 2025)前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術分享會,創(chuàng)新性提出“AI工廠”理念,旨在破局生成式AI爆發(fā)的大模型生產效率。
這意味著作為國內領先的GPU廠商,摩爾線程從底層芯片架構創(chuàng)新的單點性技術創(chuàng)新,向集群整體架構的優(yōu)化,再到軟件算法調優(yōu)和資源調度系統(tǒng)的全面升級,也是應對AI時代發(fā)展,模型參數(shù),算力需求進一步挑戰(zhàn)的主動布局。這種全方位的基礎設施變革,將推動AI訓練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產力和創(chuàng)新效率的飛躍。
會上,摩爾線程CEO張建中圍繞“AI工廠”理念,以及摩爾線程在打造AI工廠方面的五大核心能力做了詳細介紹。
整體而言,在摩爾線程定義的以智能作為“產能”的“AI工廠”中,生產效率由五大核心要素決定成功與否:AI工廠生產效率=加速計算通用性*單芯片有效算力*單節(jié)點效率*集群效率*集群穩(wěn)定性,每一個環(huán)節(jié)都要求做到極致。
核心技術一:全功能全精度,實現(xiàn)加速計算通用性
加速計算芯片本身的強大通用性,是打造“AI工廠”的核心基石。
這要求單芯片能夠覆蓋多場景,才能支持多樣化的模型訓練。而這也是摩爾線程從成立之初以來的產品定位“全功能GPU”,在創(chuàng)新MUSA架構的支持下,摩爾線程單GPU芯片可以同時支持AI計算加速、圖形渲染、是物理仿真和科學計算、超高清視頻編解碼的技術能力。
此外,精度完整性也是衡量全功能GPU通用計算能力的核心指標。在計算精度方面,其支持從FP64至INT8的完整精度譜系,是國內極少數(shù)具備FP8大模型訓練平臺的廠商,通過FP8混合精度技術,有效提升訓推一體能力,在主流前沿大模型訓練中實現(xiàn)20%~30%的性能躍升。
核心技術二:自研MUSA架構,提升芯片有效算力
強大的芯片有效算力是作為“AI工廠”的核心競爭力。而作為GPU的 “靈魂”,創(chuàng)新的架構設計往往決定了GPU的計算能力、能效比、適用場景乃至技術上限。
摩爾線程自研的MUSA架構,從設計之初,便完整考慮到面向未來多樣計算場景的需求,通過多引擎可配置統(tǒng)一系統(tǒng)架構,實現(xiàn)一個架構在不同領域的應用,統(tǒng)一編程接口,并著力在計算、內存、通信三個層面實現(xiàn)突破,顯著提升單GPU運算效率。
計算、通信、存儲、指令集之間的相互交接、相互協(xié)調、相互調度的一系列功能需求,要在頂層設計當中完整地考慮進去。
摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構,通過硬件資源池化及動態(tài)資源調度技術,構建了全局共享的計算、內存與通信資源池。這一設計不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。其參數(shù)化配置可伸縮架構允許面向目標市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。
這樣的架構能便于開發(fā)者和用戶在底層直接調用相關引擎,將各種不同的硬件減速流水線pipeline起來,而所有結果共享一個內存和資源池,這是最典型的數(shù)據(jù)驅動、引擎支持和引擎計算的統(tǒng)一系統(tǒng)架構,可以讓工作效率更高。
在性能方面,AI加速系統(tǒng)如何讓性能發(fā)揮得更好,需要有功能定制的核心計算引擎。摩爾線程通過兩套自研的AI計算加速系統(tǒng):張量計算引擎(TCE)、張量訪存引擎(TME),實現(xiàn)對算、存環(huán)節(jié)的針對性管理和調度,更好地發(fā)揮效率。此外,為了使眾多工作、步驟、引擎保持同步不亂、有條不紊,摩爾線程自主設計了引擎異步流水(ATB)。可以把上述工作內容Pipeline起來,且不需要等待。
在計算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內首批實現(xiàn)FP8算力量產的GPU廠商,其FP8技術通過快速格式轉換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。
摩爾線程透露,設計FP8的時候,摩爾線程研發(fā)團隊特別設計了一個FP8的Transformer引擎,專門用于FP8的加速計算。Transformer引擎是摩爾線程平湖架構(第四代GPU架構)中一個核心科技,從而帶來計算性能的顯著提升。
在通信能力方面,摩爾線程獨創(chuàng)ACE(異步通信引擎),減少了15%的計算資源損耗,MTLink2.0互聯(lián)技術提供了高出國內行業(yè)平均水平60%的帶寬。在不同數(shù)據(jù)包的傳送上,Scale-Up效率可以最高提升30%,平均在15%以上。這些功能可以讓GPU之間不同的復雜拓撲結構不受計算環(huán)境的影響,可以實現(xiàn)卡間高效互聯(lián)通信。
在存儲方面,MUSA存儲子系統(tǒng)實現(xiàn)了多維度的升級,通過多精度近存規(guī)約引擎、低延遲Scale-Up內存順序模型、通算并行資源隔離等技術,實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。
核心技術三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點計算效率
對GPU而言,單節(jié)點計算效率不僅依賴硬件算力,更取決于軟件能否讓硬件 “跑滿”—— 避免算力閑置、數(shù)據(jù)傳輸阻塞、算子低效等問題。而MUSA全棧系統(tǒng)軟件的價值,正是通過全鏈路優(yōu)化,通過消除各環(huán)節(jié)的性能損耗、最大化硬件潛力,最終實現(xiàn)單節(jié)點效率的躍升。
主要包括幾點核心要素。
一是GPU驅動任務調度優(yōu)化。Kernel Launch(核函數(shù)啟動)是GPU/加速器計算中的核心調度機制,是指將計算任務從CPU主機傳輸?shù)紾PU設備并執(zhí)行的過程,本質是鏈接軟件指令與硬件算力的橋梁。傳統(tǒng)Kernel Lauch延遲較高,導致GPU在任務空間頻繁空閑,形成計算空洞。而GPU空閑時,算力資源浪費,硬件利用率不足。
而摩爾線程的GPU驅動任務調度優(yōu)化能夠使得Kernel Launch時間縮短50%。支持千次計算指令單次并行下發(fā)以及55%的延遲減少。
二是打造極致性能算子庫。GEMM算子算力利用率達98%,F(xiàn)lash Attention 算子算力利用率突破95%。
三是通信效能躍升。通過MCCL通信庫實現(xiàn)RDMA網絡97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,大模型訓練集群整體性能提升10%。
四是低精度計算效率革新。實現(xiàn)對于FP8的計算性能優(yōu)化,大幅提升訓練效能。FP8 GEMM利用率處于行業(yè)領先水平。此外,行業(yè)首創(chuàng)細粒度重計算,采用創(chuàng)新的Recompute高效算法,計算開銷減少4倍,可以使得訓練精度能保持得更高,累計誤差更小。
五是開發(fā)生態(tài)完善。Triton-MUSA編譯器對于vLLM、SGLang等,已實現(xiàn)開源Triton算子100%覆蓋。FlagGems算子庫支持160+熱點算子,支持率超過90%。MCC自研編譯器支持torch compile,計算圖優(yōu)化加速比達1.5倍。MUTLASS高性能線性代數(shù)模板庫兼容支持CUTLASS/CuTe3.6.0。多精度支持TF32、FP16、BF16、INT8等主流AI計算?;贛UTLASS的GEMM性能可達muDNN手寫匯編性。
此外,為了服務廣大開發(fā)者,摩爾線程還打造了完整的軟件開發(fā)套件,對應Torch Profiler,監(jiān)控、管理,performance tuning等一系列工具。同時,摩爾線程也計劃開放很多套件給所有開發(fā)者,同時也愿意傾聽開發(fā)者的意見。值得一提的是,今年10月,摩爾線程將舉辦首屆MUSA開發(fā)者大會。
核心技術四:自研KUAE大規(guī)模集群,優(yōu)化集群效率
當單節(jié)點效率達到新高度,如何實現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)??涠穑↘UAE)是摩爾線程自研的計算集群,其中包括一系列的計算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護和服務等流程。
在提升單節(jié)點計算效率的基礎上,摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術,實現(xiàn)上千節(jié)點的高效協(xié)作。
在性能仿真與優(yōu)化方面,自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,可以實現(xiàn)集群訓練性能的最優(yōu)化。通過精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據(jù)。
針對大模型穩(wěn)定性難題,摩爾線程通過創(chuàng)新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。
摩爾線程表示,夸娥(KUAE)的設計理念,首先要滿足應用中的多方面要求,比如做并行處理,不光是做一個DP(數(shù)據(jù)并行)、PP(流水線并行)、EP(專家并行),幾乎所有不同的并行策略和方法都要支持,而且效率要做到最高。第二,秉持端到端的模型訓練理念。模型訓練之前數(shù)據(jù)要處理、預訓練、后訓練、模型評估等等,提供從數(shù)據(jù)處理到模型部署的一站式服務。
基于平湖架構KUAE2智算集群,無論千卡或更大規(guī)模,摩爾線程正在提升其性能,并且MFU已達到行業(yè)領先水平。
核心技術五:零中斷容錯技術,提升集群的穩(wěn)定性和可靠性
摩爾線程提出的AI工廠方案:從單芯片算力、效率,再到單節(jié)點和集群效率,彼此之間是相乘的關系,只有每一個環(huán)節(jié)都做到極致,才能最大限度地發(fā)揮能力,而穩(wěn)定性和可靠性是決定集群最后成敗的關鍵。特別在萬卡級AI集群中,硬件故障導致的訓練中斷會嚴重浪費算力。
而在提升集群穩(wěn)定性方面,摩爾線程創(chuàng)新推出零中斷容錯技術,故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓練時間占比超99%,大幅降低恢復開銷。
在可靠性方面,摩爾線程通過多維度訓練洞察方案,實現(xiàn)動態(tài)監(jiān)測與智能診斷,解決訓練中的慢節(jié)點致命短板,可以“看得見”每一片GPU從而實施精確管理,該方案使得慢節(jié)點、Hang等異常處理效率提升50%。
同時,為保證集群在訓練起步階段的成功率,摩爾線程的可靠性方案還結合了集群巡檢與起飛檢查,包含一系列自動化工具使其自動調度,優(yōu)化管理效率,使得訓練成功率以及速度提高10%。
從訓練到驗證:構建完整閉環(huán)
完善的“AI工廠”不僅需要高效訓練大模型,還需具備推理驗證能力,從而構建起完整閉環(huán)。
在推理驗證方面,摩爾線程開發(fā)了相應工具方案,覆蓋LLM、視覺、生成類模型等全流程推理解決方案。
一是MT Transformer自研推理引擎,面向LLM實現(xiàn)極致優(yōu)化。二是TensorX自研推理引擎,面向生成類和視覺類。三是vLLM-MUSA,在NTT和DirectX不支持的情況下,用戶可以使用vLLM,vLLM-MUSA能夠達到推理引擎的最高性能的80%,可以讓很多用戶更快速地實現(xiàn)適配。
經過測試,摩爾線程最新AI旗艦產品MTT S5000針對DeepSeek R1滿血版大語言模型的推理速度,達到100tokens/s,在同國際主流GPU和其他國產GPU的比較中,推理處于行業(yè)領先。
結語
此次摩爾線程技術分享會上呈現(xiàn)的,是以 AI 工廠為核心載體,成功搭建起貫穿 “訓練 - 推理 - 部署” 全流程的高效體系,這不僅是其自身技術實力的體現(xiàn),更標志著國產計算基礎設施在支撐 AGI 時代規(guī)模化、高效率、高可靠模型生產方面,邁出了關鍵且堅實的一步。
從圖形渲染,到AI 算力引擎,摩爾線程的全功能 GPU 始終走在加速計算革新的前沿。以 “KUAE+MUSA” 構建的智算業(yè)務核心為驅動力,摩爾線程正不斷拓展其影響力,加速為千行百業(yè)注入 AI 動能。未來,在物理仿真、AIGC、科學計算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關鍵領域,由全功能 GPU 驅動的 AI 技術有望將在摩爾線程的推動下,實現(xiàn)更廣泛的應用與深度部署,為國產計算力量的崛起和 AI 產業(yè)的蓬勃發(fā)展書寫新的篇章。
