英偉達(dá)對(duì)華“合規(guī)芭蕾”策略,國(guó)產(chǎn)算力加速“進(jìn)化升級(jí)”
關(guān)鍵詞: 英偉達(dá) 芯片出口管制 合規(guī)經(jīng)營(yíng) 芯片較量 生態(tài)對(duì)決
7月16日,美國(guó)英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛在第三屆鏈博會(huì)開(kāi)幕式上致辭表示,“中國(guó)的開(kāi)源人工智能是全球進(jìn)步的催化劑,使每個(gè)國(guó)家和行業(yè)都有機(jī)會(huì)參與AI變革”。不久前,其在接受央視新聞采訪時(shí)宣布兩個(gè)重要進(jìn)展,美國(guó)已批準(zhǔn)H20芯片銷(xiāo)往中國(guó),并同步推出了一款全新的、完全合規(guī)的中國(guó)特供版專業(yè)級(jí)RTX PRO GPU。
英偉達(dá)對(duì)華“合規(guī)芭蕾”經(jīng)營(yíng)策略
英偉達(dá)H20是專為符合美國(guó)特定出口管制要求而設(shè)計(jì)的A100/H100替代品。其核心性能,特別是FP64/FP32相較于A100/H100有顯著降低,但通過(guò)配備高帶寬HBM3顯存并保留強(qiáng)大的NVLink互聯(lián)能力,旨在維持在特定AI場(chǎng)景的競(jìng)爭(zhēng)力。
今年4月,美國(guó)政府曾暫停向英偉達(dá)發(fā)放H20的出口許可證,導(dǎo)致公司面臨超百億美元的潛在損失。根據(jù)英偉達(dá)最新財(cái)年報(bào)告(截至2024年1月26日),中國(guó)市場(chǎng)為其貢獻(xiàn)了170億美元的營(yíng)收,占總銷(xiāo)售額的13%,是其實(shí)現(xiàn)增長(zhǎng)的關(guān)鍵支柱。
據(jù)報(bào)道,英偉達(dá)已重新提交H20的銷(xiāo)售申請(qǐng),并獲得了美國(guó)政府將發(fā)放許可證的保證,公司期望能盡快啟動(dòng)交付。
與此同時(shí),英偉達(dá)CEO黃仁勛宣布推出全新的RTX PRO GPU。他將其定位為“智能工廠和物流領(lǐng)域數(shù)字孿生人工智能應(yīng)用的理想選擇”。據(jù)臺(tái)媒《電子時(shí)報(bào)》披露,這款名為RTX PRO 6000D Blackwell的GPU將采用臺(tái)積電4N定制工藝,搭載GDDR7顯存,內(nèi)存帶寬高達(dá)1.1TB/s。這一規(guī)格使其在處理復(fù)雜數(shù)據(jù)和高負(fù)載任務(wù)時(shí)具備卓越性能,尤其適用于企業(yè)AI部署和AI工作站。
然而,英偉達(dá)在滿足美國(guó)不斷調(diào)整的出口限制方面仍面臨挑戰(zhàn)。有消息稱,H20的替代版B30預(yù)計(jì)將于9月發(fā)售,其性能參數(shù)在現(xiàn)有基礎(chǔ)上可能進(jìn)一步受限。傳聞其FP16算力約為80 TFLOPS出頭,F(xiàn)P8接近200 TFLOPS出頭,互連帶寬約為1.5–1.6TB。從整體性能看,B30被認(rèn)為基本不適合用于AI模型訓(xùn)練。相比之下,H20雖性能受限,但仍能通過(guò)優(yōu)化內(nèi)存方案、采用FP8精度及傳統(tǒng)方法勉強(qiáng)用于訓(xùn)練。
事實(shí)上,英偉達(dá)的對(duì)華銷(xiāo)售策略已演變?yōu)橐粓?chǎng)精密的 “合規(guī)芭蕾”,通過(guò)分層產(chǎn)品線布局實(shí)現(xiàn)精準(zhǔn)卡位。H20作為專注訓(xùn)練及推理的定制芯片,憑借NVLink 4互聯(lián)與HBM3顯存支撐分布式計(jì)算;RTX PRO系列則聚焦專業(yè)可視化與輕量AI 設(shè)計(jì),以GDDR7高帶寬適配數(shù)字孿生場(chǎng)景;即將推出的B30芯片則剝離訓(xùn)練能力,純推理定位進(jìn)一步收縮功能邊界。這種“功能切割術(shù)”既滿足美方不斷調(diào)整的出口限制條款,又通過(guò)差異化產(chǎn)品矩陣覆蓋中國(guó)市場(chǎng)從高端訓(xùn)練到邊緣推理的全場(chǎng)景需求,牢牢守住13%的全球營(yíng)收基本盤(pán)。
在技術(shù)綁定層面,英偉達(dá)即使硬件性能受限,仍可在軟件端通過(guò)CUDA工具鏈、NGC預(yù)訓(xùn)練模型庫(kù)形成生態(tài)壁壘,僅PyTorch框架就包含超10萬(wàn)款基于CUDA 優(yōu)化的模型,開(kāi)發(fā)者遷移成本高達(dá)百萬(wàn)級(jí)代碼量;硬件端則與浪潮、聯(lián)想等中國(guó)服務(wù)器廠商深度定制聯(lián)合方案,將單芯片銷(xiāo)售轉(zhuǎn)化為“芯片 + 整機(jī) + 服務(wù)”的捆綁模式,既規(guī)避單賣(mài)芯片的政策風(fēng)險(xiǎn),又通過(guò)系統(tǒng)級(jí)合作深化用戶依賴。
芯片較量之外的生態(tài)對(duì)決
從行業(yè)發(fā)展的深層次看,美國(guó)政府也逐漸意識(shí)到,盡管對(duì)高端芯片實(shí)施出口管制,但中國(guó)在AI芯片領(lǐng)域的巨額投入正推動(dòng)其加速填補(bǔ)算力缺口,寒武紀(jì)、壁仞等企業(yè)流片節(jié)奏提速,華為昇騰910B已進(jìn)入多地智算中心采購(gòu)清單,部分國(guó)產(chǎn)芯片在性能和應(yīng)用層面已展現(xiàn)出與H20競(jìng)爭(zhēng)的能力。
國(guó)外的相關(guān)GPU各有特點(diǎn),H20作為特定地緣政治環(huán)境下的產(chǎn)物,最大優(yōu)勢(shì)在于保留了NVLink 4的超高互聯(lián)帶寬和大容量HBM3顯存,這對(duì)于構(gòu)建大規(guī)模AI集群進(jìn)行分布式訓(xùn)練和推理至關(guān)重要,能部分彌補(bǔ)其核心計(jì)算單元性能(FP64/FP32)被大幅削弱的劣勢(shì),而CUDA 生態(tài)更是其護(hù)城河;AMD MI300X 紙面參數(shù)則非常亮眼,尤其是 192GB HBM3 顯存是巨大優(yōu)勢(shì),對(duì)處理大模型極其關(guān)鍵,不過(guò) ROCm 生態(tài)是主要瓶頸,好在其正持續(xù)快速改善,同時(shí)該芯片功耗較高。
國(guó)內(nèi)競(jìng)品方面,華為昇騰910B 目前國(guó)內(nèi)綜合實(shí)力最強(qiáng)的替代方案,擁有較高的FP32/FP16算力和較成熟的CANN軟件棧(與MindSpore深度集成),以及華為的端到端解決方案能力,然而受制程限制,其HBM帶寬相對(duì)國(guó)際旗艦有差距;寒武紀(jì)MLU370-X8 通過(guò)多芯粒集成實(shí)現(xiàn)高算力和大容量HBM2,在推理場(chǎng)景有較好表現(xiàn)和優(yōu)化,但是MLU-Link互聯(lián)帶寬相對(duì)NVLink仍有較大差距;摩爾線程MTT S4000 / 百度昆侖芯 K200定位更偏向推理和中端訓(xùn)練市場(chǎng),性能參數(shù)上與H20/MI300X/910B等旗艦卡差距明顯,但在特定場(chǎng)景,如桌面級(jí)推理服務(wù)器、特定模型優(yōu)化可能有成本和部署優(yōu)勢(shì),生態(tài)處于早期發(fā)展階段。
除了硬件參數(shù),全球AI產(chǎn)業(yè)也深刻意識(shí)到,算力軟件生態(tài)的成熟度遠(yuǎn)比單芯片參數(shù)更能決定技術(shù)落地的廣度和深度,對(duì)于正加速追趕的中國(guó)算力產(chǎn)業(yè)而言,突破軟件生態(tài)壁壘仍需攻堅(jiān)三大關(guān)鍵節(jié)點(diǎn)。
首先,當(dāng)國(guó)產(chǎn)芯片F(xiàn)P16算力達(dá)到320TFLOPS超越H20時(shí),業(yè)界卻發(fā)現(xiàn)大量開(kāi)源AI框架仍默認(rèn)調(diào)用CUDA內(nèi)核。這種硬件領(lǐng)先卻生態(tài)滯后的困境,折射出兼容性戰(zhàn)役的核心價(jià)值,國(guó)產(chǎn)芯片要打破“能用但不好用”的魔咒,必須構(gòu)建跨架構(gòu)適配層。而兼容性攻堅(jiān)的終極目標(biāo)不是復(fù)刻CUDA,而是構(gòu)建“一次開(kāi)發(fā)、多端部署”的跨架構(gòu)生態(tài)。目前中科院計(jì)算所研發(fā)的“異構(gòu)計(jì)算中間件”已支持昇騰、寒武紀(jì)、AMD等8類芯片架構(gòu)。
其次,CUDA的真正壁壘,在于全球200萬(wàn)開(kāi)發(fā)者形成的創(chuàng)新網(wǎng)絡(luò)。國(guó)產(chǎn)生態(tài)要實(shí)現(xiàn)從“技術(shù)可用”到“開(kāi)發(fā)者擁護(hù)”的跨越,需要建立可持續(xù)的開(kāi)發(fā)者激勵(lì)機(jī)制。
最后,當(dāng)美國(guó)商務(wù)部提出“讓中國(guó)對(duì)美國(guó)技術(shù)上癮”的策略時(shí),國(guó)產(chǎn)算力生態(tài)更需警惕“表面兼容實(shí)則被卡脖子”的陷阱,真正的自主可控,體現(xiàn)在底層指令集到上層應(yīng)用框架的全鏈條可控。
算力軟件生態(tài)的攻堅(jiān)戰(zhàn),本質(zhì)是場(chǎng)沒(méi)有硝煙的標(biāo)準(zhǔn)制定權(quán)之爭(zhēng)。當(dāng)國(guó)產(chǎn)芯片廠商不再糾結(jié)“如何兼容 CUDA”,而是思考“如何讓全球開(kāi)發(fā)者主動(dòng)適配國(guó)產(chǎn)生態(tài)”時(shí),才算真正突破了算力產(chǎn)業(yè)的致命短板。這場(chǎng)戰(zhàn)役或許需要十年甚至更長(zhǎng)時(shí)間,但每一行自主代碼的積累,都在為中國(guó)算力產(chǎn)業(yè)鋪設(shè)通往全球價(jià)值鏈頂端的階梯。
