智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東(dong)西8月27日(ri)報道(dao),今天下午,在第四屆828 B2B企業(ye)節(jie)開幕式上,華為云宣(xuan)布其Tokens服(fu)務全面接入CloudMatrix384超節(jie)點。

借助xDeepServe架構創新,該服務單芯片最(zui)高可實現(xian)2400TPS的(de)吞吐量與(yu)50ms的(de)TPOT(Token處(chu)理(li)時延(yan))。

一、中國日均Token消耗量暴增超300倍,接入超節點突破性能瓶頸

數據顯示,過(guo)去18個月(yue)中(zhong)國AI算(suan)力需求(qiu)呈指(zhi)數級增(zeng)長。2024年初中(zhong)國日均Token消耗量(liang)為1000億,截(jie)至2025年6月(yue)底,這一數據已突破(po)30萬億,1年半內增(zeng)長超300倍,這對(dui)算(suan)力基礎設施提出了更(geng)高要(yao)求(qiu)。

2025年(nian)3月(yue),華為(wei)云在傳統按卡(ka)時(shi)計費模(mo)式基礎上,推(tui)出基于(yu)MaaS(模(mo)型即服務)的(de)Tokens服務,提(ti)供(gong)在線版(ban)、進線版(ban)、離(li)線版(ban)及尊享(xiang)版(ban)等多種規(gui)格,適配不同應用場景的(de)性(xing)能與時(shi)延(yan)需求。

破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

此次接入CloudMatrix384超節點(dian)后,依托超節點(dian)原生的(de)xDeepServe框架(jia),Tokens服務吞吐(tu)量從2025年初的(de)1920TPS提升至2400TPS。

華為(wei)云認(ren)為(wei),大算力構建(jian)需全棧(zhan)創新,涵蓋硬件(jian)、軟件(jian)、算子(zi)、存儲(chu)、推(tui)理(li)框架及(ji)超節點等環節。

其(qi)中,CloudMatrix384超節點(dian)通過(guo)計算架構創新突破性能瓶頸(jing);CANN昇騰硬件(jian)優化算子與通信策略;EMS彈性內存(cun)存(cun)儲打(da)破AI內存(cun)限制;xDeepServe分布式推(tui)理框架則以架構提升算力(li)效率。

二、xDeepServe架構拆解模型,優化算力調用

作為CloudMatrix384超節(jie)點的原生服(fu)務,xDeepServe采(cai)用Transformerless極致分離(li)架構(gou),將MoE大模型拆解(jie)為Attention、FFN、Expert三個可獨(du)立伸縮的微模塊,分配(pei)至不同NPU同步處理,再通(tong)過(guo)微秒級XCCL通(tong)信庫與(yu)FlowServe自研推理引擎(qing)整(zheng)合(he),形成Tokens處理“流(liu)水線”。

經優(you)化(hua)后,單卡吞(tun)吐從(cong)非超節點的600tokens/s提升(sheng)至(zhi)2400tokens/s。

破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

CANN作為(wei)硬件(jian)(jian)加速計算(suan)中間層(ceng),包含算(suan)子庫(ku)、XCCL高性能通(tong)信庫(ku)等組(zu)件(jian)(jian)。其(qi)中XCCL專為(wei)超節點大語言模型服務設(she)計,可(ke)發揮CloudMatrix384擴展后(hou)UB互聯架構的(de)潛力,為(wei)架構分離提供帶寬與時延支持(chi)。

FlowServe分布式(shi)引擎將(jiang)CloudMatrix384劃分為自治的DP小組,每個小組配(pei)備Tokenizer、執行器、RTC緩存與網絡棧,可實現千卡(ka)并發(fa)無擁堵(du)。

華為云透露,xDeepServe已實現MA分離,下(xia)一步計劃將(jiang)Attention、MoE、Decode改造為數(shu)據流,并擴展(zhan)至多臺(tai)超節點,以(yi)線性提(ti)升推(tui)理吞吐。

三、支持主流大模型與Agent平臺,已落地多行業場景

目前(qian),華為云(yun)MaaS服務已支持(chi)DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等(deng)主(zhu)流大(da)模型(xing),以及versatile、Dify、扣子(zi)等(deng)主(zhu)流Agent平臺。

在(zai)模(mo)型性能優(you)化(hua)方面(mian),文生圖(tu)大(da)模(mo)型通過Int8量化(hua)、旋(xuan)轉位置編(bian)碼(ma)融(rong)合(he)算子等方式,在(zai)輕微損失畫質下,出圖(tu)速度達到業界主流平臺(tai)的2倍,最(zui)大(da)支持2K×2K尺寸。

文生(sheng)視頻(pin)大(da)模型(xing)通(tong)過量化、通(tong)算并行等手段,降低延遲與顯(xian)存占用(yong),性能較友商提升3.5倍。

破解300倍算力增長瓶頸,華為云Tokens服務全面接入384超節點

應用(yong)層面,華(hua)為(wei)云已與超100家伙伴合作,在調研(yan)分(fen)析、內(nei)容創作、智慧(hui)辦(ban)公、智能運維等(deng)領域開發AI Agent。

例如,基(ji)于MaaS平臺的今(jin)日人才(cai)數智(zhi)員工解決方(fang)案,集(ji)成(cheng)自然語(yu)言處理、機器學習等技術(shu),可提升服務效率(lv)與客戶滿意度;北京方(fang)寸無憂科技開發的無憂智(zhi)慧公(gong)文(wen)解決方(fang)案,能(neng)助力政企辦公(gong)智(zhi)能(neng)化轉型。

結語:華為云超節點讓算力更適配AI應用需求

當前(qian),AI技術正(zheng)從模型研發(fa)向產業(ye)滲透加速(su)邁(mai)進,而算力(li)作(zuo)為(wei)核心基礎設施,其性能、成(cheng)本與適配能力(li)將直接決定著產業(ye)智(zhi)能化(hua)的推進速(su)度。

隨著后續更(geng)多(duo)超節點(dian)擴展計劃的推進(jin),以及更(geng)多(duo)行業(ye)場景(jing)的深度適配,這類AI基礎設施的升級,或(huo)將進(jin)一步降(jiang)低企業(ye)接入(ru)AI技術的門(men)檻,讓技術更(geng)加深度地(di)融入(ru)生活。