破解300倍算力增长瓶颈，华为云Tokens服务全面接入384超节点

智東西（公眾號：zhidxcom）
作者 | 王涵
編輯 | 漠影

智東(dong)西8月27日(ri)報道(dao)，今天下午，在第四屆828 B2B企業(ye)節(jie)開幕式上，華為云宣(xuan)布其Tokens服(fu)務全面接入CloudMatrix384超節(jie)點。

借助xDeepServe架構創新，該服務單芯片最(zui)高可實現(xian)2400TPS的(de)吞吐量與(yu)50ms的(de)TPOT（Token處(chu)理(li)時延(yan)）。

一、中國日均Token消耗量暴增超300倍，接入超節點突破性能瓶頸

數據顯示，過(guo)去18個月(yue)中(zhong)國AI算(suan)力需求(qiu)呈指(zhi)數級增(zeng)長。2024年初中(zhong)國日均Token消耗量(liang)為1000億，截(jie)至2025年6月(yue)底，這一數據已突破(po)30萬億，1年半內增(zeng)長超300倍，這對(dui)算(suan)力基礎設施提出了更(geng)高要(yao)求(qiu)。

2025年(nian)3月(yue)，華為(wei)云在傳統按卡(ka)時(shi)計費模(mo)式基礎上，推(tui)出基于(yu)MaaS（模(mo)型即服務）的(de)Tokens服務，提(ti)供(gong)在線版(ban)、進線版(ban)、離(li)線版(ban)及尊享(xiang)版(ban)等多種規(gui)格，適配不同應用場景的(de)性(xing)能與時(shi)延(yan)需求。

破解300倍算力增長瓶頸，華為云Tokens服務全面接入384超節點

此次接入CloudMatrix384超節點(dian)后，依托超節點(dian)原生的(de)xDeepServe框架(jia)，Tokens服務吞吐(tu)量從2025年初的(de)1920TPS提升至2400TPS。

華為(wei)云認(ren)為(wei)，大算力構建(jian)需全棧(zhan)創新，涵蓋硬件(jian)、軟件(jian)、算子(zi)、存儲(chu)、推(tui)理(li)框架及(ji)超節點等環節。

其(qi)中，CloudMatrix384超節點(dian)通過(guo)計算架構創新突破性能瓶頸(jing)；CANN昇騰硬件(jian)優化算子與通信策略；EMS彈性內存(cun)存(cun)儲打(da)破AI內存(cun)限制；xDeepServe分布式推(tui)理框架則以架構提升算力(li)效率。

二、xDeepServe架構拆解模型，優化算力調用

作為CloudMatrix384超節(jie)點的原生服(fu)務，xDeepServe采(cai)用Transformerless極致分離(li)架構(gou)，將MoE大模型拆解(jie)為Attention、FFN、Expert三個可獨(du)立伸縮的微模塊，分配(pei)至不同NPU同步處理，再通(tong)過(guo)微秒級XCCL通(tong)信庫與(yu)FlowServe自研推理引擎(qing)整(zheng)合(he)，形成Tokens處理“流(liu)水線”。

經優(you)化(hua)后，單卡吞(tun)吐從(cong)非超節點的600tokens/s提升(sheng)至(zhi)2400tokens/s。

破解300倍算力增長瓶頸，華為云Tokens服務全面接入384超節點

CANN作為(wei)硬件(jian)(jian)加速計算(suan)中間層(ceng)，包含算(suan)子庫(ku)、XCCL高性能通(tong)信庫(ku)等組(zu)件(jian)(jian)。其(qi)中XCCL專為(wei)超節點大語言模型服務設(she)計，可(ke)發揮CloudMatrix384擴展后(hou)UB互聯架構的(de)潛力，為(wei)架構分離提供帶寬與時延支持(chi)。

FlowServe分布式(shi)引擎將(jiang)CloudMatrix384劃分為自治的DP小組，每個小組配(pei)備Tokenizer、執行器、RTC緩存與網絡棧，可實現千卡(ka)并發(fa)無擁堵(du)。

華為云透露，xDeepServe已實現MA分離，下(xia)一步計劃將(jiang)Attention、MoE、Decode改造為數(shu)據流，并擴展(zhan)至多臺(tai)超節點，以(yi)線性提(ti)升推(tui)理吞吐。

三、支持主流大模型與Agent平臺，已落地多行業場景

目前(qian)，華為云(yun)MaaS服務已支持(chi)DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等(deng)主(zhu)流大(da)模型(xing)，以及versatile、Dify、扣子(zi)等(deng)主(zhu)流Agent平臺。

在(zai)模(mo)型性能優(you)化(hua)方面(mian)，文生圖(tu)大(da)模(mo)型通過Int8量化(hua)、旋(xuan)轉位置編(bian)碼(ma)融(rong)合(he)算子等方式，在(zai)輕微損失畫質下，出圖(tu)速度達到業界主流平臺(tai)的2倍，最(zui)大(da)支持2K×2K尺寸。

文生(sheng)視頻(pin)大(da)模型(xing)通(tong)過量化、通(tong)算并行等手段，降低延遲與顯(xian)存占用(yong)，性能較友商提升3.5倍。

破解300倍算力增長瓶頸，華為云Tokens服務全面接入384超節點

應用(yong)層面，華(hua)為(wei)云已與超100家伙伴合作，在調研(yan)分(fen)析、內(nei)容創作、智慧(hui)辦(ban)公、智能運維等(deng)領域開發AI Agent。

例如，基(ji)于MaaS平臺的今(jin)日人才(cai)數智(zhi)員工解決方(fang)案，集(ji)成(cheng)自然語(yu)言處理、機器學習等技術(shu)，可提升服務效率(lv)與客戶滿意度；北京方(fang)寸無憂科技開發的無憂智(zhi)慧公(gong)文(wen)解決方(fang)案，能(neng)助力政企辦公(gong)智(zhi)能(neng)化轉型。

結語：華為云超節點讓算力更適配AI應用需求

當前(qian)，AI技術正(zheng)從模型研發(fa)向產業(ye)滲透加速(su)邁(mai)進，而算力(li)作(zuo)為(wei)核心基礎設施，其性能、成(cheng)本與適配能力(li)將直接決定著產業(ye)智(zhi)能化(hua)的推進速(su)度。

隨著后續更(geng)多(duo)超節點(dian)擴展計劃的推進(jin)，以及更(geng)多(duo)行業(ye)場景(jing)的深度適配，這類AI基礎設施的升級，或(huo)將進(jin)一步降(jiang)低企業(ye)接入(ru)AI技術的門(men)檻，讓技術更(geng)加深度地(di)融入(ru)生活。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

一、中國日均Token消耗量暴增超300倍，接入超節點突破性能瓶頸

二、xDeepServe架構拆解模型，優化算力調用

三、支持主流大模型與Agent平臺，已落地多行業場景

結語：華為云超節點讓算力更適配AI應用需求

相關推薦