
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西8月12日報道,今日,華為推出AI推理創新技術——推理記憶數據管理器UCM,通過(guo)多(duo)級(ji)緩(huan)存顯著優化AI推理體驗(yan)與性(xing)價比。
UCM是一款以KV Cache和記憶管理為中心的推理加速套件,提(ti)供全場景系列(lie)化推理加速方(fang)案,通過(guo)推理框架(jia)、算力、存(cun)儲三層協同,優(you)化Tokens在各(ge)業務環節中流轉的效率,以實現AI推理的更優(you)體驗(yan)、更低成(cheng)本。
其三大組件包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter),并通過開(kai)放(fang)統(tong)一的(de)南北向接口,可適配多類型(xing)推理引擎框架、算力(li)及存儲系統(tong)。
經大量測試驗證,UCM可將首Token時延最高降低90%,系統吞吐最大提升22倍,實現10倍級上下文窗口擴展。
華為計劃在今年9月正式開源UCM,屆(jie)時(shi)將(jiang)在魔擎社區首發(fa),后續逐(zhu)步貢獻給業界主流推(tui)理(li)引擎社區,希望(wang)通過開放開源的(de)方式,讓業界共享這(zhe)一成(cheng)果,共同推(tui)動AI推(tui)理(li)生態(tai)的(de)繁(fan)榮發(fa)展。
同時,華為與中(zhong)國銀聯(lian)率先在金融(rong)典型(xing)場景開展UCM技(ji)術試點應用,并聯(lian)合(he)發布智慧金融(rong)AI推理加(jia)速方案應用成(cheng)果(guo)。
會(hui)后,華(hua)為數(shu)據存(cun)儲(chu)(chu)產(chan)品線(xian)(xian)副總裁(cai)(cai)、閃存(cun)領域總裁(cai)(cai)謝黎明,華(hua)為數(shu)據存(cun)儲(chu)(chu)產(chan)品線(xian)(xian)AI存(cun)儲(chu)(chu)首席架構師(shi)李國(guo)杰(jie),與智東西等媒體進行深入(ru)交(jiao)流。
李國杰強調,用AI處理更(geng)高級(ji)別的(de)(de)(de)問題,信息量和(he)(he)數據輸出(chu)會更(geng)大(da),UCM則(ze)能夠大(da)幅優化成本。今天發布的(de)(de)(de)UCM,是華為第一(yi)次提供如此完(wan)整(zheng)的(de)(de)(de)全流程、全場景且可演進的(de)(de)(de)系(xi)統(tong)性方(fang)(fang)案(an)。從單(dan)點算(suan)力模(mo)組(zu)轉向(xiang)(xiang)系(xi)統(tong)級(ji)優化,是一(yi)個大(da)的(de)(de)(de)變化和(he)(he)趨勢。業界有(you)很多開源方(fang)(fang)案(an)有(you)類似(si)的(de)(de)(de)方(fang)(fang)向(xiang)(xiang),有(you)的(de)(de)(de)是做了其(qi)中某一(yi)層或(huo)某一(yi)些組(zu)件,但是并未看(kan)到可商用的(de)(de)(de)端(duan)(duan)到端(duan)(duan)完(wan)整(zheng)方(fang)(fang)案(an)。
謝黎明談(tan)道,開源UCM與業界思(si)路是一致的,華為(wei)希望(wang)通過(guo)開放(fang)這些成(cheng)(cheng)果,為(wei)推理體(ti)驗、生態、成(cheng)(cheng)本貢獻(xian)一份(fen)力量,進(jin)一步促進(jin)框架、存儲(chu)、GPU廠商共建和(he)成(cheng)(cheng)熟化整套機制,真正解(jie)決AI行業化落地的效率(lv)和(he)成(cheng)(cheng)本問題。
一、優化AI推理體驗:10倍級上下文窗口擴展,TTFT最高降低90%,Token經濟性提升2倍+
AI推理應(ying)用(yong)落(luo)地過程中面臨三大挑戰:
- 推不動(輸入超出模型上下文窗口)
- 推得慢(美國大模型推理首Token時延=中國大模型的1/2)
- 推得貴(美國大模型推理吞吐率大約是中國大模型的10倍)
對此,華為推出UCM推理記憶數據管理器(Unified Cache Manager),通(tong)過多級緩存解決(jue)AI推理體驗與成本問(wen)題。
整個AI推理系統中的記(ji)憶有(you)三部分:高帶寬內存HBM、DRAM都在智算服務器中,可以(yi)充分利用(yong)但(dan)過去(qu)沒(mei)有(you)利用(yong)起(qi)來的是下面的專業共享存儲。
通過一系列算法,UCM把推理過程(cheng)中(zhong)(zhong)有不(bu)(bu)同延時(shi)要求(qiu)的(de)數(shu)據(ju)放在不(bu)(bu)同的(de)記憶(yi)體(ti)中(zhong)(zhong),實時(shi)記憶(yi)數(shu)據(ju)即(ji)熱放在HBM中(zhong)(zhong),短(duan)期記憶(yi)數(shu)據(ju)放在DRAM,其他(ta)放在共享專業存(cun)儲中(zhong)(zhong),通(tong)過這樣的(de)按需流(liu)動來提升整個系(xi)統的(de)效率。
UCM主要分為三部分:頂層是推理引擎插件(Connector),與業界多樣引擎與多元算力靈活對接,會連接MindIE、SGLang等一(yi)些主(zhu)流推(tui)理(li)引擎(qing)框(kuang)架;中(zhong)間是對緩存(cun)(cun)(cun)記憶數據進行分級管理(li)的(de)(de)一些創新加速(su)算(suan)(suan)法,運(yun)行在智(zhi)算(suan)(suan)服(fu)務器(qi)中(zhong);另一部分是與(yu)專業共(gong)享存(cun)(cun)(cun)儲(chu)相結合的(de)(de)存(cun)(cun)(cun)取適配器(qi),能提升專業存(cun)(cun)(cun)儲(chu)的(de)(de)直通效率和(he)降(jiang)低時延(yan),可(ke)以讓(rang)三級存(cun)(cun)(cun)儲(chu)更好協同。
通(tong)過大量(liang)測試(shi),UCM能給推(tui)理系(xi)統(tong)的效率、體(ti)驗(yan)、成本提升帶來(lai)明顯進步。
(1)更快的推理響應:依托UCM層級化自適應的全局前綴緩存技術,可實現任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對話、RAG知識檢索等場景中直接調用KV緩存數據,避免重復計算,使首Token時延最大降低90%、Token經濟性提升2倍+。
(2)更長的推理序列:通過動態KV逐層卸載、位置編碼擴展、Prefill稀疏等組合技術,將超長序列Cache分層卸載至外置專業存儲,通過算法創新突破模型和資源限制,實現10倍級推理(li)上下文(wen)(wen)窗口擴展,滿足長文(wen)(wen)本處理(li)需求(qiu)。
(3)更低的推理成本:具備智能分級緩存能力,可根據記憶熱度在HBM、DRAM、SSD等存儲介質中自動分級緩存,同時融合多種稀疏注意力算法,實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2-22倍,降低(di)每Token推理(li)成本。
UCM受(shou)打(da)字輸(shu)(shu)入法(fa)聯想的啟(qi)發,提供一套基于后綴檢索的預測(ce)聯想算法(fa),將行業私域數(shu)據和(he)用(yong)戶(hu)習慣(guan)構建token級的后綴索引(yin),突破自回歸的聯想限制,可以一次輸(shu)(shu)出(chu)多詞(ci),并(bing)且存得越多推得越快(kuai),比傳統MTP預測(ce)加速效果更(geng)好、更(geng)適用(yong)于企業場景。
二、面向開源設計,適配多類推理引擎框架、算力、存儲系統
KV Cache與記憶數據管(guan)理是(shi)大語言模型推理中優化性能(neng)、降低計算成本的(de)核心技術(shu)。但國(guo)內AI推理生態中尚未(wei)形成以其為核心的(de)完整加速軟件體系,相關技術(shu)布局存在(zai)短(duan)板。
隨著邁入Agentic AI時代,模(mo)型規模(mo)化(hua)(hua)擴張、長(chang)序列需求激增(zeng)以及推理任務并發量增(zeng)長(chang),AI推理的(de)KV Cache容量增(zeng)長(chang)已超出HBM的(de)承載能力,需要構建“軟(ruan)件優化(hua)(hua)+硬件創新+存算協同”的(de)架構。
UCM可根據數據冷熱分級存儲到不同介質中,使KV Cache容量從GB級增長至PB級,是一種更(geng)經(jing)濟、更(geng)易用的推(tui)理加速方案(an)。
其設計理(li)念(nian)是(shi)通過開(kai)放(fang)統(tong)一的框架和(he)接口,北(bei)向支持多樣化(hua)的推(tui)理(li)引擎連接,南向接入多樣化(hua)的存(cun)儲系(xi)統(tong),中(zhong)間在(zai)推(tui)理(li)加速算(suan)法配(pei)置方面,開(kai)放(fang)并呼吁更多的開(kai)源(yuan)和(he)生態伙伴共建豐(feng)富的加速算(suan)法庫。
UCM面向(xiang)開(kai)源(yuan)設計(ji),上層推理(li)引擎插件接口積極(ji)融入主(zhu)流的(de)開(kai)源(yuan)社區,中(zhong)間層分(fen)級緩存(cun)管理(li)接口與(yu)Mooncake聯(lian)合設計(ji),在端(duan)(duan)到端(duan)(duan)的(de)XPU直(zhi)通存(cun)儲的(de)存(cun)儲標(biao)準(zhun)和產業接口的(de)定(ding)義(yi)上與(yu)多家芯(xin)片廠商(shang)進行聯(lian)合定(ding)義(yi)。
AI技術迭(die)代(dai)飛(fei)速,因此UCM著眼(yan)于未(wei)來設計,從KV Cache分層管(guan)理走向Agentic AI原生記(ji)(ji)憶(yi)管(guan)理與應(ying)用加速,除了今年(nian)發(fa)布(bu)的(de)(de)推理加速套件(下(xia)圖黃(huang)色部(bu)分)之外(wai),還(huan)會持續(xu)構建(jian)和發(fa)布(bu)面向Agent知(zhi)識感知(zhi)的(de)(de)多模檢索加速能力(li)以及未(wei)來Agent原生記(ji)(ji)憶(yi)的(de)(de)管(guan)理和加速能力(li)。
據(ju)李國杰透(tou)露,UCM大(da)概從去(qu)年6-7月(yue)份開始(shi)孵化,至今差不多一年,僅是算法(fa)方(fang)面就(jiu)有百人級團隊投入(ru),未來(lai)會(hui)面向Agentic AI做更深(shen)演進,可能會(hui)繼(ji)續增加(jia)投入(ru)。
談到UCM與其(qi)他分(fen)級緩存管理的差(cha)別,李國杰總結(jie)了三點:
首先是納入專業存儲(chu)(chu)。很多分級緩存管(guan)理(li)(li)是管(guan)理(li)(li)一(yi)些裸(luo)金屬資源,效率不(bu)太(tai)能滿足商用客戶(hu)要求。納入專業存儲(chu)(chu)后,華為做了(le)大量(liang)軟硬系統和卸載(zai)的事情(qing),比(bi)如直通加速、KV Cache生(sheng)命周(zhou)期管(guan)理(li)(li)等。
第(di)二(er),業(ye)界現(xian)有(you)(you)方案在算法(fa)加(jia)(jia)速(su)庫方面幾乎(hu)只有(you)(you)傳統的Prefix Cache一種(zhong)技術,并沒(mei)有(you)(you)像UCM這樣商用全流程稀(xi)疏算法(fa)、后(hou)綴檢(jian)索算法(fa)及(ji)其他算法(fa)。相較(jiao)業(ye)界,華為貢獻了一些更加(jia)(jia)豐(feng)富、可(ke)靠的或(huo)加(jia)(jia)速(su)效果(guo)更好的算法(fa),這個算法(fa)庫還在持續增加(jia)(jia)中。
第三,推(tui)理場景(jing)非常豐富(fu),請(qing)求輸入(ru)輸出變(bian)化多(duo)端,各(ge)場景(jing)下(xia)沒有(you)一套(tao)框架、一套(tao)加速(su)機制、一套(tao)算法是(shi)可以普適(shi)的(de)(de),所以需要一套(tao)完整、絲滑、能(neng)在(zai)各(ge)場景(jing)、各(ge)種長短序列、各(ge)種請(qing)求下(xia)做自動(dong)切換和(he)自動(dong)適(shi)應的(de)(de)方案,只有(you)像UCM這樣(yang)真正跟客戶場景(jing)貼身聯創和(he)迭代的(de)(de)技術才有(you)這樣(yang)的(de)(de)能(neng)力(li)。
三、技術價值已在智慧金融場景得到驗證
在與中(zhong)國銀聯的聯合創(chuang)新技(ji)術試點(dian)中(zhong),UCM的技(ji)術價(jia)值得到驗證。
在中國(guo)銀(yin)聯“客戶之聲(sheng)”業務場景下(xia),借(jie)助UCM技術及(ji)工程化手段,大模型推理(li)速度提(ti)升(sheng)125倍,僅需10秒即(ji)可精準(zhun)識別(bie)客戶高(gao)頻問(wen)題,促進服務質量(liang)提(ti)升(sheng)。
未來,中(zhong)國銀聯計劃依托國家(jia)人工智能應(ying)用中(zhong)試基地,聯合華為等生態伙伴共建“AI+金(jin)融”示范應(ying)用,推(tui)動技術成(cheng)果從(cong)“實驗(yan)室(shi)驗(yan)證(zheng)”走向(xiang)“規模化(hua)應(ying)用”。
會(hui)上,中國信通院(yuan)人工(gong)智能研究(jiu)所平臺與工(gong)程化部(bu)主任曹峰(feng)分享了大模型推理優化的4個(ge)主要趨勢:
(1)大模型落地重心從訓練(lian)轉向推理,應用從ToC到ToB加速成熟(shu);
(2)推理目標從單點優化和功能(neng)完備轉向“成本-性能(neng)-效果”三目標協(xie)同(tong)優化;
(3)系統級架(jia)構(gou)優化(hua)將成主流,頭部廠商(shang)2025年陸續推出(chu)推理(li)系統級優化(hua)方案,未來(lai)結合“模(mo)型-場景-架(jia)構(gou)”的推理(li)架(jia)構(gou)設計是技術、產(chan)業的發展重點(dian);
(4)KV Cache是架構優化焦點,以(yi)KV Cache為核心的推(tui)理方案迭出,其背后依賴(lai)的高性能(neng)存(cun)儲、先進調度(du)策略(lve)的重要性將愈發顯現(xian)。
結語:應對AI推理多重性能挑戰,UCM能有效緩解資源瓶頸
推理已成(cheng)為AI下(xia)一階段的發展重心,直接關聯用戶滿意度、商業可(ke)行(xing)性等,重要(yao)性愈發凸(tu)顯(xian)。
AI推(tui)理從生成(cheng)式AI時代的(de)(de)簡單推(tui)理任務(wu),逐漸向Agentic AI時代的(de)(de)復雜長(chang)程推(tui)理任務(wu)發展,帶來了對(dui)算力計算量、內存訪問效率、超長(chang)上下文(wen)處理、Multi-agent狀態(tai)共(gong)享等方面的(de)(de)性能挑戰(zhan)。
UCM可通過復用已計(ji)算(suan)結果、上下文(wen)窗口(kou)擴展、長記憶保持與共享(xiang)等技術,減少重(zhong)復計(ji)算(suan)與低(di)效(xiao)內(nei)存訪問,有效(xiao)緩解復雜任務產生的資源瓶頸和性能挑戰。
通(tong)過融合多(duo)類(lei)型緩存加速算法(fa)工(gong)具,UCM能夠更大程度(du)釋放KV Cache與推(tui)(tui)(tui)理(li)框架(jia)的(de)性能潛力,實現推(tui)(tui)(tui)理(li)效率的(de)顯著提(ti)升(sheng),并通(tong)過開源開放進一步加速探索(suo)優化商用AI推(tui)(tui)(tui)理(li)方(fang)案(an)的(de)高效路徑(jing)。