
智東西(公眾號:zhidxcom)
編譯 |? 陳駿達
編輯 |? 云鵬
智東西8月11日報道,近日,智譜發布了其最新一代旗艦模型GLM-4.5的完整技術報告。GLM-4.5融合了推理、編程和智能體能力,并在上述場景的12項基準測試中,綜合性能取得了發布之際的全球開源模型SOTA(即排名第一)、國產模型第一、全球模型第三的成績,發布后不(bu)到48小時,便登頂開(kai)源平臺Hugging Face趨勢榜第一。
智東西此前已對GLM-4.5的能力進行了,在技術報告中,智譜進一步分享了這款模型在預訓練(lian)、中期(qi)訓練(lian)和后(hou)訓練(lian)階段進行的創新。
GLM-4.5借鑒了部分DeepSeek-V3架構,但縮小(xiao)了(le)模(mo)型的寬(kuan)度,增加了(le)模(mo)型深度,從而提升模型的推理能力。在傳統的預訓練和后訓練之外,智譜引入了中期訓練,并在這一階段提升了模型在理解代(dai)碼倉(cang)庫、推理、長上下文與智(zhi)能體3個場景的性能。
后訓練階段,GLM-4.5進行了有監督微調與強化學習,其強化學習針對推理、智能體和通用場景分別進行了訓練,還使用了智譜自研并開源的基(ji)礎設(she)施框架Slime,進一(yi)步提升(sheng)了強(qiang)化學(xue)習的效率。
在(zai)多(duo)項基準測(ce)試(shi)中,GLM-4.5與DeepSeek-R1-0528、Kimi K2、OpenAI o3、Claude 4 Sonnet等頭(tou)部開閉源模型(xing)處于同一(yi)梯隊,并在(zai)部分測(ce)試(shi)中取得了SOTA。
值(zhi)得一提的是(shi),智譜還計劃在今晚開源GLM-4.5系列(lie)的新(xin)模型,名為GLM-4.5V,或為一款(kuan)視(shi)覺模型。
論(lun)文(wen)鏈接(jie):
//github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf
以下是對GLM-4.5技(ji)術(shu)報告(gao)核(he)心內(nei)容的梳理:
一、從知識庫到求解器,“ARC”成新一代模型重要能力
GLM-4.5團隊(dui)提出,大模型正逐(zhu)漸從“通用(yong)知識庫”的(de)角(jiao)色(se),迅速向“通用(yong)問(wen)題求解器”演進,目標(biao)是(shi)實(shi)現(xian)通用(yong)人工智能(AGI)。這意味著,它(ta)們不僅要(yao)在單一任務中做到最(zui)好,還要(yao)像(xiang)人類一樣具備復雜問(wen)題求解、泛化能力和自我提升能力等。
智譜提出了三項關鍵且相互關聯的能力:Agentic能力(與外部工具及現實世界交互的能力)、復雜推理能力(解決數學、科學等領域多步驟問題的能力)、以及高級編程能力(應對真實世界(jie)軟件工程任(ren)務的能力(li)),并將其(qi)統(tong)稱為ARC。
要具備上述能力,數據是基礎。GLM-4.5的預訓練數據主要包含網頁、多語言數據、代碼、數學與科學等領(ling)域,并(bing)使用多(duo)種(zhong)方法評估(gu)了數據質(zhi)量,并(bing)對高質(zhi)量的(de)數據進行上采(cai)樣(Up-Sampling),即增加這部分(fen)數據在(zai)訓練(lian)集中的(de)出現頻(pin)率。
例如(ru),代(dai)碼(ma)數據(ju)收集自(zi)GitHub和其他代(dai)碼(ma)托(tuo)管平臺,先進(jin)行基于規則(ze)的(de)初步過(guo)(guo)濾,再使用針對(dui)不(bu)同編程(cheng)語言的(de)質(zhi)(zhi)量(liang)(liang)模型,將數據(ju)分(fen)為高/中/低質(zhi)(zhi)量(liang)(liang),上采樣高質(zhi)(zhi)量(liang)(liang)、剔(ti)除(chu)低質(zhi)(zhi)量(liang)(liang),源代(dai)碼(ma)數據(ju)使用Fill-In-the-Middle目標訓練,能(neng)(neng)讓模型獲得更(geng)好(hao)地(di)代(dai)碼(ma)補全能(neng)(neng)力。對(dui)于代(dai)碼(ma)相關的(de)網(wang)頁,GLM-4.5采用通過(guo)(guo)雙階段檢索與質(zhi)(zhi)量(liang)(liang)評估篩選,并(bing)用細粒度解析器保留格(ge)式與內容。
模型(xing)架(jia)構方面,GLM-4.5系列(lie)參考DeepSeek-V3,采用了(le)(le)MoE(混合專家)架構,從而(er)提(ti)升了(le)(le)訓練和(he)(he)推(tui)理(li)的(de)計(ji)算效率。對于MoE層,GLM-4.5引入了(le)(le)無損平衡路由(you)(loss-free balance routing)和(he)(he)sigmoid門控(kong)機制。同時,GLM-4.5系列(lie)還擁有更小的(de)模(mo)型(xing)寬度(du)(隱藏維(wei)度(du)和(he)(he)路由(you)專家數(shu)量),更大的(de)模(mo)型(xing)深度(du),這種(zhong)調整(zheng)能提(ti)升模(mo)型(xing)的(de)推(tui)理(li)能力。
在(zai)自注意力模塊中,GLM-4.5系列采(cai)用了分(fen)組(zu)查(cha)詢注(zhu)意(yi)力(Grouped-Query Attention)并結合部分(fen)RoPE(旋轉位置編碼)。智譜(pu)將注(zhu)意(yi)力頭的(de)(de)數量提升到(dao)原來(lai)的(de)(de)2.5倍(96個注(zhu)意(yi)力頭)。有趣的(de)(de)是,雖然增加注(zhu)意(yi)力頭數量并未帶(dai)來(lai)比少頭模型(xing)更低的(de)(de)訓練損(sun)失,但模型(xing)在MMLU和BBH等推理類(lei)基準測(ce)試上的(de)(de)表現得到(dao)提升。
▲GLM-4.5系列(lie)模型(xing)與DeepSeek-V3、Kimi K2在架構方面(mian)的(de)區別(圖(tu)源(yuan):GLM-4.5技術報告(gao))
GLM-4.5還(huan)使用了(le)QK-Norm技術,用于穩定注意(yi)力logits的取(qu)值(zhi)范圍(wei),可以(yi)(yi)防止注意(yi)力過(guo)度集(ji)中或(huo)(huo)過(guo)于分散,改善(shan)模型在(zai)長序(xu)列(lie)或(huo)(huo)復雜(za)任務上的表現。同時(shi),GLM-4.5系列(lie)均在(zai) MTP(多Token預測)層中加入了(le)一個MoE層,以(yi)(yi)支(zhi)持(chi)推理階段(duan)的推測式解碼(ma),提升推理速度和質量。
預(yu)訓(xun)練(lian)完成后,GLM-4.5還經歷了一個(ge)“中期(qi)訓(xun)練(lian)”階段,采用中等規模的領(ling)域特定數據集,主要在(zai)3個(ge)場景提升模型性能:
(1)倉庫級代碼訓練:通(tong)過拼接同一倉庫的(de)多個代(dai)碼文件及相關(guan)開發記(ji)錄,幫助模(mo)型理解跨文件依賴和軟件工程實(shi)際場景,提升代(dai)碼理解與生成能力,同時通(tong)過加長序列支(zhi)持大型項目。
(2)合成推理數據訓練:利用數(shu)學、科學和編程競賽題(ti)目及答案,結合推理(li)模型合成推理(li)過程數(shu)據,增強模型的復(fu)雜邏輯(ji)推理(li)和問題(ti)解決能力。
(3)長上下文與智能體訓練:通過擴展(zhan)序列長度和上(shang)采樣長文(wen)檔,加強模型(xing)對超長文(wen)本(ben)的理(li)解與(yu)生成能(neng)力(li),并加入(ru)智能(neng)體(ti)軌(gui)跡數據,提(ti)升模型(xing)在(zai)交互(hu)和多步決策任(ren)務中(zhong)的表現。
▲GLM-4.5的預訓練與(yu)中期訓練階段(圖(tu)源:GLM-4.5技術(shu)報告)
二、兩步走完成后訓練,自研開源基礎設施框架立功
GLM-4.5團(tuan)隊將模(mo)型后(hou)訓(xun)練劃分為(wei)兩(liang)個(ge)(ge)階段(duan),在階段(duan)一(專(zhuan)家訓(xun)練)中,該團(tuan)隊打造了(le)專(zhuan)注于推(tui)(tui)理、智能體和通用對話這(zhe)3個(ge)(ge)領域的(de)專(zhuan)家模(mo)型。在階段(duan)二(統一訓(xun)練)中,該團(tuan)隊采用自我蒸餾技術將多(duo)個(ge)(ge)專(zhuan)家模(mo)型整合,最(zui)終產出(chu)一個(ge)(ge)融合推(tui)(tui)理與非推(tui)(tui)理兩(liang)種(zhong)模(mo)式的(de)綜(zong)合模(mo)型。
在上述兩個階(jie)段(duan)中,GLM-4.5都經(jing)歷了有監督微調(SFT)。
專家訓(xun)練(lian)中,SFT使(shi)用帶(dai)有思維鏈的小規(gui)模數據集,對專家模型(xing)進行基礎能力的預訓(xun)練(lian),確保模型(xing)在進入強化(hua)學習前具備必要的推(tui)理和(he)工具使(shi)用能力。
整體SFT中(zhong),GLM-4.5利用數(shu)百(bai)萬涵蓋多領域任務(推(tui)理(li)、通用對話、智(zhi)能體任務及(ji)長上下(xia)文理(li)解)的樣本,基于128K上下(xia)文長度(du)的基礎(chu)模型(xing)(xing)進行訓練。通過從多個專家模型(xing)(xing)輸(shu)出中(zhong)蒸餾知識(shi),模型(xing)(xing)學(xue)會在不(bu)同(tong)任務中(zhong)靈活應(ying)用推(tui)理(li),同(tong)時兼(jian)顧部分(fen)不(bu)需(xu)復雜推(tui)理(li)的場景,支(zhi)持反思和即(ji)時響(xiang)應(ying)兩種工作模式(shi),形成(cheng)混合推(tui)理(li)能力。
在SFT過程中(zhong),GLM-4.5團隊(dui)采用了幾種方式,以提升訓練效果(guo):
(1)減少函數調用模板中的字符轉義:針對(dui)函數調用(yong)參數中代碼大量轉(zhuan)義(yi)帶來的(de)(de)學習負(fu)擔,提(ti)出用(yong)XML風格特殊標記包裹鍵(jian)值的(de)(de)新模板,大幅降(jiang)低轉(zhuan)義(yi)需求(qiu),同(tong)時保持函數調用(yong)性能(neng)不(bu)變。
(2)拒絕采樣(Rejection Sampling):設(she)計了多階段過濾(lv)流程,去(qu)除重復、無效或格式不符的樣本(ben),驗證客觀答案(an)正確性,利用(yong)(yong)獎勵模型篩選(xuan)主觀回答,并確保工具(ju)調用(yong)(yong)場(chang)景符合規(gui)范且軌跡完(wan)整。
(3)提示選擇與回復長度調整:通過(guo)剔除較短的(de)提示樣(yang)本,提升(sheng)數學和科(ke)學任務表現2%-4%;對難度較高的(de)提示詞(ci)進(jin)行(xing)回(hui)復(fu)長(chang)度的(de)調整,并生成多(duo)條回(hui)復(fu),進(jin)一(yi)步帶來1%-2%的(de)性能提升(sheng)。
(4)自動構建智能體SFT數據:包括收集(ji)智能(neng)體框(kuang)架(jia)和工具、自動合成單步及多步工具調(diao)用任務(wu)(wu)、生成工具調(diao)用軌跡并轉換(huan)為多輪對(dui)話,以及通過多評判代理篩選保(bao)留高質(zhi)量任務(wu)(wu)軌跡,確保(bao)訓練數據的(de)多樣(yang)性(xing)與實用性(xing)。
SFT之后,GLM-4.5又進行了強化學習訓練。推理強化學習(Reasoning RL)重(zhong)點針對(dui)數學(xue)、代碼(ma)和科學(xue)等可驗證領域,采(cai)用了難(nan)度分級的課程學(xue)習(xi)。因為早(zao)期訓(xun)練時,模型(xing)能力較弱,過難(nan)數據(ju)則會(hui)導致獎勵(li)全為0,無法有效從數據(ju)中學(xue)習(xi)。分級學(xue)習(xi)后,模型(xing)學(xue)習(xi)效率得到了提升(sheng)。
GLM-4.5模型還(huan)直接在最大(da)輸出(chu)長(chang)(chang)度(du)(du)(64K)上(shang)進行單階段(duan)RL,這(zhe)樣能維持在SFT階段(duan)獲得的長(chang)(chang)上(shang)下文能力。智譜還(huan)發現,在編程強(qiang)化學(xue)習中,損失(shi)計算方式對訓(xun)練效(xiao)率(lv)影響顯(xian)著。采用基于token加權的平均損失(shi)比傳統(tong)的序列均值(zhi)損失(shi)效(xiao)果更好(hao),可提(ti)供更細(xi)粒度(du)(du)穩定的梯(ti)度(du)(du)信號,加快收斂速度(du)(du),并有效(xiao)緩解長(chang)(chang)度(du)(du)偏差和避免(mian)訓(xun)練中生(sheng)成過于簡單重復樣本。
在科學領(ling)域的(de)(de)強化(hua)(hua)學習中,數(shu)據(ju)(ju)質量(liang)(liang)和類型尤為關(guan)鍵。GPQA-Diamond基(ji)準測試顯(xian)示,僅用(yong)專家(jia)驗(yan)證的(de)(de)多選(xuan)題進行(xing)強化(hua)(hua)學習,效(xiao)果(guo)明(ming)顯(xian)優于使(shi)用(yong)混合質量(liang)(liang)或未經驗(yan)證的(de)(de)數(shu)據(ju)(ju),凸顯(xian)嚴格過濾高質量(liang)(liang)數(shu)據(ju)(ju)的(de)(de)重要性。
智能體強化學習(Agentic RL)則聚焦網頁搜(sou)索(suo)和(he)代(dai)碼生成智(zhi)能體,利用(yong)可自動驗證的(de)(de)獎勵信號實(shi)現強化(hua)學(xue)習(xi)的(de)(de)Scaling。為進一(yi)步提升強化(hua)訓(xun)練(lian)的(de)(de)效率,GLM-4.5團隊還采用(yong)了迭代(dai)自蒸餾(liu)提升技(ji)術,也就是在強化(hua)學(xue)習(xi)訓(xun)練(lian)一(yi)定步驟或達到(dao)平臺期后,用(yong)強化(hua)學(xue)習(xi)模型生成的(de)(de)響應替換(huan)原始冷啟動數據,形成更(geng)優的(de)(de)SFT模型,再對其繼續(xu)強化(hua)學(xue)習(xi)。
該(gai)團(tuan)隊還觀(guan)察到,在智能(neng)(neng)(neng)體(ti)任務(wu)(wu)中,隨(sui)著與環境交(jiao)互輪數的(de)增加(jia),模型性(xing)能(neng)(neng)(neng)顯著提(ti)升(sheng)。與常見的(de)使用更多token進行(xing)推理,實現性(xing)能(neng)(neng)(neng)提(ti)升(sheng)不(bu)同,智能(neng)(neng)(neng)體(ti)任務(wu)(wu)利(li)用測(ce)試時(shi)(shi)計(ji)算(suan)資(zi)源持續(xu)與環境交(jiao)互,實現性(xing)能(neng)(neng)(neng)提(ti)升(sheng)。例如反復搜索難(nan)以獲(huo)取(qu)的(de)網頁(ye)信(xin)息,或(huo)為(wei)編(bian)碼任務(wu)(wu)編(bian)寫(xie)測(ce)試用例以進行(xing)自我(wo)驗證和自我(wo)修正。智能(neng)(neng)(neng)體(ti)任務(wu)(wu)的(de)準(zhun)確率隨(sui)著測(ce)試時(shi)(shi)計(ji)算(suan)資(zi)源的(de)增加(jia)而(er)平滑提(ti)升(sheng)。
▲GLM-4.5在網(wang)頁搜索智(zhi)能體評測集BrowseComp上的(de)性能,隨著交互次數提升而變化(hua)(圖(tu)源:GLM-4.5技術報告)
通用強化學習(General RL)融合(he)規則反饋、人類反饋和(he)模型反饋等多(duo)源獎(jiang)勵體系,提升模型整體能(neng)力。包(bao)括(kuo)使用指令遵循RL,減少獎(jiang)勵作弊,確(que)保穩定進步;函數調(diao)用RL分為逐步規則和(he)端(duan)到端(duan)多(duo)輪兩種方式,提升工具調(diao)用的準確(que)性和(he)自主規劃能(neng)力;異(yi)常(chang)行為RL通過針對性數據集高效減少低(di)頻錯(cuo)誤。
強化學習訓練中,智譜使用了其自(zi)研并開源(yuan)的(de)基礎(chu)設施框架(jia)Slime,針對靈活性(xing)、效率和可擴展性(xing)進行了多(duo)項關(guan)鍵優化。其最(zui)大特點是在同(tong)一(yi)套統一(yi)系統中,同(tong)時支持(chi)靈活的訓練模式(shi)和數據生(sheng)成(cheng)策略(lve),以(yi)滿足不(bu)同(tong)RL任(ren)務(wu)(wu)的差異化需求。同(tong)步(bu)共(gong)置模式(shi)適(shi)用(yong)(yong)于通用(yong)(yong)RL任(ren)務(wu)(wu)或增強模型推理(li)(li)能(neng)力,可顯(xian)著減(jian)少GPU空閑時間(jian)并最(zui)大化資(zi)源(yuan)利用(yong)(yong)率。異步(bu)分(fen)離(li)模式(shi)適(shi)用(yong)(yong)于軟件工程(cheng)(SWE)等智能(neng)體任(ren)務(wu)(wu),可實現訓練與推理(li)(li)GPU獨(du)立(li)調(diao)度,利用(yong)(yong)Ray框架靈活分(fen)配資(zi)源(yuan),使智能(neng)體環境能(neng)持(chi)續生(sheng)成(cheng)數據而(er)不(bu)被訓練周期阻塞。
為了提升RL訓練中的數據生成效率,GLM-4.5在訓練階段采用BF16精度,而在推理階段使用FP8 精度進行混合精度推理加速。具體做法是在每次策略更新迭代時,對模型參數執行在線分塊FP8量化,再將其派發至(zhi)Rollout階(jie)段(duan),從而實現高(gao)效的FP8推理,大幅(fu)提升數(shu)據收集的吞吐量。這(zhe)種(zhong)優化有效緩解了Rollout階(jie)段(duan)的性能(neng)瓶頸,讓(rang)數(shu)據生(sheng)成速度與訓練節(jie)奏(zou)更好(hao)匹配。
針對智能體任務中Rollout過程耗時長、環境交互復雜的問題,該團隊構建了全異步、解耦式 RL基礎設施。系統通過高并發Docker運行環境為每個任務提供隔離環境,減少Rollout開銷;并將GPU分為Rollout引擎與訓練引擎,前者持續生成軌跡,后者更新模型并定期同步權重,避免長或多樣化軌跡阻塞訓練流程。此外,智譜還引入統一(yi)的HTTP接口與集中式數據(ju)池,兼(jian)容多種(zhong)智能體(ti)框架并(bing)保(bao)持訓(xun)練與推理一致性,所(suo)有軌跡集(ji)中存儲,支持定制化過濾(lv)與動態采(cai)樣(yang),確保(bao)不同任務下RL訓(xun)練數(shu)據的質(zhi)量(liang)與多樣(yang)性。
三、進行12項核心基準測試,編程任務完成率接近Claude
智(zhi)譜對多款GLM-4.5模型的性能進行了測試(shi)。
未經過(guo)指令微調的(de)基礎(chu)模型GLM-4.5-Base在(zai)英語、代碼、數學(xue)和中(zhong)文等不(bu)同(tong)基準測試中(zhong)表現穩定,較好地融合了各領域能力(li)。
GLM-4.5還進(jin)行了12項ARC基準測試(shi),分別為(wei)MMLU-Pro、AIME24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLV3、BrowseComp。
在智能體領域,基準測(ce)(ce)試主(zhu)要考查(cha)(cha)了(le)模型調用(yong)用(yong)戶(hu)(hu)自定義函數(shu)以(yi)回(hui)答(da)用(yong)戶(hu)(hu)查(cha)(cha)詢的(de)能力和在復雜問題(ti)中找(zhao)到正確答(da)案(an)的(de)能力。GLM-4.5在四項測(ce)(ce)試中的(de)得分(fen)與平(ping)均(jun)分(fen)位(wei)列參(can)與測(ce)(ce)試的(de)模型前列,平(ping)均(jun)分(fen)僅(jin)次于OpenAI o3。
推理(li)方面,智譜的測試集包括(kuo)數學和科學知識等(deng)。GLM-4.5在AIME24和SciCode上優于OpenAI o3;整體平均表現超過了(le)Claude Opus 4,并且接近DeepSeek-R1-0528。
編程(cheng)方(fang)面的(de)基準測試側重考驗模型在(zai)真實(shi)世(shi)界編程(cheng)任(ren)務上(shang)(shang)的(de)能力。在(zai)SWE-bench Verified上(shang)(shang),GLM-4.5 的(de)表現優于GPT-4.1和Gemini-2.5-Pro;在(zai)Terminal-Bench上(shang)(shang)優于 Claude Sonnet 4。
為評估GLM-4.5在真實場景下的智能體編程能力,該團隊構建了CC-Bench基準,評估主要依據任務完成率(根據預先設(she)定(ding)的完(wan)成(cheng)標準判斷),若結果相同,則(ze)參考次要指(zhi)標如工具調用(yong)成(cheng)功率(lv)和Token消耗效(xiao)(xiao)率(lv)。評估優先關注功能正確性與任務完(wan)成(cheng),而非效(xiao)(xiao)率(lv)指(zhi)標。
測試結果如下:
GLM-4.5 vs Claude 4? Sonnet:勝(sheng)率40.4%,平局9.6%,敗率50.0%。
GLM-4.5 vs Kimi K2:勝率(lv)53.9%,平(ping)局17.3%,敗率(lv)28.8%。
GLM-4.5 vs Qwen3-Coder:勝(sheng)率(lv)80.8%,平局7.7%,敗率(lv)11.5%。
智譜還在(zai)技(ji)術(shu)報告中(zhong)分(fen)享了GLM-4.5在(zai)通用能(neng)力、安全、翻譯、實(shi)際上手體驗(yan)方面的特點(dian)。
結語:中國開源AI生態蓬勃
有越(yue)來越(yue)多的(de)(de)企業(ye)正采取(qu)模(mo)型權重開(kai)源+詳細技術報告的(de)(de)開(kai)源模(mo)式(shi),這(zhe)種方(fang)式(shi)不僅能讓企業(ye)第一時(shi)間用上開(kai)源模(mo)型,還能讓大模(mo)型玩家們從彼此(ci)的(de)(de)研究成果中借鑒,并獲得下一次技術突破的(de)(de)靈(ling)感。
在DeepSeek現象之后,國內AI企(qi)業通過密集的(de)開源(yuan),已經逐(zhu)漸形成了(le)良性的(de)國產(chan)開源(yuan)AI生(sheng)態,有多家(jia)企(qi)業在其他開源(yuan)模型(xing)(xing)的(de)研(yan)究(jiu)成果上完成了(le)創(chuang)新。這種集體式的(de)創(chuang)新,或許有助于推動國產(chan)大模型(xing)(xing)獲得(de)競爭優(you)勢。