智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 云鵬

智東西(xi)9月1日消息,蘋果又公(gong)布了大模型研發新(xin)進展!

8月28日,蘋果(guo)在arXiv發布(bu)新論文,介紹新一代(dai)多模(mo)(mo)態基礎模(mo)(mo)型MobileCLIP2及其(qi)背后的多模(mo)(mo)態強化(hua)訓(xun)練(lian)機制,同(tong)天在GitHub、Hugging Face上開(kai)源了模(mo)(mo)型的預訓(xun)練(lian)權(quan)重(zhong)和數(shu)據生成代(dai)碼。

MobileCLIP2專為零樣(yang)本分類和檢索任務設計,推理延遲(chi)在3-15毫(hao)秒之間,參數(shu)規模在50~1.5億(yi)不等。

蘋果最新模型,5年前的iPhone能跑

此前(qian)基(ji)于(yu)Transformer的大型(xing)編碼器存(cun)(cun)在(zai)較大內存(cun)(cun)和延(yan)遲開銷,為在(zai)移動設備上部署帶來的挑(tiao)戰,基(ji)于(yu)此,蘋果2023年11月發布端(duan)(duan)側(ce)多(duo)模(mo)(mo)態(tai)大模(mo)(mo)型(xing)MobileCLIP,通過多(duo)模(mo)(mo)態(tai)強化訓練方(fang)法改進模(mo)(mo)型(xing)在(zai)端(duan)(duan)側(ce)的部署效(xiao)果,MobileCLIP2是(shi)其改進多(duo)模(mo)(mo)態(tai)強化訓練方(fang)法后的升(sheng)級版模(mo)(mo)型(xing)。

論文中提(ti)(ti)到,與上(shang)(shang)一代模型相比,MobileCLIP2-B在圖像分類基(ji)準數據集ImageNet-1k上(shang)(shang)的零樣本(ben)準確率(lv)提(ti)(ti)高(gao)了(le)2.2%。其(qi)模型變體(ti)MobileCLIP2-S4在iPhone 12 Pro Max上(shang)(shang)測得的零樣本(ben)準確率(lv)可(ke)對標參數規模更(geng)大的SigLIP-SO400M/14。

此次(ci)其改(gai)進的多模特訓(xun)練訓(xun)練機(ji)制采用了改(gai)進的教師監督(Teacher Supervision)與字(zi)幕數據(Caption Data)來提升零樣本性能。

與此同(tong)時,在移動端,該訓練機制支持多模(mo)態(tai)模(mo)型直接在移動、邊緣(yuan)設備(bei)上部署,實現零樣本檢索/分類,具有極低的延遲和(he)內(nei)存占用。

目前(qian),MobileCLIP2所有模型變體的(de)預訓練(lian)權重均已公開,開發者(zhe)可(ke)以直接(jie)部署和進行基準測試。蘋(pin)果還發布了數據生成代碼,開發者(zhe)可(ke)以基于此使用分布式可(ke)擴展處理創建具有任意教師的(de)新(xin)強化數據集。

模型(xing)的預訓練權重鏈接:

//github.com/apple/ml-mobileclip

強化訓練的數據生成代碼鏈接:

//github.com/apple/ml-mobileclip-dr

GitHub鏈接:

//github.com/apple/ml-mobileclip

Hugging Face鏈接:

//huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

論文地址:

//arxiv.org/html/2508.20691v1

一、iPhone 12 Pro Max可跑,強調可復現性、可擴展性

MobileCLIP2的核心優勢在于(yu)實現(xian)了(le)相比現(xian)有(you)模(mo)型參數(shu)規模(mo)更小(xiao)、延遲更低,且不犧(xi)牲泛(fan)化能(neng)力、準確性的性能(neng)。

在零樣本(ben)性能方面(mian),MobileCLIP2-S4在iPhone 12 Pro Max上測得的(de)準確率與(yu)SigLIP-SO400M/14相當,但(dan)參數量(liang)為(wei)后(hou)者(zhe)的(de)1/2;在延(yan)遲方面(mian),MobileCLIPS2-S4的(de)表現優于DFN ViT-L/14,延(yan)遲約為(wei)后(hou)者(zhe)的(de)約40%。

零樣本指標(biao)提升(sheng)可以使模型在(zai)未經過特定任務、類別或場景的訓練時(shi),無需(xu)額外標(biao)注數據微調,就能直接將預訓練學到的通用知(zhi)識(shi)遷移到未知(zhi)任務中。

蘋果最新模型,5年前的iPhone能跑

▲圖像分類基準數(shu)據集ImageNet-1k上的(de)基準測(ce)試(shi)結(jie)果

MobileCLIP2系列模型在不同延遲(chi)條件下,38個數據集上平均(jun)性能均(jun)為最佳。

從下(xia)面(mian)的測評中看到,MobileCLIP2-S2與(yu)SigLIP2-B/32的參數規模差(cha)距達到4倍(bei)(bei),但性(xing)能相當,MobileCLIP2-S4與(yu)DFN ViT-L/14相比,推理速度(du)提高2.5倍(bei)(bei)。

蘋果最新模型,5年前的iPhone能跑

此外,這一多模態訓(xun)練機(ji)制強調可復現性、可擴展性。目前(qian),MobileCLIPS2的所有模型變體的預(yu)訓(xun)練權重(zhong)均已(yi)公開(kai),支持開(kai)發(fa)者(zhe)直(zhi)接部署(shu)和(he)進(jin)行基準(zhun)測試。

其(qi)強(qiang)化訓練的數據(ju)生成代碼支(zhi)持任(ren)意教師集成和(he)分布(bu)式可擴展處(chu)理,便于(yu)開發者為進一步研究和(he)快速原型設計定制數據(ju)集強(qiang)化。

在移(yi)動端,該訓(xun)練機(ji)制支持直(zhi)接在移(yi)動、邊緣設備(bei)上部署(shu),實現(xian)零(ling)樣本檢索、分類,具有極低的延遲和(he)內存(cun)占用;通過開放數據管(guan)道和(he)模塊(kuai)化的教師、標題生成器集成,可擴展到新的模態或數據域。

二、整合教師監督模型與字幕數據,提升多模態模型語義覆蓋范圍

MobileCLIP2的多模(mo)態強化訓練機(ji)制(zhi)能夠(gou)將來自多個來源的知識高效地蒸餾(liu)到較(jiao)小的模(mo)型中(zhong),并基(ji)于基(ji)礎圖像-文本對(dui)進(jin)行操(cao)作。

該訓練(lian)機制整(zheng)合了(le)教師監(jian)督(Teacher Supervision)與(yu)字幕數據(ju)(Caption Data),旨在訓練(lian)強(qiang)魯棒(bang)和高(gao)遷(qian)移(yi)性,同時最大限度降低訓練(lian)或推(tui)理(li)過程中的計算開(kai)銷(xiao)。字幕數據(ju)指的是與(yu)圖像、視頻等視覺(jue)內容(rong)關聯的文本描述信息。

其核心是通過(guo)用DFN預訓練(lian)的CLIP模型替換先(xian)前的集(ji)成來改進教師監督(du)模型,為多模態模型訓練(lian)增加合(he)成字幕,也就(jiu)是圖像、視頻等數據(ju)的文本描述信息(xi)。

具體來(lai)看(kan),首先(xian)更強的(de)(de)(de)(de)CLIP教(jiao)師(shi)模型指的(de)(de)(de)(de)是,MobileCLIP2通過(guo)用DFN預訓練的(de)(de)(de)(de)CLIP模型替(ti)換先(xian)前的(de)(de)(de)(de)集(ji)成來(lai)改進教(jiao)師(shi)監督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的(de)(de)(de)(de)組合構成了教(jiao)師(shi)集(ji)成的(de)(de)(de)(de)骨干。

其背后技術細(xi)節包(bao)括,對(dui)(dui)每個教師(shi)模型獨(du)立(li)進行對(dui)(dui)數(shu)尺度(du)(Logits Scale)的精細(xi)調整(zheng);集成蒸餾在ImageNet-1k驗證(zheng)集上比(bi)單教師(shi)變體(ti)提(ti)高(gao)了高(gao)達2.8%,這證(zheng)明教師(shi)信號(hao)聚(ju)合對(dui)(dui)于將(jiang)強性能(neng)壓(ya)縮到(dao)緊湊的學生(sheng)模型中至關重要;這一(yi)精度(du)提(ti)升使MobileCLIP2能(neng)夠以更少的參數(shu)數(shu)量(liang)和延(yan)遲,實現與更大參數(shu)規模的模型性能(neng)相當或超越。

其次,字(zi)幕生成(cheng)教師模型(Captioner Teachers)通過兩(liang)階(jie)段協議進行升級優(you)化(hua)。

第一階段研究人員在大型DFN-2B數據集上對CoCa風格的描述器進行初始再訓練,以提升對圖像內容的表達能力。
第二階段是(shi)在高質(zhi)量標(biao)題數據集MSCOCO-123k、MSCOCO-38k上進行后續微調(diao),生成(cheng)具(ju)有增強語(yu)義質(zhi)量和多(duo)樣性(xing)的(de)合成(cheng)標(biao)題。

此外,蘋(pin)果(guo)研(yan)究人員的消融(rong)研(yan)究表明(ming),在精選標題(ti)上進行微調(diao)可顯著提升零樣(yang)(yang)本分類和檢索效果(guo)。其分析了(le)標題(ti)生成的束搜索和采樣(yang)(yang)策略,發現為每張(zhang)圖(tu)像生成超過1-2個標題(ti)的邊際效益(yi)不明(ming)顯,表明(ming)策略性多樣(yang)(yang)性優(you)于數量。

這些(xie)用于(yu)蒸(zheng)餾訓練的合成(cheng)文本描述,提升了模型的語義(yi)覆蓋范圍,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零樣本任(ren)務的準確率上提高了2.2%。

結語:蘋果改進端側多模態模型訓練機制,降低開發者部署門檻

在蘋果發布(bu)的(de)(de)論文中(zhong)提到,MobileCLIP2在多模態(tai)模型(xing)訓練機制上的(de)(de)改進,與(yu)參數高效微調、實時設備端推理以(yi)及從大型(xing)多模態(tai)教師庫中(zhong)進行可(ke)擴展蒸餾等(deng)正在進行的(de)(de)大模型(xing)發展趨勢高度兼容。

同(tong)時,蘋果將所有(you)模型變體的預訓練權重、數據生(sheng)成代(dai)碼(ma)開源,也可以幫助開發(fa)者加速實驗、應用于新任務以及(ji)適應不同(tong)計算環境。