
智東西(公眾號:zhidxcom)
作者 |? 云鵬
編輯 |? 李水青
智東西8月4日消息,剛剛,小米公司正式開源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個公開(kai)評測集上刷新(xin)多模(mo)態(tai)大模(mo)型最好成績(SOTA),單樣本推理的首Token延遲(TTFT)為業界先進模型的1/4,同等顯存下的數據吞吐效率是業界先進模型的20倍以上。
具體來看,MiDashengLM-7B基于Xiaomi Dasheng作為音頻編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,通過通用(yong)音(yin)頻描述訓(xun)練策略,實現了對語音(yin)、環境聲(sheng)音(yin)和音(yin)樂(le)的(de)統(tong)一(yi)理解。
此前(qian)小米于2024年首次發(fa)布Xiaomi Dasheng聲音基座(zuo)模型(xing),此次開源的7B模型(xing)是該模型(xing)的擴展。目(mu)前(qian)該系列模型(xing)在小米智能家(jia)居、汽車座(zuo)艙(cang)等(deng)領(ling)域有30多個落地應(ying)用(yong)。
小米稱,音頻理解是構建全場景智能生態的關鍵領域。MiDashengLM通過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什么事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM的訓練數據由100%公開數據構成。
GitHub主頁:
//github.com/xiaomi-research/dasheng-lm
技(ji)術報告(gao):
//github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模型參(can)數(Hugging Face):
//huggingface.co/mispeech/midashenglm-7b
模型參數(魔(mo)搭社區):
//modelscope.cn/models/midasheng/midashenglm-7b
網頁Demo:
//xiaomi-research.github.io/dasheng-lm
交互Demo:
//huggingface.co/spaces/mispeech/MiDashengLM
一、支持跨場景音頻理解能力,音頻編碼器多項關鍵測試超越Whisper
MiDashengLM在音頻描述、聲音理(li)解、音頻問答任務(wu)中有比較明顯的優勢:
▲音頻描述任務(wu)性(xing)能(neng)(FENSE指標)
在(zai)音頻描(miao)述任務中,MiDashengLM-7B比(bi)Qwen、Kimi同類7B模型性能更強。
▲聲音理解任務性能
在聲音理解任(ren)務中,MiDashengLM-7B除FMA、VoxCeleb-Gender項目(mu)均領先于Qwen的(de)7B模型,與Kimi的(de)7B模型相(xiang)比,僅有VoxCeleb-Gender項目(mu)略微(wei)落后。
▲語(yu)音識別任務(wu)性能(WER/CER指標)
在(zai)語音識(shi)別任務(wu)中,MiDashengLM-7B的主要優(you)勢在(zai)于GigaSpeech 2,在(zai)其他(ta)兩組測試中Qwen和Kimi有一定優(you)勢。
▲音頻問答任務性能
其中,Xiaomi Dasheng音(yin)頻(pin)編(bian)碼器(qi)(qi)是MiDashengLM音(yin)頻(pin)理解能力(li)的重要來源(yuan)。在用(yong)(yong)于評(ping)估編(bian)碼器(qi)(qi)通用(yong)(yong)能力(li)的X-ARES Benchmark上,Xiaomi Dasheng在多(duo)項(xiang)關鍵(jian)任務(wu)上優于作(zuo)為Qwen2.5-Omni、Kimi-Audio等(deng)模型音(yin)頻(pin)編(bian)碼器(qi)(qi)的Whisper。
▲音頻編碼器在(zai)X-ARES Benchmark上的分數(shu)對比(bi)
除了聲音理解(jie),Xiaomi Dasheng還可以用于音頻(pin)生成(cheng)任務,如(ru)語音降噪、提取(qu)和增強。
二、推理效率提升,單樣本4倍加速與百倍并發支持
MiDashengLM的(de)訓練和推(tui)理效(xiao)率(lv)是(shi)其另一項(xiang)優勢。對于(yu)單個樣本推(tui)理的(de)情形,即batch size為1時,MiDashengLM的(de)首(shou)個token預測時間(TTFT)為Qwen2.5-Omni-7B的(de)1/4。
批(pi)次處理(li)時,在(zai)80GB GPU上處理(li)30秒音頻并生成100個token的測試中,MiDashengLM可以把batch size設置為(wei)512,而Qwen2.5-omni-7B在(zai)batch size設置為(wei)16時即出(chu)(chu)現顯存(cun)溢出(chu)(chu)(OOM)。
▲Batch size=1時TTFT和GMACS指標對比(bi)
在(zai)實際部署中,MiDashengLM在(zai)同(tong)等硬件條(tiao)件下可支持更多的并(bing)發請求量,降低(di)計(ji)算成(cheng)本。
▲80G顯存環境下模型(xing)每秒可處理的30s音頻(pin)個數
這背后,MiDashengLM基(ji)于Xiaomi Dasheng架構,在(zai)維持音頻(pin)理(li)解(jie)核心性(xing)能指標基(ji)本持平的前提(ti)下,通過(guo)優化音頻(pin)編碼器設計(ji),將其輸出(chu)幀率從Qwen2.5-Omni的25Hz降(jiang)至5Hz,降(jiang)幅80%,降(jiang)低了計(ji)算負載(zai)并實(shi)現了推理(li)效率提(ti)升。
三、訓練范式改變:從碎片化轉錄到全局語義刻畫
MiDashengLM采用(yong)(yong)通用(yong)(yong)音頻描(miao)述對(dui)齊范式(shi),避免了用(yong)(yong)ASR轉錄數據對(dui)齊僅關注語音內(nei)容(rong)而(er)丟棄環(huan)境(jing)聲音和音樂信息,且(qie)無(wu)法捕(bu)捉說話人情感、空間混響等(deng)關鍵聲學(xue)特征的(de)局(ju)限(xian),通用(yong)(yong)描(miao)述對(dui)齊策略通過非單調的(de)全局(ju)語義映射,迫使模型學(xue)習音頻場景的(de)深層語義關聯。
該方(fang)法可以使(shi)用(yong)幾(ji)乎所有的(de)數據,包(bao)括噪聲或非語(yu)音(yin)內容,而基(ji)于ASR轉錄的(de)方(fang)法會(hui)丟(diu)棄非語(yu)音(yin)數據如環(huan)境聲或音(yin)樂(le),導致數據利(li)用(yong)率(lv)低下,基(ji)于ASR的(de)對齊方(fang)法在ACAV100M-Speech數據集(ji)上會(hui)損失90%潛在有用(yong)數據。
▲MiDashengLM訓練框架
MiDashengLM的訓(xun)練數據通過多(duo)專(zhuan)家(jia)分析(xi)管道生成(cheng):首先對原始音(yin)(yin)(yin)頻使用各種專(zhuan)家(jia)模型作語音(yin)(yin)(yin)、人聲、音(yin)(yin)(yin)樂和環(huan)境(jing)聲學的細粒度(du)標注(zhu),包括使用Dasheng-CED模型預測2秒(miao)粒度(du)的聲音(yin)(yin)(yin)事件(jian),再(zai)通過DeepSeek-R1推理(li)大模型合成(cheng)統一描述。
全部(bu)訓(xun)練數據的(de)原(yuan)始標簽在預(yu)訓(xun)練中(zhong)被棄用(yong),只采用(yong)利用(yong)上述(shu)流程(cheng)生成的(de)新(xin)的(de)豐富(fu)文本描述(shu)標簽,以迫使模型學(xue)習更豐富(fu)全面的(de)聲(sheng)音信息。
其中,來自(zi)ACAV100M的開(kai)(kai)源(yuan)數據集經過上述流程重新標(biao)注后,形成了新的ACAVCaps訓練集和(he)MECAT Benchmark。MECAT Benchmark已(yi)于(yu)近期(qi)開(kai)(kai)源(yuan),ACAVCaps數據集將(jiang)在ICASSP論文(wen)評(ping)審后開(kai)(kai)放(fang)下(xia)載。
▲ACAVCaps訓練數據集構建(jian)流程
四、全棧開源,透明可復現
此次(ci)MiDashengLM訓練(lian)數據100%來自公(gong)開(kai)數據集,涵(han)蓋(gai)五(wu)類110萬小時資源,包括語(yu)音(yin)識別(bie)、環境聲音(yin)、音(yin)樂理(li)解(jie)、語(yu)音(yin)副語(yu)言(yan)和問答任務(wu)等多(duo)項領域。
MiDashengLM完整公(gong)開(kai)了(le)(le)77個數據(ju)源的詳細配比,技術報告(gao)公(gong)開(kai)了(le)(le)從音頻編碼器預訓練(lian)到指令(ling)微調的全流程(cheng)。
據官方(fang)信息,小米(mi)已開始對Xiaomi Dasheng系列(lie)模型做計(ji)算(suan)效率的升級,尋求終端設備(bei)上可離線部(bu)署。
結語:小米音頻大模型再拱一卒,多模態能力拼圖日趨完善
作為影響自(zi)然語言交互體驗的關鍵技術之一,小米(mi)Xiaomi Dasheng系列模型此次的升(sheng)級,對其提(ti)升(sheng)自(zi)家設備(bei)的AI交互體驗有一定幫助,從智能(neng)(neng)家居(ju)、智能(neng)(neng)汽車到智能(neng)(neng)手(shou)機,各類產品均能(neng)(neng)受益。
AI多(duo)模態是當(dang)下業(ye)界主攻的方向(xiang)之一,小米重心轉向(xiang)造車后,在AI大模型(xing)(xing)領(ling)域發聲(sheng)并不多(duo),小米未來(lai)在多(duo)模態領(ling)域能否帶來(lai)更多(duo)模型(xing)(xing)創新,值得期待。