
智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
智東西8月21日報道,今日,百度正式發布百度蒸汽機2.0大模型,是全球首個支持中文音視頻一體化生(sheng)成(cheng)的(de)(de)大模(mo)型。在原有圖生(sheng)視頻能力基礎(chu)上,本次新增“有聲版”,具備支(zhi)持環境(jing)音(yin)效、人(ren)聲對(dui)白及嘴(zui)型同步能力,支(zhi)持畫面與聲音(yin)的(de)(de)同步生(sheng)成(cheng)。
蒸汽機2.0具備(bei)“形神音容”一(yi)體化(hua)生成(cheng)能力(li),將原本需要分別完(wan)(wan)成(cheng)的三(san)個步(bu)驟(zou)——視頻畫面、配(pei)音效與對白同(tong)步(bu),整合為一(yi)次(ci)生成(cheng)完(wan)(wan)成(cheng),也被形容為“三(san)步(bu)并一(yi)步(bu)”。
價格方面,蒸汽機Turbo有聲版定價為1.4元/5秒,據百度蒸汽機透露,這一價格大約是行業平均成本的七成。
一、從“靜音圖像”到“全聲動態”,蒸汽機強化鏡頭語言與聲音整合
相(xiang)比傳統(tong)視頻生成(cheng)(cheng)流程需逐(zhu)步完(wan)成(cheng)(cheng)圖像、音效、對白(bai)等(deng)環節,百度此次發布的蒸汽機“有(you)聲版(ban)”模型嘗(chang)試將這些過程整合至單一模型內完(wan)成(cheng)(cheng)。
該模型還引入了更復雜的鏡頭語言,包括“繞鏡(jing)”等動態運鏡(jing)方式,同(tong)時配(pei)合大規模提示(shi)詞理解能力的(de)升級,使得用戶即便輸入(ru)較為(wei)簡短的(de)自然(ran)語言,也能生成(cheng)畫面(mian)流暢、鏡(jing)頭調度自然(ran)的(de)視頻內容(rong)。
同時,在聲音方面,蒸汽機模型不僅同步生成環境聲與人聲,還嘗試做到人物動作與唇形的匹配。
該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態生成任務,背后由“多模態潛在空間規劃”機制支持,能在建模階(jie)段統一安排(pai)角(jiao)色身份、語氣(qi)、對話內容與(yu)視覺呈(cheng)現,使得(de)成片更具整體(ti)感與(yu)敘事一致性。
此外,百度也強調了中文場景的適配能力,包(bao)括(kuo)中文發音(yin)結構的唇形匹配、語(yu)境識別(bie)與本地化音(yin)色模擬(ni),在中文語(yu)境下具(ju)備更高擬(ni)真度。
二、體驗:畫面風格不同,聲音能力初步開放
智東西上手(shou)體驗了百度(du)蒸汽(qi)機2.0視頻模(mo)型的(de)(de)四個版本,分別(bie)對應不同的(de)(de)生成能力側重。
1、蒸汽機2.0 Turbo(標準基礎款):沖浪(lang)者與巨浪(lang)共舞
這段效果很好,陽光(guang)透(tou)過海(hai)浪的(de)光(guang)感很自然,畫面層(ceng)次感強。沖(chong)浪者的(de)動作也很順暢,整體看不太(tai)出是AI生成的(de),挺接近實拍的(de)質感。
2、蒸汽機2.0 Pro(精準響(xiang)應,畫(hua)質清晰):海(hai)底世界的(de)美麗(li)魚群
魚群游動的畫面非(fei)常(chang)逼(bi)真,魚鰓(sai)這些細節都保留得不(bu)錯,海底的珊瑚也非(fei)常(chang)統一(yi),視覺上挺(ting)舒(shu)服的。就是偶(ou)爾幾幀里,魚尾有點失真。
3、蒸汽機2.0 Lite(創意簡單表達,極速生成):雨夜(ye)霓虹,城市漫步
前景(jing)的(de)行(xing)人(ren)走路還算自然,但背景(jing)里有些人(ren)動作有點(dian)僵(jiang)硬,甚至還有“瞬(shun)間消失”的(de)Bug。不過雨夜(ye)氛圍保留得不錯,水(shui)塘里的(de)雨滴、霓(ni)虹(hong)倒影這(zhe)些細節(jie)挺到位(wei)的(de),整體畫面觀感還行(xing)。
4、蒸汽機2.0 有聲版(支持音效生成(cheng)):鐘馗出場
本次(ci)體(ti)驗首幀圖選用了(le)游戲科(ke)學最新發(fa)布(bu)的《黑(hei)神話(hua)·鐘(zhong)馗(kui)》預告片中的一(yi)幕。智東西嘗試了(le)三個不同提示詞的生成結果,人物形象沒問(wen)題,老虎的形象也挺還原,背(bei)景(jing)音效基本跟提示詞能對上。
比較有意思的(de)是(shi),起初的(de)兩次嘗試(shi),“怒(nu)吼”這個關鍵(jian)詞(ci)在兩段(duan)(duan)視頻中(zhong)被模型(xing)理解成(cheng)了不同(tong)的(de)主體:一段(duan)(duan)是(shi)鐘馗怒(nu)吼,一段(duan)(duan)則(ze)是(shi)老虎發聲(sheng)(sheng)。而提示詞(ci)中(zhong)提到(dao)的(de)“倒(dao)吸涼氣(qi)”聲(sheng)(sheng)效未響應,不過背景音(yin)的(de)氛圍(wei)感呈(cheng)現尚可。
在第三(san)次(ci)調整(zheng)提示詞后,鐘馗(kui)的臺詞得到了較準確的還原,音色、語氣與人物形象較為契合(he),嘴(zui)型同步效(xiao)果也(ye)很清(qing)晰(xi),聲音生(sheng)成與畫(hua)面銜接更(geng)為自然。
提示詞1:需背(bei)景音。主體(ti)(虎(hu)背(bei)上的鐘馗)低(di)頭(tou)靜止,緩慢抬頭(tou),抬頭(tou)瞬間,背(bei)后(hou)有(you)兩三人傳出(chu)倒吸涼氣的害怕聲。同時,坐(zuo)騎老虎(hu)有(you)一聲怒(nu)吼。場景為山林、低(di)霧、陰雨天氣,整(zheng)體(ti)氛圍壓抑(yi)、肅殺(sha)。
提示詞2:需背景音。主體(ti)低頭靜止,緩慢抬頭,抬頭瞬間,背后有兩(liang)三人(ren)傳出(chu)倒吸涼(liang)氣的害怕聲。同時,坐騎老虎有一聲怒(nu)吼(hou)。場景為山林、低霧、陰(yin)雨天氣,整體(ti)氛(fen)圍(wei)壓抑、肅殺。
提示詞3:需背景音(yin)。主(zhu)體為(wei)騎在虎背上的鐘馗,初始低頭(tou)(tou)靜止,隨后緩慢(man)抬頭(tou)(tou)。在抬頭(tou)(tou)至目視(shi)前方的瞬間,鐘馗開口喊道:“罰惡司——鐘馗!”聲音(yin)洪亮、有氣勢。陰雨(yu)天氣,氛(fen)圍壓抑肅(su)殺(sha)。
結語:一體化生成已站穩,表現仍需持續打磨
百度此次將“畫(hua)面、音效、對白(bai)”打包生成(cheng),仍具一定標志性。相(xiang)比(bi)早期“靜音片段+后期配音”的(de)做(zuo)法(fa),如(ru)今一體化生成(cheng)的(de)路徑的(de)確更省力也(ye)更直觀(guan)。
但(dan)從(cong)當(dang)前體(ti)驗來看,聲(sheng)音生成的(de)準(zhun)確(que)性與口(kou)型協(xie)調仍存在(zai)(zai)一(yi)(yi)定差距,尤其在(zai)(zai)多角色對話、強調動作與臺(tai)詞同步的(de)場景下,模型的(de)時(shi)序(xu)控(kong)制還未(wei)完全成熟。不過,整體(ti)上百度(du)蒸(zheng)汽機(ji)在(zai)(zai)“形(xing)神音容”一(yi)(yi)體(ti)化生成方向上,邁出了可見的(de)一(yi)(yi)步。