智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影

智東西AI前瞻7月27日報道,今日,騰訊混元正式發布3D世界模型1.0,并同步開源模型能力

這是騰訊首次將3D內容生成從“物體級”擴展至“世界級”,用戶只需一句話或一張圖,即可生成一個360度沉浸式、可漫游、可編輯的三維虛擬世界

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

騰訊混元3D團隊在接受智東西等媒體采訪時稱,世界模型1.0兼顧生成質量與工業應用可落地性,也初步應用于游戲開發、具身智能仿真、XR內容制作等(deng)場景。近日,該模型也被AI設(she)計Agent平臺(tai)Lovart等(deng)正式(shi)接入。

體驗指路://3d.hunyuan.tencent.com/sceneTo3D

Github項目地址://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

項(xiang)目主頁://3d-models.hunyuan.tencent.com/world/

Hugging Face、模(mo)型地址://huggingface.co/tencent/HunyuanWorld-1

一、從資產到世界,3D生成拓展到“可漫游空間”

混元3D世界模(mo)型1.0是騰(teng)訊首次(ci)將AI生(sheng)成能力從單個3D物體,擴(kuo)展至整套(tao)可(ke)編(bian)輯、可(ke)導出的360度(du)虛(xu)擬世界構建流程。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲效果圖(圖源:混元官(guan)方(fang))

該模型(xing)支持文(wen)本與圖(tu)像(xiang)輸入,用戶(hu)只需一(yi)句描述(shu)或一(yi)張(zhang)參(can)考圖(tu),即(ji)可生成一(yi)個具備空(kong)間一(yi)致性、支持自由漫游的3D場(chang)景(jing)。

與傳統2D全景(jing)生(sheng)成或靜態(tai)3D模(mo)型不同,混元3D世界(jie)模(mo)型具(ju)備“能(neng)走、能(neng)用(yong)、能(neng)改”的三重(zhong)特點:

1、生(sheng)成內容為完整封閉(bi)場景,用戶(hu)不僅(jin)可原地環視,還能通過鍵盤控制視角、方向(xiang),在空間中自由行走、漫游。

2、生成結果支持標準3D Mesh格式輸出,兼容Unity、Unreal、Blender等主流引擎,可直(zhi)接用于游戲原型驗(yan)證、動(dong)畫(hua)制(zhi)作或仿真建模。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲效果圖(圖源(yuan):混元官方(fang))

3、該(gai)模型基于自研的(de)語義(yi)層(ceng)次(ci)化(hua)算法,將場(chang)景結構拆解為前景物(wu)體、地形(xing)地貌與天(tian)空貼(tie)圖等模塊,用(yong)戶可對局部元素進(jin)行結構級修改。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲混元(yuan)世界模(mo)型1.0方(fang)法流(liu)程圖(圖源:混元(yuan)官方(fang))

二、從一張圖到一個空間,混元怎么把世界“拼”出來?

混元(yuan)團隊在架構(gou)設計上引入(ru)了3D與2D融合方案:前景(jing)采(cai)用高保真3D建模,中景(jing)通(tong)過多視角補齊完(wan)成空間閉合,遠景(jing)與天空則以(yi)圖(tu)像方式渲染(ran),實現兼(jian)顧細節質量與生成效率的折(zhe)中。

為了提升模型的泛化能力與穩定性,該系統目前僅支持風格化圖片、簡潔構圖、平視視角等輸入,能(neng)夠在(zai)有限樣(yang)本(ben)下準確解析語義意圖。

此外,混元還對模型的生成質量進行了定量評估,在紋理細節、美學水準、指令遵循等維度全面超越當前SOTA開源模型

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲(圖源:混(hun)元官(guan)方)

目(mu)前,該系統已支持(chi)初(chu)步的漫游交互與局部模型編輯,后續將拓展(zhan)動作層(ceng)建模能力(li),引入更(geng)強的物理仿真模塊與跨平臺輸出標準。

三、體驗:全景能看,場景能走,還能動手改

1、360度全景圖:快速生成,初具細節

  • 文生場景

在不包含人物(wu)(wu)的前提下,智(zhi)東西點擊系(xi)(xi)統內“隨機”按(an)鈕(niu),系(xi)(xi)統生成(cheng)如下指令:“硅基樹(shu)木與(yu)熒光植(zhi)物(wu)(wu),浮空(kong)孢(bao)子囊飄散,生物(wu)(wu)朋克生態,阿凡(fan)達電影概念藝術,紫藍(lan)漸變色(se)調。”

效果如下:

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

模型基本契合(he)設定場景(jing)風格,尤其在近(jin)景(jing)處(chu)理上表(biao)現出一定細節感,如地(di)表(biao)草根清晰可辨。不過(guo),整體細節仍略顯(xian)空泛,若(ruo)未來(lai)支持(chi)對話式增補,有(you)望進一步提升沉(chen)浸感與編(bian)輯靈活(huo)性。

  • 圖生場景

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲圖片由AI生成。

智東西上傳一張(zhang)風格相近的(de)參考圖后(hou),系統在(zai)理解與(yu)還原方(fang)面的(de)表現顯著提升,色彩、構(gou)圖和場景一致性均優于(yu)文生模式。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

2、漫游場景:可操作,可導出

  • 文生場景

智東(dong)西編寫了一(yi)段(duan)靈感(gan)源自“塞爾達傳說”的復雜指令,要求構建一(yi)個(ge)融(rong)合火山、古樹與(yu)漂浮(fu)島嶼(yu)的幻想高(gao)原。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

系統(tong)生成的場(chang)景除還原度高,還具(ju)備“可編輯場(chang)景”能力。用戶可通過GLB/PLY格式圖層,對局部(bu)模型進行拖拽、旋轉與縮放,并導(dao)出(chu)源文件供后(hou)續使用。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

  • 圖生場景

在“圖生場景(jing)”的功(gong)能體驗(yan)中,智東西(xi)上傳(chuan)一張偏古風的游(you)戲場景(jing)圖進行(xing)生成。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

▲圖片由AI生成。

系統生成畫面(mian)整(zheng)體符(fu)合原(yuan)圖(tu)風格,但由于參(can)考圖(tu)中元素密集,AI在切分圖(tu)層時準確度有限,影響后續編輯(ji)體驗。

騰訊混元3D世界模型開源!一句話,一張圖,造一個世界

當(dang)前版本(ben)已(yi)初步支(zhi)持(chi)基礎漫游操作與模型局部編(bian)輯,仍存在部分角度生(sheng)成不全、邊(bian)界(jie)穿透等問題。若未來支(zhi)持(chi)“以圖續(xu)圖”及生(sheng)成鏈路(lu)簡化,整體的可探索性與用戶(hu)體驗將顯著(zhu)提升。

結語:3D世界邁向關鍵一步,可用性已具雛形

就(jiu)當(dang)前版(ban)本而言,混元3D世界模型1.0在(zai)(zai)空間細節密度、圖層結構解析與交互完整性方面仍存在(zai)(zai)一定優(you)化空間,特別是在(zai)(zai)處理(li)復(fu)雜(za)參考圖和(he)動態交互時,生成(cheng)結果尚未(wei)完全(quan)穩定。

但與此(ci)同時,其在生成(cheng)(cheng)效率、結構分層、資產導出等核心能(neng)力上已具備較強可用(yong)性。無論是快(kuai)速搭(da)建虛擬場景,還(huan)是輸出可編(bian)輯資產用(yong)于(yu)后續開發,混(hun)元(yuan)模型初步打通了“從(cong)生成(cheng)(cheng)到應用(yong)”的(de)關鍵環節。

更為(wei)重(zhong)要的是,模(mo)型開源為(wei)開發者(zhe)與(yu)內(nei)容創(chuang)作者(zhe)提供(gong)了(le)真實可用的工具鏈(lian)入口,降低了(le)3D建(jian)(jian)模(mo)與(yu)交(jiao)互空間(jian)構建(jian)(jian)的技術門檻(jian)。

未來,若在可(ke)控性、物理(li)仿(fang)真、跨平(ping)臺兼容等方(fang)面持續推(tui)進,該模型或(huo)將成為AIGC三維(wei)內容生態的(de)重要基礎工具。