智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

智(zhi)東西7月26日報(bao)道,今天,商湯科技(ji)董(dong)事長兼(jian)CEO徐立在2025世界人工智(zhi)能(neng)大會(WAIC)開幕式上,發表了以《人工智(zhi)能(neng)的十年演(yan)進》為(wei)題(ti)的主(zhu)旨(zhi)演(yan)講。

徐立認為,過去十年,人工智能經歷了三次跳躍:先是從深度學習驅動的感知智能,由CNN、ResNet等算法和ImageNet的1400萬張標注圖片,開啟了垂直領域的視覺應用

接著2017-2018年,Transformer的出現帶來生成式智能。這些模型采用海量高密度文本信息進行學習,模型泛化能力、通用性不斷提升。再到今天多模態大模型、智能體、具身智能與世界模型依(yi)次登場,普(pu)羅大(da)眾(zhong)對(dui)AI技術(shu)的認知也來(lai)到高峰。

在AI不同階段的發展過程中,數據始終是智能的來源:感知時代靠人工標注,“把一個人10年的知識傳給了AI”;生成式階段依賴自然語言,但互聯網上的自然語言數據總有用盡的一天。未來,AI技術需要轉向“真實世界互動數據”,因(yin)為只(zhi)有主動與環境交互才能快速(su)進(jin)化。

為跨越虛擬世界與現實世界之間的差距,商湯已經打造了“開悟”世界模型,并于今天推出舉一反千的“開悟”平臺。這(zhe)一平臺可生(sheng)成(cheng)符合3D真(zhen)實情況、物理規律(lv)的(de)多視角視頻(pin),可在自(zi)(zi)動駕駛等場景中實現AI的(de)自(zi)(zi)舉與(yu)自(zi)(zi)學(xue)。

徐立(li)總結道(dao),人工智(zhi)能正沿著“感知世界(jie)(jie)—理解世界(jie)(jie)—生成世界(jie)(jie)”的路徑前行,最終將與現實硬件交互,改(gai)變我們的世界(jie)(jie)。

以下是徐(xu)立在WAIC開幕(mu)式上的完整演講:

一、AI技術三次跳躍,智能從哪里來?

各位朋友(you)大家好,很高(gao)興有機會在這(zhe)里分享一下這(zhe)個(ge)我們關于人工智(zhi)能演進的一些(xie)思考。

題目上(shang)我(wo)們加了(le)一個人(ren)工(gong)(gong)智能的十(shi)(shi)年(nian)(nian)演進(jin),原(yuan)因(yin)(yin)(yin)是過往的十(shi)(shi)年(nian)(nian),也是我(wo)們見證人(ren)工(gong)(gong)智能認知變化最快的十(shi)(shi)年(nian)(nian),另(ling)外的原(yuan)因(yin)(yin)(yin)也是因(yin)(yin)(yin)為我(wo)們公司做了(le)十(shi)(shi)年(nian)(nian),如(ru)果是各位(wei)領(ling)導站在這(zhe)里,那可能可以談人(ren)工(gong)(gong)智能的50年(nian)(nian),而我(wo)們從過往的十(shi)(shi)年(nian)(nian)開始談起。

我(wo)們(men)來看過(guo)往十年,谷歌的搜索(suo)引(yin)擎關于人工智能的熱度(du),你們(men)很(hen)容易看見(jian)它(ta)有三(san)個很(hen)明顯的跳(tiao)躍(yue),也(ye)就是在(zai)那(nei)個時間點上,這(zhe)個普羅大(da)眾的認知發生了一些規模(mo)化的變(bian)化。

最開始從感知智能(neng),也就是從深度學習進(jin)入(ru)到(dao)視覺,然(ran)后再(zai)有各種(zhong)算法的迭代,CNN、ResNet的發展(zhan)推動了第(di)一波(bo)人(ren)工智能(neng)行業的發展(zhan)。到(dao)2017-2018年的時候(hou),從Transformer到(dao)自然(ran)語言的模型發展(zhan),我們又進(jin)入(ru)到(dao)生成式智能(neng)的階段。

這兩個階段一直推動到現(xian)在行業(ye)的(de)發展和普羅大眾的(de)認知形成了高峰(feng),從ChatGPT,以至(zhi)于后ChatGPT的(de)智能體,多模態大模型,甚至(zhi)是對現(xian)實(shi)世界改變的(de)具身智能以及世界模型的(de)變化(hua)。

很(hen)有意(yi)思(si)的(de)是(shi)(shi),我們一(yi)(yi)直在思(si)考一(yi)(yi)個問題,在這個三個不同的(de)階段當中,智能本身從(cong)哪里來?當然算法的(de)迭代以(yi)及生產力的(de)爆發(fa),包括說GPU的(de)迭代是(shi)(shi)一(yi)(yi)個很(hen)重要(yao)(yao)(yao)的(de)要(yao)(yao)(yao)素(su),但是(shi)(shi)本質上還有一(yi)(yi)個要(yao)(yao)(yao)素(su)就是(shi)(shi)AI,機(ji)器學習到底學的(de)是(shi)(shi)什(shen)么?

從(cong)感(gan)知時代開(kai)始,其實(shi)(shi)我(wo)們(men)得益(yi)于互(hu)聯(lian)網(wang)上大(da)(da)量(liang)的數據,對現實(shi)(shi)世界的拷貝,已經存在了,包括圖片(pian)、視頻(pin)。所(suo)以(yi)(yi)感(gan)知時代,我(wo)們(men)是從(cong)標(biao)注當(dang)(dang)中(zhong)去獲取智能,也就是AI其實(shi)(shi)是從(cong)人的標(biao)注當(dang)(dang)中(zhong)獲取,通(tong)過大(da)(da)量(liang)的標(biao)注之后訓出(chu)一(yi)個一(yi)個模(mo)型。我(wo)們(men)當(dang)(dang)時推(tui)出(chu)的商湯(tang)方舟,蘊(yun)含(han)一(yi)萬(wan)多(duo)個模(mo)型,可以(yi)(yi)做(zuo)很(hen)多(duo)不同(tong)垂直(zhi)領域的任務(wu)。

在那個時代,機器的智能來自于(yu)學習這些東(dong)西,大(da)概(gai)是(shi)什么樣的一(yi)個數量(liang)級。在2012年,Hinton帶領團隊(dui)第一(yi)次在ImageNet上取得冠軍的時候,大(da)概(gai)是(shi)1400萬張圖片。

如果(guo)按(an)一(yi)個(ge)(ge)人(ren)的(de)(de)(de)標(biao)注來講,這個(ge)(ge)人(ren)的(de)(de)(de)工(gong)作大(da)概是(shi)10年(nian)左右(you)的(de)(de)(de)時間,也就是(shi)我(wo)們把一(yi)個(ge)(ge)人(ren)10年(nian)的(de)(de)(de)知(zhi)識傳給了AI。這個(ge)(ge)數據看(kan)上(shang)(shang)去(qu)好像很大(da),但實際上(shang)(shang)想(xiang)一(yi)想(xiang),如果(guo)只是(shi)單(dan)人(ren)10年(nian)的(de)(de)(de)數據,其實做很多的(de)(de)(de)泛化還是(shi)受限制。所以在(zai)那(nei)個(ge)(ge)階段,人(ren)工(gong)智能的(de)(de)(de)工(gong)具(ju)屬性(xing)非常明顯,基本上(shang)(shang)是(shi)垂(chui)直領域的(de)(de)(de)感知(zhi),也就是(shi)在(zai)很多垂(chui)直的(de)(de)(de)方向上(shang)(shang)面(mian),我(wo)們需要做專屬的(de)(de)(de)模型。

二、高密度語言數據催生智能,多模態融合成大趨勢

到了生成式人(ren)工(gong)(gong)智(zhi)能(neng),或者更加(jia)通(tong)用的(de)(de)(de)人(ren)工(gong)(gong)智(zhi)能(neng)有什么區(qu)別(bie)?我覺得一(yi)個(ge)很有意思的(de)(de)(de)區(qu)別(bie),就(jiu)是(shi)通(tong)用人(ren)工(gong)(gong)智(zhi)能(neng)是(shi)從自然語言開(kai)始的(de)(de)(de),但互(hu)聯網上的(de)(de)(de)文本大家想(xiang)一(yi)想(xiang),本身就(jiu)是(shi)蘊含知識的(de)(de)(de),它不需(xu)要后加(jia)工(gong)(gong)。

雖然(ran)我(wo)們(men)(men)看(kan)到互聯(lian)網上圖片(pian)和視(shi)頻(pin)數量遠大(da)于文本(ben)的(de)數量,但是文本(ben)的(de)知識密(mi)度可能更(geng)高(gao)。所以如果我(wo)們(men)(men)以GPT-3處理(li)7500億(yi)token來說,假設這是一個人認(ren)認(ren)真(zhen)真(zhen)作為自然(ran)語言(yan)創作者來開始(shi)寫的(de)話,他大(da)概要寫十(shi)(shi)萬年(nian)。也就是從十(shi)(shi)年(nian)到十(shi)(shi)萬年(nian)一萬倍的(de)數據量差。

自然語言的(de)(de)(de)(de)數(shu)據密度非常高(gao),從而使得說我(wo)們(men)的(de)(de)(de)(de)模型泛化能力(li)、通(tong)用性(xing)起(qi)來(lai)(lai)了。這才(cai)是推動現在(zai)通(tong)用人工(gong)智能發展的(de)(de)(de)(de)一(yi)個(ge)基石(shi),有(you)一(yi)個(ge)很(hen)好(hao)的(de)(de)(de)(de)底座。那當(dang)然,很(hen)容易我(wo)們(men)就看到說,這些數(shu)據都會被用盡(jin),圖片數(shu)據標(biao)注(zhu)是需要(yao)人來(lai)(lai)處(chu)理(li)的(de)(de)(de)(de),其(qi)實這也是一(yi)個(ge)人工(gong)的(de)(de)(de)(de)工(gong)作。

而自(zi)然(ran)語言(yan)(yan),據(ju)說在(zai)2027~2028年(nian),整個互聯網上的(de)(de)自(zi)然(ran)語言(yan)(yan)的(de)(de)數(shu)據(ju)都會被用盡。實(shi)際上,是(shi)(shi)語言(yan)(yan)生成(cheng)的(de)(de)速(su)度遠沒有算力的(de)(de)生長的(de)(de)速(su)度來得快,那(nei)這樣顯然(ran)形成(cheng)了一種模型的(de)(de)倒掛(gua)差(cha)。那(nei)能(neng)不能(neng)從原始的(de)(de)無序的(de)(de)圖像視頻(pin)當(dang)中獲取(qu)更多(duo)的(de)(de)知識呢?是(shi)(shi)有可(ke)能(neng)的(de)(de),但是(shi)(shi)這過程當(dang)中需要非常多(duo)的(de)(de)工(gong)作。

我(wo)們(men)也(ye)是在這過程當中(zhong)走一(yi)個很自然的(de)(de)(de)路,就是融合(he)我(wo)們(men)感知(zhi)的(de)(de)(de)能力和我(wo)們(men)自然語言的(de)(de)(de)能力,形(xing)成一(yi)種(zhong)原生(sheng)的(de)(de)(de)多模態,也(ye)就是說我(wo)們(men)構(gou)造圖和文(wen)的(de)(de)(de)連接,把圖和文(wen)生(sheng)成一(yi)種(zhong)更(geng)長的(de)(de)(de)思維(wei)(wei)鏈(lian)。然后用這個思維(wei)(wei)鏈(lian)再去(qu)不停地(di)去(qu)激(ji)發模型的(de)(de)(de)能力。

大(da)家知道智能本身應該是激發出來(lai)的(de),很難說(shuo)在完全沒有基礎設施上面,就(jiu)能夠長出這個智能。當然現在,剛才大(da)家聽(ting)到可以(yi)做說(shuo)遞歸(gui)的(de)自學習等等,可以(yi)基于現有的(de)模型(xing)往前推進。

但是本(ben)質意(yi)義上我們(men)(men)需(xu)要構造一條模(mo)型演化的(de)(de)道(dao)路(lu)。隨著我們(men)(men)加(jia)入了很多(duo)(duo)圖文演示,甚至(zhi)是更高階的(de)(de)思(si)維(wei)鏈的(de)(de)時候,我們(men)(men)發現一個(ge)很有意(yi)思(si)的(de)(de)現象。這張圖是我們(men)(men)要推出的(de)(de)日日新V6.5,最(zui)左(zuo)邊這張圖特別有意(yi)思(si),我們(men)(men)同一個(ge)模(mo)型能(neng)夠做好音頻(pin)的(de)(de)交互能(neng)力,多(duo)(duo)模(mo)態的(de)(de)推理能(neng)力。但是加(jia)入了足夠多(duo)(duo)、足夠長的(de)(de)多(duo)(duo)模(mo)態的(de)(de)思(si)維(wei)鏈之后(hou),我們(men)(men)的(de)(de)文本(ben)、純文本(ben)的(de)(de)推理能(neng)力也有一個(ge)很大的(de)(de)提升。

這(zhe)就是說(shuo),其實還有很多的(de)(de)(de)路線(xian),其實能(neng)夠把互聯(lian)網上其他的(de)(de)(de)模態(tai)的(de)(de)(de)數據的(de)(de)(de)知識抽(chou)離(li)出來(lai),融合到文(wen)本(ben)當中,使得(de)文(wen)本(ben)的(de)(de)(de)對(dui)空(kong)間的(de)(de)(de)理(li)解,對(dui)于物理(li)世(shi)界的(de)(de)(de)理(li)解能(neng)夠進一(yi)步地(di)(di)提升(sheng),從而說(shuo)這(zhe)樣的(de)(de)(de)一(yi)個(ge)文(wen)本(ben)模型也能(neng)夠更好(hao)地(di)(di)控制(zhi)(zhi)生(sheng)成,甚(shen)至是控制(zhi)(zhi)圖像和視頻生(sheng)成。

三、AI技術面臨“數據墻”,如何走進物理世界?

當(dang)然了,人類還是會面臨這樣一個(ge)缺失的問題,也(ye)就是說當(dang)窮(qiong)盡書(shu)本(ben)和互聯網的知識的時候,更多的智能從(cong)哪里來?第一代(dai)是標注來,第二代(dai)自然語言(yan)已經來了,第三代(dai)接下(xia)來怎(zen)么來?

那我們(men)來(lai)看(kan)看(kan)人是(shi)怎(zen)么來(lai)學(xue)(xue)習(xi)的(de),對不(bu)對?人從(cong)出生(sheng)開始,就(jiu)是(shi)跟(gen)現實(shi)世界(jie)來(lai)進行各(ge)種各(ge)樣的(de)探索,他不(bu)是(shi)先從(cong)學(xue)(xue)語言開始,也不(bu)是(shi)先從(cong)學(xue)(xue)認識東西開始,他跟(gen)世界(jie)的(de)交互(hu)和探索已經形(xing)成了很(hen)大的(de)這個智能(neng)的(de)增(zeng)長。這也就(jiu)是(shi)說,大家(jia)很(hen)自(zi)然地想(xiang)到,在圖像標(biao)注互(hu)聯網文本之外(wai),大家(jia)去采集大量的(de)跟(gen)真實(shi)世界(jie)互(hu)動(dong)的(de)數據。

為什(shen)么我(wo)說要大量(liang)的呢?是(shi)因(yin)為你(ni)需(xu)要探索不同的物(wu)理空間,就是(shi)比如(ru)說你(ni)需(xu)要有各種各樣(yang)的姿勢,各種各樣(yang)的角度(du),所以你(ni)的采(cai)集量(liang)會非常(chang)的大。現在(zai)(zai)很(hen)(hen)多機器(qi)人(ren)、具身(shen),我(wo)覺得最大的瓶(ping)頸還是(shi)在(zai)(zai)素材上(shang)面會有很(hen)(hen)大的需(xu)求。

當然(ran),這個也是(shi)(shi)非常顯然(ran)的(de)(de)。1963年(nian)有(you)一(yi)(yi)篇很(hen)有(you)意思的(de)(de)文(wen)章叫(jiao)主動(dong)貓(mao)和被動(dong)貓(mao),就(jiu)是(shi)(shi)他們(men)做了一(yi)(yi)個很(hen)有(you)意思的(de)(de)實驗,就(jiu)是(shi)(shi)一(yi)(yi)只(zhi)貓(mao)和另外一(yi)(yi)只(zhi)貓(mao)通過一(yi)(yi)個軸所相連。然(ran)后一(yi)(yi)只(zhi)貓(mao)是(shi)(shi)可以動(dong)的(de)(de),另外一(yi)(yi)只(zhi)貓(mao)不能動(dong),但是(shi)(shi)它們(men)兩個看到(dao)的(de)(de)東西(xi)都是(shi)(shi)一(yi)(yi)樣(yang)的(de)(de)。

也就(jiu)說同樣(yang)的視覺輸(shu)入,一(yi)只貓(mao)是(shi)可以(yi)跟(gen)(gen)現實(shi)世界互動(dong),另外(wai)一(yi)只貓(mao)不(bu)行的情況下(xia),那只會互動(dong)的貓(mao)顯(xian)然(ran)成長的速度(du)會非常的快。所以(yi)這也是(shi)具身(shen)(shen)的來源,為什么要去做具身(shen)(shen)智能,就(jiu)是(shi)因(yin)為跟(gen)(gen)現實(shi)世界的探索(suo)。

但(dan)還會面臨(lin)問題,因為如果真正通過機械去跟(gen)現(xian)實世界做互動,很顯然它的探索(suo)空間需(xu)要(yao)模擬(ni)的世界太大,有(you)(you)時候還會有(you)(you)一個模擬(ni)到現(xian)實的這個差距叫Sim-to-Real Gap。那(nei)有(you)(you)沒有(you)(you)可能通過現(xian)在的這種所謂(wei)的,對于現(xian)實世界的理解來(lai)做生成(cheng),理解生成(cheng)統一的世界模型。是有(you)(you)的,但(dan)是也會面臨(lin)挑戰。

比(bi)如說(shuo)用世界模(mo)(mo)(mo)型去生(sheng)成數(shu)據(ju),這是(shi)現在用世界模(mo)(mo)(mo)型做了很多的(de)(de)(de)(de)(de)叫自(zi)動駕駛方面的(de)(de)(de)(de)(de)領(ling)域(yu)的(de)(de)(de)(de)(de)生(sheng)成,也是(shi)最開始我(wo)們(men)做這個模(mo)(mo)(mo)型的(de)(de)(de)(de)(de)生(sheng)成。生(sheng)成的(de)(de)(de)(de)(de)質量很高(gao),但是(shi)很顯然它(ta)會(hui)違背物理的(de)(de)(de)(de)(de)法則。譬如說(shuo)十字路(lu)口車輛的(de)(de)(de)(de)(de)互相(xiang)穿越,有一種幽靈(ling)車的(de)(de)(de)(de)(de)感覺,還有一些隨機失控很難調整(zheng)。而(er)且大家知道生(sheng)成視頻(pin)再好的(de)(de)(de)(de)(de)模(mo)(mo)(mo)型,它(ta)生(sheng)成視頻(pin)的(de)(de)(de)(de)(de)響應速度會(hui)比(bi)較慢。

所以如果你需要來(lai)去(qu)對生成視(shi)頻進(jin)行實(shi)時交互的話,往(wang)往(wang)要等,而且可能(neng)還(huan)需要抽卡,抽出(chu)來(lai)一個視(shi)頻也不知道是什(shen)么。比如說抽出(chu)一個大象跟小松鼠(shu)在(zai)玩(wan)蹺(qiao)蹺(qiao)板,那這個就很隨(sui)機。

所以那怎(zen)么辦(ban)?那就是(shi)需要有個很好的對現實世界理(li)解的模(mo)型(xing)(xing),加上對3D理(li)解的模(mo)型(xing)(xing),來(lai)指導這個部分的能力。那么我(wo)(wo)們(men)推出我(wo)(wo)們(men)自己的“開(kai)悟”世界模(mo)型(xing)(xing),用(yong)我(wo)(wo)們(men)的日日新V6.5去賦能。“開(kai)悟”世界模(mo)型(xing)(xing)也是(shi)個視頻(pin)生成模(mo)型(xing)(xing),但(dan)是(shi)它考慮了(le)時間、空間的一致性。

我們(men)舉一個簡(jian)單(dan)的(de)例子。自(zi)(zi)動駕駛里面(mian)有一個叫7路攝像(xiang)頭視角的(de)車的(de)數據采集,很顯然需要花大量的(de)力氣來采集,但(dan)是我們(men)生(sheng)成的(de),就是可(ke)以用自(zi)(zi)然語言去生(sheng)成右邊的(de)7個攝像(xiang)頭生(sheng)成的(de)數據,我們(men)來看一下(xia)細節(jie)。

首先來看,這個(ge)(ge)車(che)從(cong)一(yi)個(ge)(ge)角度開到(dao)另外一(yi)個(ge)(ge)角度的(de)時候,在不(bu)同的(de)攝(she)像(xiang)頭里(li)的(de)位置(zhi),甚至都(dou)可以模擬出攝(she)像(xiang)頭的(de)形變,空間一(yi)致(zhi)性(xing)表現非常好(hao),只有一(yi)個(ge)(ge)完(wan)全對3DGS有充分理解(jie)之(zhi)后才能表達的(de),所(suo)以這也是這個(ge)(ge)模型本身很強(qiang)的(de)一(yi)個(ge)(ge)能力,否則沒有辦(ban)法(fa)用來做下一(yi)個(ge)(ge)階(jie)段的(de)訓練提(ti)升。

當(dang)然(ran)還有一種(zhong)是對空間的(de)一致性,比(bi)如這個車(che)(che)一會在(zai)前,一會在(zai)后,不同的(de)攝像頭拍到(dao)這個車(che)(che)的(de)不同時刻(ke),比(bi)如車(che)(che)牌應該都要(yao)(yao)一樣。如果我(wo)們有很好的(de)視頻生成引擎(qing),左邊(bian)(bian)生成一個,然(ran)后方(fang)向盤(pan)一轉,右邊(bian)(bian)一看那(nei)棵樹(shu)就飛走了,可能AI也(ye)搞糊涂了,這車(che)(che)也(ye)不會開,很顯(xian)然(ran)時空的(de)一致性要(yao)(yao)達到(dao)各(ge)種(zhong)各(ge)樣的(de)可控。

我來(lai)舉(ju)一個(ge)(ge)很有(you)意思的例子,自(zi)(zi)動駕(jia)駛(shi)里的一個(ge)(ge)Corner Case——加塞兒(er)(Cut-in),在(zai)自(zi)(zi)動駕(jia)駛(shi)里非(fei)常普遍。大家都覺得這可能是(shi)個(ge)(ge)難題(ti),對于人類駕(jia)駛(shi)來(lai)講也(ye)是(shi)個(ge)(ge)難題(ti)。新司(si)機(ji)不敢(gan)加塞,躲在(zai)后面半天不能走(zou),老司(si)機(ji)加塞,但事(shi)故率有(you)多少?22%的事(shi)故來(lai)自(zi)(zi)于加塞,所(suo)以自(zi)(zi)動駕(jia)駛(shi)得學習加塞。

怎么做呢?如(ru)果太(tai)保守,開不(bu)動;太(tai)激進,可(ke)能得撞。比(bi)如(ru)這(zhe)個(ge)Waymo的(de)車(che)很有(you)意思(si),兩(liang)輛車(che)都想(xiang)加(jia)(jia)塞,兩(liang)個(ge)都卡,又要(yao)加(jia)(jia)塞又都卡了,形成一種(zhong)博弈,然后就循環了。所以在這(zhe)種(zhong)過程中(zhong),它(ta)需要(yao)大量(liang)的(de)數據(ju)去訓練這(zhe)種(zhong)場景。但是如(ru)果真的(de)到路上去采這(zhe)個(ge)數據(ju),非常難采大量(liang)的(de)數據(ju),加(jia)(jia)塞的(de)數據(ju)在里面占的(de)比(bi)例比(bi)較少,那怎么辦?

那么世(shi)界模型能不能去生成(cheng)7個(ge)攝像頭的(de)加塞(sai)視(shi)頻?我們(men)來(lai)看一看,這(zhe)(zhe)個(ge)是(shi)(shi)一個(ge)大型車(che)輛的(de)加塞(sai),描述了(le)我們(men)的(de)方(fang)向(xiang)、時間、角(jiao)度。一起看下,這(zhe)(zhe)個(ge)大巴(ba)士從(cong)右邊加塞(sai)進來(lai),保(bao)證了(le)一致性(xing),那可(ke)以大生成(cheng)大量的(de)這(zhe)(zhe)個(ge)視(shi)頻,而(er)且關鍵是(shi)(shi)要可(ke)控穩定。

什么叫可(ke)控穩定(ding)?我(wo)們可(ke)以調節(jie)各種各樣生成(cheng)的(de)(de)可(ke)能性,譬如(ru)(ru)生成(cheng)各種不同光照的(de)(de)比(bi)如(ru)(ru)白天(tian)(tian)、黑夜,就不用再去開(kai)了;各種天(tian)(tian)氣的(de)(de)比(bi)如(ru)(ru)晴天(tian)(tian)、陰(yin)天(tian)(tian)、雨天(tian)(tian);各種道(dao)(dao)路(lu)結構的(de)(de),彎(wan)道(dao)(dao)、直道(dao)(dao),甚至可(ke)以開(kai)到F1賽(sai)道(dao)(dao)上都(dou)沒有問題。

F1 賽道加塞也是(shi)個常態。各種(zhong)各樣的(de)道路狀況,還有開(kai)車的(de)速度(du)(du),開(kai)進來速度(du)(du)快(kuai)、速度(du)(du)慢都要(yao)去做調整。還有車型包括小的(de)、大的(de),當然還有各種(zhong)各樣的(de)可能性(xing)。

所(suo)以(yi)(yi)既然我(wo)(wo)們能(neng)生成這(zhe)樣加塞的視頻,我(wo)(wo)們就可(ke)(ke)以(yi)(yi)走到一個(ge)探(tan)索世界的可(ke)(ke)能(neng)性,這(zhe)是我(wo)(wo)們最早做(zuo)無(wu)人駕駛的時候,做(zuo)一個(ge)模擬器(qi),大家(jia)都(dou)聽過機器(qi)人有這(zhe)樣的一個(ge)模擬平臺,所(suo)以(yi)(yi)機器(qi)人可(ke)(ke)以(yi)(yi)在(zai)模擬平臺上做(zuo)什(shen)么?

強化學習(xi),之后(hou)再運用(yong)到(dao)現實世界(jie),但(dan)往(wang)往(wang)這樣(yang)(yang)的(de)一(yi)個(ge)過程會(hui)有(you)個(ge)Sim to Real的(de)Gap。所以我們(men)在(zai)這種模擬仿真,甚(shen)至是高精度的(de)3D模擬仿真中做的(de)這個(ge)算法、探索,這個(ge)探索的(de)好處是它可以跟真實世界(jie)互動,有(you)強化學習(xi)來進行這樣(yang)(yang)的(de)探索,但(dan)是它用(yong)到(dao)現實世界(jie)中會(hui)有(you)很大的(de)差距(ju)。

今天(tian)隨著我(wo)們基模型的能力(li)越(yue)來(lai)越(yue)強,對(dui)世界的理解(jie)越(yue)來(lai)越(yue)深(shen)刻,理解(jie)跟生成的統(tong)一性(xing)就(jiu)使得(de)我(wo)們可以有這(zhe)(zhe)樣(yang)交互的可能性(xing),這(zhe)(zhe)個(ge)視頻非(fei)常的特別,也是我(wo)們今天(tian)會發的一款產(chan)品,可以看到它的輸(shu)入(ru)是什么(me)?方(fang)向盤、剎車以及(ji)油門這(zhe)(zhe)三個(ge)輸(shu)入(ru),控制了(le)現(xian)在的這(zhe)(zhe)個(ge)視頻生成。

這(zhe)(zhe)是一(yi)個(ge)(ge)看上去非常(chang)真實(shi)(shi)的(de)場(chang)(chang)景,七個(ge)(ge)攝(she)像頭(tou)(tou)的(de)視角(jiao),你就可以(yi)手把著方(fang)向盤來控制它的(de)方(fang)向,在(zai)現實(shi)(shi)的(de)街景場(chang)(chang)景中去開,然后邊上有各種各樣的(de)光照條件、車(che)輛條件,每個(ge)(ge)攝(she)像頭(tou)(tou)有不(bu)同的(de)視角(jiao),并且一(yi)致(zhi)化的(de)統(tong)一(yi),我覺得這(zhe)(zhe)就是在(zai)真實(shi)(shi)的(de)世(shi)界上開極品飛車(che)。

但有了這(zhe)樣的功能(neng)之后(hou),是不是可(ke)以(yi)輔助到(dao)很多(duo)行業的進步,對(dui)真(zhen)實世(shi)界的探索有更大的可(ke)能(neng)性,我(wo)們就(jiu)可(ke)以(yi)叫AI自舉(ju),用(yong)部分數據(ju)生成(cheng)更多(duo)數據(ju),然(ran)后(hou)再往前走,就(jiu)是Self Learning,有那(nei)么一點可(ke)能(neng)。

所以(yi)我們就在(zai)今天推(tui)出舉一(yi)反千“開(kai)悟”平臺,這個平臺現在(zai)誰(shui)都可以(yi)使用,用自然語言的(de)模式描述(shu)場景,描述(shu)你想要的(de)視(shi)頻段,它可以(yi)生成(cheng)非常多不同視(shi)角符合(he)3D真(zhen)實(shi)(shi)情況的(de)模型。我們要求的(de)不是(shi)視(shi)頻的(de)質量達到電影級別,而是(shi)它符合(he)物理(li)的(de)規則(ze)、物理(li)的(de)定律(lv),并且能夠真(zhen)正意義(yi)切進用戶的(de)使用場景,讓你在(zai)真(zhen)實(shi)(shi)的(de)世界中(zhong)開(kai)極品飛車。

最后(hou)我們來(lai)看AI發展(zhan)的三個階段,感知(zhi)世界(jie),更好地(di)理解世界(jie)才能做生成(cheng)世界(jie),最后(hou)可能和現(xian)實的硬件交互來(lai)改(gai)變我們的世界(jie)。