智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西7月25日消息,今天,前Meta員工沈俊瀟(Shawn Shen)在海外社交媒體X上宣布,其和Enmin Zhou聯合創立的Memories.ai,正式推出其首款大型視覺記憶模型(Large Visual Memory Model)

沈俊瀟還宣布Memories.ai已完成由Susa Ventures領投,Crane Venture Partners、三星Next、Fusion Fund等機構跟投的800萬美元(約合人民幣5730萬元)種子輪融資

感興(xing)趣(qu)的用戶立即享受首(shou)月免費體驗,無需任何附加條件。

體(ti)驗地址:

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

沈俊瀟官宣(xuan)推文(來源:X)

這一技術旨在為多模態大語言模型(multi-modal LLMs)賦予視覺記憶回溯能力。該模型實現了視覺記憶檢索功能,能夠解析用(yong)戶意圖(tu),檢索相關視(shi)覺記憶片段,整合關聯(lian)的視(shi)覺記憶信息,并基(ji)于(yu)這(zhe)些記憶和用(yong)戶查詢進行推理。

其創新點在于智能(neng)決策機制,能(neng)自(zi)主判斷何時、如何及調取(qu)哪些視(shi)覺(jue)(jue)記憶(yi)。完成記憶(yi)信(xin)息整(zheng)合后(hou),模(mo)型(xing)能(neng)生成記憶(yi)引用(yong),并(bing)以正確(que)輸出格(ge)式回答用(yong)戶問題,這(zhe)使得(de)多模(mo)態大(da)模(mo)型(xing)具備無限長(chang)視(shi)覺(jue)(jue)記憶(yi)上下(xia)文(wen)處理能(neng)力。

Memories.ai的兩位聯合創始人均是華人,沈俊瀟在博客中透露自己14歲就遠(yuan)赴英國讀高中。

一、兩位華人聯合創立,曾14歲就遠赴英國求學

1999年(nian)(nian)出生的(de)沈俊瀟(xiao),初中在蘇州上學(xue)(xue)(xue)(xue)(xue)(xue)(xue),14歲就(jiu)獲(huo)得獎學(xue)(xue)(xue)(xue)(xue)(xue)(xue)金到遠(yuan)赴英(ying)國讀高(gao)中。領(ling)英(ying)主頁顯示,其本碩(shuo)博均在劍橋(qiao)大(da)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)就(jiu)讀,2019年(nian)(nian)取(qu)得了(le)工(gong)程(cheng)專業(ye)的(de)文(wen)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)位( 劍橋(qiao)大(da)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)等部分高(gao)校(xiao)保留傳統BA授予(yu)制(zhi)度,其工(gong)程(cheng)專業(ye)畢業(ye)生仍獲(huo)BA學(xue)(xue)(xue)(xue)(xue)(xue)(xue)位),2020年(nian)(nian)取(qu)得都柏(bo)林圣三一學(xue)(xue)(xue)(xue)(xue)(xue)(xue)院的(de)工(gong)程(cheng)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)碩(shuo)士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)位,2023年(nian)(nian)獲(huo)得工(gong)程(cheng)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)哲學(xue)(xue)(xue)(xue)(xue)(xue)(xue)博士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)位。

在(zai)本科就讀(du)期(qi)間(jian),沈俊瀟還曾回到上海摩根士(shi)丹(dan)利短期(qi)實(shi)習,在(zai)博士(shi)就讀(du)期(qi)間(jian),2022年,他到了Meta現實(shi)實(shi)驗(yan)室(shi)工作,擔任研究(jiu)科學家職位。2024年沈俊瀟離職創(chuang)業,聯合創(chuang)立了Memories.ai。

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

▲左:沈俊瀟(xiao),右:Enmin Zhou(圖(tu)源:Memories.ai)

Memories.ai聯合創始人(ren)兼CTO?Enmin Zhou,2020年從美(mei)國加州大學洛杉磯(ji)分校(xiao)畢業(ye),獲得數學與(yu)計算(suan)科(ke)學學士(shi)學位,后在美(mei)國布朗大學就(jiu)讀數據科(ke)學專業(ye),于(yu)2022年畢業(ye)。

本科(ke)就(jiu)讀期間他也曾回到上海,在上海深察信息科(ke)技短暫實習,碩士畢(bi)業(ye)后在Meta就(jiu)職(zhi),擔任機器學(xue)習工程(cheng)師一職(zhi)。2024年Enmin Zhou離職(zhi)創業(ye),聯合創立了Memories.ai。

在(zai)博客中,沈俊瀟寫道,他們正(zheng)是(shi)因(yin)為意識到解(jie)決視覺(jue)記憶問題刻不(bu)容緩,才離開(kai)Meta共同創立Memories.ai。

二、視頻問答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1

從性能上看,在視頻零樣本分類基準測試中,Memories.ai的分數都較歷史第一的模型PE-G都一定上漲,其中在HMD8數據庫中,分數上漲了7.6分,在K400數據庫中,分數上漲了6.6分

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

視頻檢索基準測試中,Memories.ai在所有數據集中的分數都超越了歷史第一Perception Encoder,各項測試均奪得桂冠,其中在AVN數據集的文字轉視頻測試中,其分數較Perception Encoder提升了11分

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

視頻問答基準測試中,Memories.ai在MVBench、NextQA以及Temp Compass數據集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text數據集中,超越谷歌Gemini 2.5 Pro和OpenAI?GPT4.1,取(qu)得新的性能記錄。

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

99年華人科學家創業,掏出全球首個視覺記憶大模型,無限上下文,已獲三星投資

▲包括OpenAI和(he)谷歌模型(xing)系統在內(nei)的比較數(shu)據(ju),均源自OpenAI和(he)谷歌各自的官方(fang)發布博(bo)客。

三、受人類記憶機制啟發,建立初始記憶架構

在另一篇技術博客中,沈俊瀟介紹到,Memories.ai的創造是受了人類記憶機制啟發(fa),而(er)創立(li)的(de)(de)整個大視(shi)覺記(ji)憶模(mo)型的(de)(de)初始記(ji)憶架構,包括(kuo):

將記(ji)憶(yi)線索(suo)轉化為(wei)可搜索(suo)請求的(de)查(cha)詢(xun)模(mo)型(xing)(xing)、用于(yu)粗粒度(du)檢索(suo)的(de)檢索(suo)模(mo)型(xing)(xing)、全(quan)模(mo)態索(suo)引模(mo)型(xing)(xing)、用于(yu)細(xi)(xi)粒度(du)細(xi)(xi)節提取(qu)的(de)選擇模(mo)型(xing)(xing)、用于(yu)記(ji)憶(yi)監(jian)控的(de)反思模(mo)型(xing)(xing),以及用于(yu)記(ji)憶(yi)重構的(de)重建模(mo)型(xing)(xing)。

記(ji)憶檢索(suo)過程可分解為以下(xia)關鍵(jian)步驟:

1、記憶線索:激發回憶過程

回憶通常始(shi)于線索。線索可以是外部(bu)的,如問(wen)題、舊照片、旋(xuan)律(lv)、氣味、地名;也可以是內(nei)部(bu)的,如念(nian)頭、情(qing)緒。當大腦接收線索時,會激活與目(mu)標記憶相關的特(te)定神經網絡。

在(zai)系統中,采用(yong)查詢模(mo)型將線(xian)索(suo)(主要為基于文(wen)本的(de)線(xian)索(suo))轉化為具體的(de)、可搜索(suo)的(de)內容,涉及文(wen)本解析和轉錄等步(bu)驟,將線(xian)索(suo)轉化為適合后續處理的(de)格式。

2、粗粒度檢索:初步 “篩選”

激活過程(cheng)并非總是精確的,初始檢索(suo)(suo)往(wang)往(wang)粗略且泛化。大腦快速搜索(suo)(suo)海量信息,尋找與當(dang)前線索(suo)(suo)最(zui)匹配(pei)的模式,一些相關的視覺片(pian)段可(ke)能會(hui)被初步激活,此為 “線索(suo)(suo)依賴性回憶”。

在系(xi)統中(zhong),使用(yong)檢(jian)(jian)索模(mo)(mo)型進(jin)行粗粒度(du)檢(jian)(jian)索。對(dui)于上(shang)一步解析的(de)查詢對(dui)象,檢(jian)(jian)索模(mo)(mo)型選擇(ze)合適的(de)數據庫(ku)和查詢方法,識別所(suo)有相(xiang)關(guan)片段(duan),減(jian)輕(qing) “線索依賴性回憶” 的(de)影響(xiang),并激活所(suo)有相(xiang)關(guan)視(shi)覺片段(duan)。

3、細粒度細節提取:深度 “閱讀” 與 “編輯”

當初始線索激活相關區域后,大腦進入更精細的(de)處(chu)理階段,記憶(yi)的(de)重構特性開始顯(xian)現(xian):

細節補全:大腦(nao)填補記憶(yi)的細(xi)節(jie),這些(xie)細(xi)節(jie)可能(neng)基于對世界的理解、邏輯推理和過(guo)往(wang)經(jing)驗推斷補充。

關聯整合:大腦(nao)將(jiang)不(bu)同信息片段(duan)(如視覺圖(tu)像(xiang)、聽(ting)覺片段(duan)和情(qing)緒波動(dong))關聯(lian)整合,形成更完整的記憶圖(tu)景。

過濾選擇:大腦根(gen)據當前目標和問題,從所(suo)有激活信息中過(guo)濾出最相關和最重要的片(pian)段,具(ju)有高度目的性。

在系統中,使用(yong)全模(mo)態字(zi)幕(mu)模(mo)型(xing)和選(xuan)擇模(mo)型(xing)進行細粒度細節提取。對于所(suo)有(you)視覺片(pian)段(duan),全模(mo)態字(zi)幕(mu)代理結(jie)合記(ji)憶(yi)線(xian)索(suo)(suo)為關鍵核心內容添加(jia)字(zi)幕(mu)。選(xuan)擇代理基于所(suo)有(you)已字(zi)幕(mu)內容進行推理,篩選(xuan)出若干(gan)最(zui)相關的視覺片(pian)段(duan),縮小(xiao)記(ji)憶(yi)搜索(suo)(suo)范圍,基本完成視覺記(ji)憶(yi)檢索(suo)(suo)過(guo)程。

4、記憶監控:記憶的 “自我校正”

回憶過程中,大腦會監控和(he)驗(yan)證(zheng)檢索到的信(xin)息(xi),評(ping)估(gu)其(qi)準確性(xing)和(he)真實(shi)性(xing),包括(kuo)將其(qi)與(yu)現有的知識、信(xin)念(nian)和(he)其(qi)他(ta)相(xiang)關記憶進(jin)行比較。若回憶信(xin)息(xi)與(yu)已知事實(shi)相(xiang)矛盾,可能(neng)會嘗試進(jin)一步回憶或修正。

在系統中,使用反思模型(xing)進(jin)行記憶檢測和驗(yan)證(zheng)。當(dang)檢索到的記憶內容與事實沖突或不一致時,會重新進(jin)入細(xi)粒(li)度細(xi)節(jie)提取(qu)階(jie)段。

5、記憶重構:從碎片到 “精修版”

回(hui)憶(yi)復(fu)雜事件時,大(da)腦傾(qing)向于提(ti)取事件的(de)核心(xin)要點、主要參與者和(he)關鍵結果,過(guo)濾掉(diao)較不重(zhong)要或冗余的(de)信(xin)息,將(jiang)其概括為更(geng)易存(cun)儲(chu)和(he)檢索的(de)形式。重(zhong)構過(guo)程(cheng)還涉及將(jiang)分(fen)散的(de)記憶(yi)碎片整合成(cheng)有意義的(de)模式,組織成(cheng)連貫的(de)敘述或概念。

在系統中(zhong),使(shi)用(yong)重建模型進行記(ji)憶重構。基于(yu)記(ji)憶線索(suo)和所(suo)有當(dang)前檢(jian)索(suo)到的信(xin)息(xi),識別信(xin)息(xi)模式,利用(yong)世界知(zhi)識和邏輯推(tui)理補全缺失細節,過濾和精煉無關(guan)或冗余信(xin)息(xi),將(jiang)分散的感知(zhi)、概念(nian)和情(qing)感片段整合(he)成連貫(guan)、有意義的敘述或概念(nian)結構。

結語:或將成為AGI發展的重要節點

沈俊瀟在博客中稱“這是在通(tong)用人工智能(AGI)發(fa)展中的一步。”

Memories.ai此次推出的大型(xing)視(shi)覺記憶模型(xing),在技(ji)術路徑上以人類(lei)大腦的記憶機制為(wei)參照構建(jian)了初始架構,其具備的視(shi)覺記憶檢索、整合及推理能力,在視(shi)頻分類(lei)、檢索、問(wen)答(da)等(deng)基準測試中展現出一定性能優(you)勢。

而800萬美元(yuan)種子輪(約(yue)合人(ren)民(min)幣5730萬元(yuan))融資(zi)的(de)(de)完成,也(ye)體現了投資(zi)機構對該技(ji)術方向的(de)(de)關注(zhu)。