當(dāng)?shù)貢r間12月2日,斯坦福大學(xué)教授、AI領(lǐng)域的杰出學(xué)者李飛飛宣布,她創(chuàng)立的公司 World Labs 推出了首個創(chuàng)業(yè)項目成果——一款能夠通過單張靜態(tài)圖片生成3D交互式場景的AI工具。這一突破性技術(shù)為電影、游戲、模擬器等領(lǐng)域的內(nèi)容創(chuàng)作打開了新局面。
突破二維限制:從圖片到交互式3D場景
盡管已有許多AI工具可以將照片轉(zhuǎn)換為3D模型,但 World Labs 強(qiáng)調(diào),他們的工具具備獨特的交互性與可修改性。用戶不僅能夠調(diào)整攝像機(jī)位置、視野和光影效果,還可以動態(tài)更改對象顏色、創(chuàng)建聚光燈特效,甚至添加自動運(yùn)行的動態(tài)效果。這使生成的場景不再只是靜態(tài)的展示,而是可供實時探索與操控的數(shù)字空間。
根據(jù)World Labs介紹,與傳統(tǒng)的生成模型主要預(yù)測像素不同,World Labs的系統(tǒng)專注于預(yù)測3D場景。生成的場景不僅具有持久性,還支持實時移動與動態(tài)視角切換,避免了現(xiàn)有技術(shù)中常見的偽影與一致性問題。例如,用戶可以自由調(diào)整視角查看場景的每一處細(xì)節(jié),即便重新聚焦,場景也能保持一致。
World Labs的愿景:重新定義數(shù)字內(nèi)容創(chuàng)作
“大多數(shù)生成式AI工具仍停留在二維圖像或視頻內(nèi)容的制作上,” World Labs團(tuán)隊在博客中表示,“三維生成內(nèi)容能夠提供更高的操控性和一致性,這將徹底改變電影、游戲和數(shù)字模擬器的制作方式?!?
該技術(shù)已在部分創(chuàng)作者的工作流程中投入試用。內(nèi)容創(chuàng)作者埃里克·索洛里奧(Eric Solorio)表示,這一工具為他的創(chuàng)作流程提供了強(qiáng)大支持,使角色布置和精確的鏡頭調(diào)度更加高效便捷。此外,演示視頻顯示,用戶可以通過瀏覽器實時渲染這些3D場景,利用WASD鍵移動并拖動鼠標(biāo)實現(xiàn)交互,并通過滑塊調(diào)整景深(DoF)或模擬推拉變焦(dolly zoom)效果,增加場景的層次感和沉浸感。
技術(shù)局限與未來展望
盡管技術(shù)令人驚艷,但World Labs坦言,當(dāng)前版本仍存在一些限制。例如,用戶的移動范圍受限于較小的區(qū)域,場景邊界之外暫時無法探索,有時還會出現(xiàn)渲染錯誤,物體之間可能以不自然的方式混合。
盡管如此,World Labs的潛力已引起業(yè)內(nèi)廣泛關(guān)注。根據(jù) TechCrunch 報道,World Labs已籌集了2.3億美元投資,投資者名單包括AI領(lǐng)域知名人士 Geoffrey Hinton、Jeff Dean 和谷歌前CEO Eric Schmidt。目前公司估值超過10億美元,并計劃在2025年推出首款正式產(chǎn)品。
技術(shù)背景:李飛飛與World Labs團(tuán)隊
World Labs成立于2024年1月,由李飛飛與三位在AI領(lǐng)域經(jīng)驗豐富的聯(lián)合創(chuàng)始人——賈斯汀·約翰遜(密歇根大學(xué)助理教授)、克里斯托夫·拉斯納(Christoph Lassner)以及本·米爾登霍爾(Ben Mildenhall)共同創(chuàng)立。公司總部設(shè)在舊金山,目前擁有20名員工。
李飛飛在創(chuàng)立之初便明確指出,空間智能的核心在于將感知與行動關(guān)聯(lián)起來。她表示:“如果想讓AI超越當(dāng)前能力,我們需要的不只是能看、會說的AI,而是能感知環(huán)境并行動的AI?!?
這種愿景與當(dāng)前的“元宇宙”概念形成鮮明對比。李飛飛認(rèn)為,元宇宙因缺乏內(nèi)容而熱度迅速消退,而World Labs的技術(shù)則專注于創(chuàng)造真正的互動式內(nèi)容,有望填補(bǔ)這一空白。
技術(shù)應(yīng)用場景與市場潛力
World Labs認(rèn)為,他們的3D生成技術(shù)不僅能提升創(chuàng)作者的生產(chǎn)力,還將廣泛應(yīng)用于游戲、影視制作和教育培訓(xùn)等領(lǐng)域,為數(shù)字內(nèi)容創(chuàng)作提供全新工具。例如,動態(tài)3D場景的持久性和交互性將顯著提高影視制作中的場景搭建效率;在教育領(lǐng)域,這項技術(shù)也可以用于虛擬實驗室和模擬教學(xué),提供沉浸式學(xué)習(xí)體驗。
紐約大學(xué)助理教授謝賽寧評價道:“想象是生成式的,而控制則屬于3D?!?World Labs的創(chuàng)新正在重新定義生成式AI的邊界,為用戶提供更加直觀的操控和沉浸式探索的可能性。