李飛飛發(fā)布空間智能首個AI模型，一張圖生成交互式3D場景

日期:2024-12-05 09:17 點擊數(shù):2025 來源: 共有條評論

分享到

當(dāng)?shù)貢r間12月2日，斯坦福大學(xué)教授、AI領(lǐng)域的杰出學(xué)者李飛飛宣布，她創(chuàng)立的公司 World Labs 推出了首個創(chuàng)業(yè)項目成果——一款能夠通過單張靜態(tài)圖片生成3D交互式場景的AI工具。這一突破性技術(shù)為電影、游戲、模擬器等領(lǐng)域的內(nèi)容創(chuàng)作打開了新局面。

突破二維限制：從圖片到交互式3D場景

盡管已有許多AI工具可以將照片轉(zhuǎn)換為3D模型，但 World Labs 強(qiáng)調(diào)，他們的工具具備獨特的交互性與可修改性。用戶不僅能夠調(diào)整攝像機(jī)位置、視野和光影效果，還可以動態(tài)更改對象顏色、創(chuàng)建聚光燈特效，甚至添加自動運(yùn)行的動態(tài)效果。這使生成的場景不再只是靜態(tài)的展示，而是可供實時探索與操控的數(shù)字空間。

根據(jù)World Labs介紹，與傳統(tǒng)的生成模型主要預(yù)測像素不同，World Labs的系統(tǒng)專注于預(yù)測3D場景。生成的場景不僅具有持久性，還支持實時移動與動態(tài)視角切換，避免了現(xiàn)有技術(shù)中常見的偽影與一致性問題。例如，用戶可以自由調(diào)整視角查看場景的每一處細(xì)節(jié)，即便重新聚焦，場景也能保持一致。

World Labs的愿景：重新定義數(shù)字內(nèi)容創(chuàng)作

“大多數(shù)生成式AI工具仍停留在二維圖像或視頻內(nèi)容的制作上，” World Labs團(tuán)隊在博客中表示，“三維生成內(nèi)容能夠提供更高的操控性和一致性，這將徹底改變電影、游戲和數(shù)字模擬器的制作方式?！?

該技術(shù)已在部分創(chuàng)作者的工作流程中投入試用。內(nèi)容創(chuàng)作者埃里克·索洛里奧（Eric Solorio）表示，這一工具為他的創(chuàng)作流程提供了強(qiáng)大支持，使角色布置和精確的鏡頭調(diào)度更加高效便捷。此外，演示視頻顯示，用戶可以通過瀏覽器實時渲染這些3D場景，利用WASD鍵移動并拖動鼠標(biāo)實現(xiàn)交互，并通過滑塊調(diào)整景深（DoF）或模擬推拉變焦（dolly zoom）效果，增加場景的層次感和沉浸感。

技術(shù)局限與未來展望

盡管技術(shù)令人驚艷，但World Labs坦言，當(dāng)前版本仍存在一些限制。例如，用戶的移動范圍受限于較小的區(qū)域，場景邊界之外暫時無法探索，有時還會出現(xiàn)渲染錯誤，物體之間可能以不自然的方式混合。

盡管如此，World Labs的潛力已引起業(yè)內(nèi)廣泛關(guān)注。根據(jù) TechCrunch 報道，World Labs已籌集了2.3億美元投資，投資者名單包括AI領(lǐng)域知名人士 Geoffrey Hinton、Jeff Dean 和谷歌前CEO Eric Schmidt。目前公司估值超過10億美元，并計劃在2025年推出首款正式產(chǎn)品。

技術(shù)背景：李飛飛與World Labs團(tuán)隊

World Labs成立于2024年1月，由李飛飛與三位在AI領(lǐng)域經(jīng)驗豐富的聯(lián)合創(chuàng)始人——賈斯汀·約翰遜（密歇根大學(xué)助理教授）、克里斯托夫·拉斯納（Christoph Lassner）以及本·米爾登霍爾（Ben Mildenhall）共同創(chuàng)立。公司總部設(shè)在舊金山，目前擁有20名員工。

李飛飛在創(chuàng)立之初便明確指出，空間智能的核心在于將感知與行動關(guān)聯(lián)起來。她表示：“如果想讓AI超越當(dāng)前能力，我們需要的不只是能看、會說的AI，而是能感知環(huán)境并行動的AI?！?

這種愿景與當(dāng)前的“元宇宙”概念形成鮮明對比。李飛飛認(rèn)為，元宇宙因缺乏內(nèi)容而熱度迅速消退，而World Labs的技術(shù)則專注于創(chuàng)造真正的互動式內(nèi)容，有望填補(bǔ)這一空白。

技術(shù)應(yīng)用場景與市場潛力

World Labs認(rèn)為，他們的3D生成技術(shù)不僅能提升創(chuàng)作者的生產(chǎn)力，還將廣泛應(yīng)用于游戲、影視制作和教育培訓(xùn)等領(lǐng)域，為數(shù)字內(nèi)容創(chuàng)作提供全新工具。例如，動態(tài)3D場景的持久性和交互性將顯著提高影視制作中的場景搭建效率；在教育領(lǐng)域，這項技術(shù)也可以用于虛擬實驗室和模擬教學(xué)，提供沉浸式學(xué)習(xí)體驗。

紐約大學(xué)助理教授謝賽寧評價道：“想象是生成式的，而控制則屬于3D?！?World Labs的創(chuàng)新正在重新定義生成式AI的邊界，為用戶提供更加直觀的操控和沉浸式探索的可能性。

【上一篇】【返回頂部】【關(guān)閉本頁】【下一篇】

亚洲 丝袜 另类 校园 欧美,多人性战交疯狂派对,JAPANESEFREE高清日本乱,好爽…又高潮了十分钟试看,天堂а√中文在线官网