
證券時報記者 陳雨康
今年興起的“龍蝦”(OpenClaw)熱潮展現出人工智能(AI)無所不能的一面,它可以抓數據、寫代碼、生成大片、接管計算機。然而一旦脫離屏幕,機器人面對現實世界時宛如稚嫩的孩童,僅能完成固定、流程化的動作,“莫拉維克悖論”橫亙在人類通往通用人工智能(AGI)的道路上。
世界模型則是破解這一困境的密鑰,它可讓機器人真正理解物理世界的規律,擁有思考和推理能力,是實現AGI的關鍵路徑。今年,圖靈獎得主楊立昆創辦世界模型公司,“AI教母”李飛飛的世界模型公司獲巨額融資,國內出現超20起世界模型相關融資事件,業內直呼世界模型或是AI下一個10年的重要風口。
多名AI領域的企業家對證券時報記者表示,世界模型能讓AI真正實現對物理世界的理解和交互,是實現AGI的必經之路。當下世界模型發展仍處早期,誰能率先撬動物理交互數據飛輪,誰就能搶占發展先機。
AI需在現實世界落地生根
OpenAI近日宣布關閉視頻生成應用Sora,并調整戰略方向:此后Sora團隊將專注于世界模型研究。
放棄AI生成現實,轉而讓AI理解現實,OpenAI的決定映射出行業的下一個戰略高地:世界模型。根據復旦大學等高校的闡釋,世界模型通過從感官數據中學習和預測運動、力以及空間關系等動態特性,來理解物理世界中事物的性質、運行規律和空間特性。借助世界模型,AI從認知、識別轉向理解、推理,是具身智能和客觀環境自主高效交互的基礎。
復旦大學管理學院院長助理、信息管理與商業智能系系主任張誠在接受證券時報記者采訪時表示,AI“思考”的本質是基于數據統計的概率預測,缺乏真正情感和對世界的深層認知。問題的根源在于模型主要建立在語言數據之上,當模型只通過文本學習世界時,其認知邊界也被限制在語言所能表達的范圍內;而世界模型能讓系統通過多模態信息,包括視覺、聽覺、空間動態等去刻畫環境運行的規律。
畢馬威中國汽車行業華東及華西區審計主管合伙人苗楨在接受證券時報記者采訪時表示,世界模型的核心價值,在于通過構建符合物理規則的虛擬平行世界,通過其環境空間理解、長時序推演預測輸出決策,實現場景推演、因果預測與長尾場景覆蓋,彌補純數據驅動模型對極端長尾場景泛化能力不足的短板。
若沒有世界模型,機器人的上限很可能是被動執行代碼的高級自動化工具??嵬劭萍紕撌既思鍯EO何弢向證券時報記者列舉了公司保潔機器人在城市場景落地中的實際難題:機器人遇到標準墻壁時可以避開,但當接近折斷的樹枝或不規則堆積物時,由于預設代碼中沒有這類物體的定義,系統會判定為不可通行障礙,導致原地停工。“若有世界模型,系統就能基于材質、物理特性進行預測,規劃繞行軌跡,甚至在安全前提下輕推物體通過,保持連續作業。”
世界模型融資盛宴正酣
基于世界模型的前景和潛力,國內外資本已大量押注。今年2月,李飛飛創立的世界模型企業完成10億美元融資;不久后,楊立昆的世界模型初創公司AMI也完成逾10億美元融資。
國內方面,企查查提供的數據顯示,今年以來,國內發生25起世界模型相關的融資事件,融資總額超22億元。其中,極佳視界3月宣告完成10億元的Pre-B輪融資,并在同月宣布其具身世界模型GigaWorld-1登上WorldArena榜首。
“世界模型的‘融資熱’,表明行業共識正在形成:AI從數字世界走向物理世界是下一個主戰場。”擎朗智能相關負責人在接受證券時報記者采訪時表示,過去10年,AI能力的躍遷主要發生在感知和語言層面。但要真正進入物理世界,就必須理解物理世界的運行規律:空間關系、因果關系和物理屬性。
上述負責人表示,資本押注世界模型,本質上是押注物理AI這個萬億級賽道。未來技術路線有望從大一統走向專業化分工,世界模型負責物理直覺,視覺—語言—動作模型(VLA)負責語義理解,底層控制負責精準執行。分工明確,資本也能找到更精準的切入點。
何弢對證券時報記者表示,2026年以來針對世界模型的密集高額融資,表明資本和技術界一致認定“大語言模型的下一站是物理世界”,世界模型是通往物理AI的必經之路,屬于具身智能的“ChatGPT時刻”即將來臨。在未來的世界模型行業競爭中,掌控規模化物理數據入口并實現商業閉環的企業,才能主導這一輪技術革命。
可以讓機器人變得更像“人”
過去幾年,以大語言模型為基礎的數字AGI重塑了數字世界。全球GDP中約有一半在物理世界,物理AGI仍有不可限量的增長空間。而物理AGI騰飛的基礎,在于世界模型?;诖饲霸诙说蕉四P秃痛诡惸P偷募夹g積累和數據沉淀,今年多家AI企業將業務支點切入到世界模型。
酷哇科技2月發布了Coowa WAM 2.0通用世界模型。何弢對記者表示,這一世界模型的推出,是為了解決具身智能行業普遍存在的“泛化能力缺失”和“產業發展上限”問題。過去,行業多依賴規則驅動或單一場景的端到端模型,WAM 2.0模型則賦予了多形態物理AI實體對復雜物理世界的常識性理解、幾何推演和因果預測能力。
同大語言模型依賴互聯網文本的數據飛輪一樣,世界模型迭代也有賴于物理終端在真實世界產生的高價值交互數據。何弢說,公司計劃將搭載WAM 2.0模型的城市管家類機器人直接推向城市街巷進行常態化作業,在創造商業收益的同時,不斷回流高質量物理世界數據,反哺模型迭代。
擎朗智能是服務機器人賽道的領軍企業,其商用服務機器人出貨量占比全球第一。該公司去年發布了全球首個針對服務行業的VLA模型KOM2.0。
擎朗智能有關負責人近日對證券時報記者透露,公司正積極探索將VLA模型同世界模型融合。VLA模型的短板在于缺乏對物理世界的因果理解,難以預判動作帶來的物理后果。世界模型是通向“少樣本學習”和“零樣本泛化”的關鍵,它能讓機器人在“腦?!敝心M動作后果,選擇最優策略。
“世界模型還是實現人機安全交互的基礎。在服務場景中,機器人需要預判行動后果,比如遞物時力度是否過猛等。沒有世界模型,機器人就無法真正理解這些因果鏈條。”上述負責人提到,“今年公司將在部分場景中試點引入世界模型的預測能力,提升機器人的環境適應性和安全性。”
聚焦工業場景、研發“藍領機器人”的上海開普勒機器人有限公司(以下簡稱“開普勒”)亦開始構建工業世界模型和家庭世界模型。開普勒首席技術官席奧在接受證券時報記者采訪時表示,公司計劃先將工業世界模型與工業VLA融合,并通過小規模POC(可行性驗證)驗證其效果,為未來大規模落地打下基礎。
數據壁壘或決定世界模型競爭力
過去一年被稱為具身智能元年,機器人“花拳繡腿”的同時,也暴露出不夠聰明的痛點。隨著越來越多的企業朝世界模型展開布局,有業內人士直言,2026年或是世界模型為AGI奠定基礎的元年。英偉達機器人主管Jim Fan今年曾發文稱,2026年將成為大世界模型真正為機器人以及更廣義的多模態AI奠定基礎的第一年。
盡管前景預期廣闊且演進速度可觀,世界模型賽道仍處于早期階段,業內尚未形成統一且成熟的技術范式。更令業界焦慮的是,高質量的物理世界數據稀缺,極大地制約世界模型普及。
何弢表示,世界模型的演進將高度綁定具身智能產業三大階段:從當前的垂類智能化轉型,到未來兩年的場景化協同作業,再到三至五年后的家庭場景普及。目前行業正處于從第一階段向第二階段跨越的關鍵期?,F階段主要挑戰在于高質量、多模態的真實物理世界交互數據極度匱乏。
“操作數據不能完全依賴互聯網視頻數據或計算機仿真數據。換句話說,溫室里長不出真正的世界模型,純靠云端仿真數據無法解決物理世界無盡的長尾問題?!焙螐|說。
擎朗智能有關負責人對記者表示,短期內,VLA結合強化學習已能解決大量實際問題。但從具身智能發展的中期來看,隨著機器人進入更開放、更復雜的環境(如家庭、公共場所),缺乏世界模型的系統會遭遇泛化瓶頸。屆時具備世界模型能力的玩家將形成代際優勢。從長期來看,世界模型將是通用機器人的必備能力。
“數據壁壘正在形成,先發優勢至關重要。高質量物理數據的獲取與規范使用是核心挑戰。”上述負責人強調,資本押注的是企業能否跑通“數據—模型—場景”飛輪。若企業能率先在真實場景中完成規模化部署,就可以形成先發優勢。