近日,智元牽頭聯(lián)合清華大學(xué)、麥吉爾大學(xué)完成的研究成果MANSION成功入選CVPR2026。該成果在全球首次提出面向整棟建筑的語言驅(qū)動多樓層3D場景生成框架,構(gòu)建大規(guī)模場景生態(tài)系統(tǒng),為具身智能落地復(fù)雜現(xiàn)實環(huán)境打造關(guān)鍵“數(shù)字試驗場”。
當(dāng)機器人在醫(yī)院跨樓層運送物資、在寫字樓完成多樓層配送、在家庭執(zhí)行跨空間家務(wù),這些長時程、跨樓層任務(wù),正是具身智能走向現(xiàn)實的核心考驗。當(dāng)前行業(yè)研究場景仍停留在“單層樣板間”,與真實世界需求存在顯著斷層。
近年來,機器人感知、操作、導(dǎo)航能力快速提升,但場景基準(zhǔn)嚴(yán)重滯后。真實掃描數(shù)據(jù)成本高、難編輯;現(xiàn)有合成環(huán)境多為單層布局,缺少樓梯、電梯、跨層連接等關(guān)鍵結(jié)構(gòu),無法支撐跨樓層、長時程復(fù)雜任務(wù)訓(xùn)練。
場景研究停留在“樣板間時代”,已成為制約具身智能走向現(xiàn)實的核心瓶頸。構(gòu)建可交互、可配置、貼近真實的樓宇級研究平臺,成為行業(yè)迫切需求。
為破解行業(yè)難題,該團隊創(chuàng)新推出MANSION混合框架,融合多模態(tài)大模型與幾何求解器,實現(xiàn)從自然語言指令到完整多樓層3D建筑的端到端生成。
區(qū)別于簡單房間拼接,MANSION從建筑全局邏輯出發(fā):先規(guī)劃整棟樓功能分區(qū)、垂直交通與整體風(fēng)格,再逐層生成拓?fù)浣Y(jié)構(gòu)與房間布局,通過幾何求解生成符合物理約束的平面圖,最終生成可直接在仿真器運行的交互式3D場景。框架從源頭保證樓梯、電梯、跨層結(jié)構(gòu)對齊合理,生成建筑連貫可用。
基于MANSION,團隊發(fā)布MansionWorld數(shù)據(jù)集:包含1000+棟多樓層建筑、2—10層、10000+房間,覆蓋住宅、辦公、醫(yī)院、學(xué)校、商超等全場景,支持導(dǎo)出至Blender、NVIDIAIsaacSim等平臺,全面賦能全球研究。
公開資料顯示,CVPR是計算機視覺領(lǐng)域全球頂級會議,MANSION的入選,標(biāo)志著學(xué)術(shù)界對這項工作的創(chuàng)新性與價值的認(rèn)可。從單層到多層、從靜態(tài)到可編輯、從“仿真場景”到“真實任務(wù)世界”,MANSION不僅是技術(shù)突破,更重新定義具身智能研究方向,即讓技術(shù)扎根真實需求,服務(wù)產(chǎn)業(yè)落地。
智元機器人表示,未來將持續(xù)深耕具身智能核心技術(shù),開放MansionWorld數(shù)據(jù)集與生態(tài)能力,攜手全球產(chǎn)學(xué)研伙伴,推動通用機器人走進樓宇、家庭、醫(yī)院、商場等復(fù)雜現(xiàn)實場景,以持續(xù)創(chuàng)新打造中國機器人全球技術(shù)名片。