近日,由南洋理工大學、加州理工學院、西湖大學、加州大學、牛津大學、南京大學、香港大學、劍橋大學、哈佛大學及麻省理工學院等頂尖高校與科研機構組成的聯合團隊,發布了一項關于三維視覺重建技術的前沿研究。該研究系統梳理了前饋模型在3D重建與視圖合成領域的應用進展,重點分析了點云、3D高斯散斑(3DGS)、神經輻射場(NeRF)等底層表示架構的技術特性。
傳統3D重建技術如運動恢復結構(SfM)長期依賴場景專屬優化流程,需通過特征點匹配、三角測量等步驟耗時數小時甚至數天完成建模。2020年出現的NeRF技術雖能生成高質量新視圖,但其神經網絡模型仍需針對每個場景單獨訓練,無法直接遷移至其他場景。2023年誕生的3DGS技術通過微小高斯橢球體顯式構建場景,顯著提升了渲染速度,但泛化能力不足的問題仍未解決。
研究指出,前饋模型通過單次前向傳播實現3D重建的技術突破,正在重構計算機視覺、虛擬現實(VR)及數字孿生等領域的技術范式。這類模型通過海量數據訓練獲得通用能力,可直接從少量2D圖像推斷3D場景結構,其處理速度較傳統方法提升數個數量級,為機器人實時感知、交互式3D內容創作等應用開辟了新路徑。
在技術實現層面,研究詳細解析了前饋模型的演進路徑。針對NeRF模型的泛化改進中,PixelNeRF開創性提出條件NeRF框架,通過動態調整輸入圖像特征實現跨場景預測;CodeNeRF進一步引入全局潛在碼編碼場景特征;MVSNeRF則借鑒傳統多視圖立體匹配技術,構建3D成本體積提升幾何預測精度。大型重建模型LRM采用三平面表示架構,結合Transformer實現端到端3D特征解碼,展示了大規模模型在通用重建中的潛力。
點云表示領域,DUSt3R模型通過回歸像素對齊的點地圖,統一了單目與雙目重建流程,甚至可在無相機參數條件下工作。后續改進如MASt3R引入局部特征匹配提升精度,Fast3R設計全局融合Transformer處理多視圖輸入,Spann3R與MUSt3R則通過內存機制實現視頻序列的漸進式3D表示更新。
針對3DGS技術的即時生成需求,研究區分了預測高斯圖與預測高斯體積兩條技術路徑。前者如Splatter Image通過U-Net從單圖預測像素對齊的3D高斯,GRM與Flash3D分別利用大規模數據先驗與深度預測器提升重建質量;后者如LaRa構建3D特征體積后重建高斯分布,Triplane-Gaussian則探索三平面表示降低計算成本。多視圖輔助方法MVSplat通過成本體積構建顯著提升了高斯定位精度。
在經典3D表示領域,研究關注了網格、占用及符號距離函數(SDF)等方向的技術突破。Pixel2Mesh通過變形初始網格匹配輸入圖像輪廓,擴散模型驅動的One-2-3-45與Wonder3D分別實現多視圖一致性網格生成及法線圖輔助重建。Any-Shot GIN與SparseNeuS則實現了從圖像到占用表示及SDF的前饋預測。
研究特別指出,跳過顯式3D表示的直接視圖合成方法正成為新熱點。場景表示變換器(SRT)通過Transformer編碼器-解碼器結構直接輸出目標視角像素顏色,Zero-1-to-3通過修改文生圖擴散模型實現單視圖新視圖合成,ReconX等視頻擴散模型則利用隱式3D結構知識生成多視圖一致序列。
技術評估顯示,前饋模型在無姿態重建、動態場景處理等任務中展現出獨特優勢。基于Pointmap的模型可同步恢復相機參數,降低3D內容創作門檻;快速推理能力使其適用于運動人物捕捉、自動駕駛場景理解等動態場景。但研究同時指出,當前技術仍面臨多模態數據融合不足、極端條件泛化能力有限、高分辨率輸入計算成本高企等挑戰。











