克雷西發自凹非寺量子位|公眾號CVPR2025獎項出爐!謝賽寧蘇昊齊獲青年學者獎。該獎項面向獲得博士學位不超過7年的早期研究工作者,表彰他們在計算機視覺領域的杰出研究貢獻其中,蘇昊是李飛飛的博士生,他參與了對計算機視覺領域鼎鼎有名的ImageNet謝賽寧以一作身份和何愷明合作完成ResNeXt,同時也參與了MAE,都是計算機視覺領域影響深遠的工作。最值得關注的CVPR2025最佳論文獎也新鮮出爐!今年只有一篇論文獲獎:《VGGT:VisualGeometryGroundedTransformer》,由Meta和牛津大學聯合提出,第一作者為牛津大學Meta聯培博士王建元。
VGGT是首個能在單次前饋中端到端預測完整3D場景信息的大型Transformer,性能超越多項現有幾何或深度學習方法,具有廣泛的應用潛力。BestStudentPaper頒給《NeuralInverseRenderingfromPropagatingLight》,由多倫多大學、卡內基梅隆大學等聯合帶來。它首次提出針對從多視角、時間分辨的光傳播視頻進行物理基礎的神經逆向渲染(NeuralInverseRendering)。BestPaperHonorableMention一共有4篇,分別是:MegaSaM:Accurate,Fast,andRobustStructureandMotionfromCasualDynamicVideosNavigationWorldModelsMolmoandPixMo:OpenWeightsandOpenDataforState-of-the-ArtVision-LanguageModels3DStudentSplattingandScooping最佳論文VGGT:VisualGeometryGroundedTransformer論文鏈接:https://arxiv.org/abs/2503.11651傳統的三維視覺(如Structure-from-Motion、Multi-viewStereo)方法嚴重依賴幾何優化(如BundleAdjustment),不僅計算復雜、時間消耗大,還難以端到端訓練。本研究提出的問題是:能否使用簡單的前饋神經網絡(無后處理)同時預測所有核心3D屬性(相機參數、深度圖、點云圖、3D軌跡),并優于傳統幾何優化方案?VGGT基于VisionTransformer,采用交替“全局-幀內”自注意力(AlternatingAttention)機制。它不含幾何歸納偏置,僅靠大量3D標注數據自學習。實現輸入:1張到200張圖像;輸出:每張圖的相機內外參、深度圖、點圖、特征圖(用于點追蹤)。
輸入圖像被分塊為patchtokens,每幀加入一個“相機token”和多個“寄存token”來分別學習相機參與與全局場景特性。AlternatingAttention中,Frame-wiseSelf-Attention處理每一幀圖像內的patchtokens(保持局部一致性);GlobalSelf-Attention實現不同幀間的tokens交互(整合多視角信息),兩種注意力機制在24層Transformer中交替堆疊。這種設計可以在保留單幀細節同時,整合多幀場景信息,同時相比直接使用Globalattention更省內存(最高40GB)。本文一作為王建元,他是牛津大學和MetaAI研究和VGG聯合博士生。
最佳學生論文NeuralInverseRenderingfromPropagatingLight論文鏈接:http://www.arxiv.org/abs/2506.05347這篇論文的核心內容是提出了一種基于物理模型的神經逆向渲染方法,用于從多視點、時間分辨的激光雷達(LiDAR)測量數據中重建場景幾何和材質,并生成新的光傳播視頻。
簡單來說,它實現了讓激光雷達不僅看見直接光,還能看懂間接光,并利用這些信息來重建場景。
核心思路有兩步:第一,提出時間分辨輻射緩存(time-resolvedradiancecache),記錄某一時刻某個位置的光線是從哪來的、經過了哪些反射。這個緩存可以理解為一個“光的地圖”,能告訴我們光是怎么傳播的。第二,用神經網絡加速計算?!疤崆皩W會”光的傳播規律。
這樣一來,只需要簡單查詢這個“光的記憶庫”,就能快速計算出場景中每一點的光線分布。這種技術在自動駕駛、3D建模和虛擬現實等領域有廣泛應用前景。BestPaperHonorableMentionMegaSaM:Accurate,Fast,andRobustStructureandMotionfromCasualDynamicVideos論文鏈接:https://arxiv.org/abs/2412.04463本文提出了一種系統,能夠從動態場景的普通單目視頻中準確、快速且魯棒地估計相機參數和深度圖。
傳統的結構光束法(SfM)和單目SLAM方法通常依賴于具有大量視差且主要為靜態場景的視頻輸入,在不滿足這些條件時,容易產生錯誤估計。本項研究開發了一個改進的深度視覺SLAM系統,通過對訓練方式和推理過程的優化,使得這個系統可以:適應真實世界中復雜的動態場景。處理相機運動軌跡不規則的視頻(甚至是相機運動很少的情況)。大量在合成和真實視頻上的實驗表明,該系統在相機姿態和深度估計方面的準確性和魯棒性明顯優于現有和同期工作,同時運行速度更快或相當。NavigationWorldModels論文鏈接:https://arxiv.org/abs/2412.03572這篇研究來自LeCun團隊。
本文提出了一種導航世界模型(NavigationWorldModel,簡稱NWM),這是一種可控的視頻生成模型,能夠基于過去的視覺觀測和導航動作預測未來的視覺觀測。
NWM采用了一種叫“條件擴散變換器”的技術,可以根據導航動作和過去的視覺信息,生成下一步可能的視覺畫面。這個模型是用大量“第一視角”(egocentric)視頻訓練的,包括人類和機器人在各種環境中的導航視頻,總參數規模達到10億。在熟悉的環境中,NWM可以“在腦內模擬”不同的路徑,并判斷哪條路徑能達到目標。不像固定規則的導航方法,NWM可以在規劃路徑時靈活加入新的約束(比如避開障礙物)。即使是在陌生的環境中,NWM也能從一張圖片(比如初始場景)出發,想象出可能的導航路徑,表現出很強的適應性。
實驗結果顯示,NWM可以在沒有現成導航策略的情況下,直接規劃出合理的路徑。對于其他導航系統生成的路徑,NWM可以對其進行排名,找到最優解。
MolmoandPixMo:OpenWeightsandOpenDataforState-of-the-ArtVision-LanguageModels論文鏈接:https://arxiv.org/abs/2409.17146本項研究提出了一個新的視覺-語言模型家族Molmo,是當時最強開源模型之一。它有72億參數規模,不僅拿下開源SOTA,還超越了Claude3.5Sonnet、Gemini1.5Pro等(注:該論文第一版發表時間為2024年9月)作者認為,現有性能最強的開源權重模型在很大程度上依賴于由閉源VLM生成的合成數據來獲得良好表現,實質上是將這些閉源模型“蒸餾”成開源模型。因此,作者認為學術界一直缺乏關于如何從零開始構建高性能VLM的基礎知識,Molmo就是基于這一背景提出。
Molmo模型架構采用標準的視覺編碼器(ViT)+語言模型設計,模型設計與優化方面,Molmo提出了若干新策略。例如重疊多裁剪(overlappingmulti-crop)圖像處理策略、改進了視覺-語言連接模塊、設計了支持指點能力的訓練流程,這些創新提高了模型對復雜視覺任務(如定位、計數、自然圖像理解)的能力。他們還創建了一組全新數據集PixMo,完全沒有依賴外部閉源模型生成。其中包括用于預訓練的高細節圖像描述數據集、用于微調的自由問答圖像數據集,以及一個創新的二維指點(pointing)數據集。此外,PixMo還包含數個輔助的合成數據集,增強模型在讀表、讀圖、讀鐘表等特定技能上的能力。
3DStudentSplattingandScooping論文鏈接:https://arxiv.org/abs/2503.10148這項研究提出了一個新的3D模型——StudentSplattingandScooping,簡稱SSS,其作者全部為華人,且均來自英國高校。隨著3DGS(3D高斯潑濺)逐漸成為眾多模型的基礎組件,任何對3DGS本身的改進都可能帶來巨大的收益,為此,作者致力于改進3DGS的基本范式和公式結構。但3DGS本質上是一個未歸一化的混合模型,因此不必局限于高斯分布,也不一定要采用潑濺方式。因此,作者提出了一種由靈活的Student’st分布(distribution)組成的新型混合模型,它具有正密度(潑濺Splatting)和負密度(挖空Scooping)兩種形式,這就是其名稱的由來。與傳統高斯相比,Student’st分布通過可學習的尾部厚度參數實現了對從Cauchy到Gaussian的廣泛分布建模能力,使得SSS在表達能力上更為強大。
但在提供更強表達能力的同時,SSS也帶來了新的學習挑戰,主要是參數耦合問題和負密度引入的優化復雜性。
為此,作者還提出了一種新的、具有理論依據的采樣優化方法——SGHMC。SGHMC通過在優化過程中引入動量變量(momentum)和受控噪聲項,使得參數在優化過程中能跳出局部最優,同時能有效緩解參數之間的耦合問題。通過在多個數據集、設置和評測指標上的全面評估與對比,作者證明了SSS在質量和參數效率方面優于現有方法。在使用相似數量組件的情況下,SSS可實現相當甚至更高的渲染質量,同時在某些場景下可將組件數量最多減少82%,仍保持可比的結果。最后,再次祝賀所有獲獎團隊與學者!