北大施柏鑫團隊、貝式計算CVPR研究：視頻里輕松換衣服、加柯基貝式計算

<nav id="ocg8w"></nav>

<menu id="ocg8w"></menu>

<menu id="ocg8w"><tt id="ocg8w"></tt></menu>

北大施柏鑫團隊、貝式計算CVPR研究：視頻里輕松換衣服、加柯基貝式計算

作者: 小錢 2025-06-24 21:34:52

閱讀(66)

信息密度最高、情感表達最豐富的媒介之一，高度還原現實的復雜性與細節。正因如此，視頻也是編輯難度最高的一類數字內容。在傳統的視頻編輯流程中，若要調整或替換主體、場景、色彩或是移除一個物體，往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊，也很難在復雜場景中保持編輯內容的時間一致性。近年來，生成式AI尤其是擴散模型與多模態大模型的快速迭代，為視頻編輯帶來了全新的解題思路。從早期基于規則的特效工具，到目標識別與自動分割，再到基于文本指令的視頻生成與重繪，盡管AI已經為視頻編輯帶來了效率與可控性的雙重提升，但在精度要求較高的場景中仍存在一系列挑戰，例如當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍；對于背景復雜或多目標場景，可能會出現錯位、模糊或語義偏差。針對于此，北京大學相機智能實驗室（施柏鑫團隊）聯合OpenBayes貝式計算，以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊，共同提出了一種結合草圖與文本引導的視頻實例重繪方法VIRES，支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。該方法利用文本生成視頻模型的先驗知識，確保時間上的一致性，同時還提出了帶有標準化自適應縮放機制的SequentialControlNet，能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。更進一步地，研究團隊在DiT（diffusiontransformer）backbone中引入草圖注意力機制，以解讀并注入細顆粒度的草圖語義。實驗結果表明，VIRES在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有SOTA模型。VIRES與5種現有方法在不同數據集上的多類指標得分相關研究以「VIRES:VideoInstanceRepaintingviaSketchandTextGuidedGeneration」為題，已入選CVPR2025。論文主頁：https://hjzheng.net/projects/VIRES/項目開源地址：https://github.com/suimuc/VIRESHuggingFace地址：https://huggingface.co/suimu/VIRES研究所用數據集下載地址：https://go.hyper.ai/n5pgy大規模視頻實例數據集VireSet為了實現精準的可控視頻實例重繪，研究團隊標注了大量視頻實例的Sketch序列、Mask以及文本描述，提出了一個配備詳細注釋的大規模視頻實例數據集VireSet。其中包含了86k視頻片段、連續的視頻Mask、詳細的草圖序列，以及高質量的文本描述。此前，Meta曾開源了一個大規模視頻分割數據集SegmentAnythingVideodataset（SA-V數據集），提供了51k個視頻以及643k個實例Mask。然而，其中實例Mask的標注是間隔4幀標注一次，因此FPS為6，導致Mask非常不連貫。為了得到連貫的視頻實例Mask，研究團隊利用預訓練的SAM-2模型，對中間幀進行標注，從而將Mask的FPS提高到24。效果對比如下所示：原視頻SA-V提供的Mask研究團隊標注的Mask隨后，研究團隊采用預訓練的PLLaVA模型為每個視頻片段生成文本描述，并利用邊緣檢測算法HED提取每個視頻實例的Sketch序列，為每個實例提供結構上的指導信息。Thevideoshowsasmall,dark-coloredgoatwithablueandwhitestripedclothdrapedoveritsback.Thegoatisseenwalkingacrossagrassyareawithpatchesofdirt.Thebackgroundincludesgreenvegetationandsomesunlightfilteringthroughthetrees,creatingasereneoutdoorsetting.Thegoatappearstobemovingatasteadypace.結合草圖與文本引導的視頻實例重繪方法VIRESVIRES主要由3大模塊組成：帶有標準化自適應縮放的SequentialControlNet，帶有草圖注意力機制的DiTbackbone，以及用于改進解碼過程的草圖感知編碼器，VIRES的工作流程如下圖所示。VIRES的工作流程如圖a所示，輸入視頻首先被VAE壓縮64倍空間緯度和4倍時間緯度，變成潛碼，噪聲會根據Mask序列被選擇性地添加到潛碼中。隨后，該噪聲潛碼被送入去噪網絡（Denoisingnetwork）進行去噪，如圖b所示。該網絡由多個具有時間和空間注意力機制的Transformer塊堆疊組成。為了實現對實例屬性的精確控制，研究團隊提出了SequentialControlNet，從Sketch序列中提取結構布局，如圖c所示。為了自適應地捕捉Sketch序列中的細節，團隊引入了Standardizedself-scaling來增強Sketch序列中黑色邊緣線與白色背景之間的高對比度過渡。此外，為了確保穩定且高效的訓練，其根據視頻潛碼特征的均值，對齊處理后的Sketch特征與視頻潛碼特征，確保Sketch特征和視頻潛碼特征具有相似的數據分布。為了在潛在空間中解釋和注入細粒度的草圖語義，研究團隊設計了SketchAttention來增強去噪網絡的空間注意力塊，如圖d所示，SketchAttention結合了一個預定義的二進制矩陣A，以指示視頻潛碼與Sketch序列之間的對應關系。最后，為了在潛空間內將編輯結果與Sketch序列進一步對齊，團隊引入了草圖感知編碼器，提取多級Sketch特征來指導解碼過程，如圖e所示。VIRES的4個應用場景：重繪，替換，生成與消除文本指令可以傳達一般的視頻編輯目標，但在用戶意圖解釋方面仍留有相當大的進步空間。因此，最近的研究引入了額外的引導信息（例如，草圖）以實現更精確的控制。部分現有的方法，如RAVE，利用Zero-Shot的方式，將圖片編輯模型擴展成視頻編輯模型，但由于依賴預訓練的文本到圖像模型，該方法在時間一致性上表現不佳，不可避免地導致畫面閃爍。AlightorangeandwhitefishswimminginanaquariumVIRES通過利用文本到視頻模型的生成先驗，保持了時間一致性并生成了令人滿意的結果。Alightorangeandwhitefishswimminginanaquarium另外一些方法，如VideoComposer，在文本到圖像模型中引入時間建模層并微調，但該方法對組合性的關注限制了編輯視頻與提供的Sketch序列之間的準確對齊，導致細粒度編輯效果不佳，如下圖所示效果，人物衣服的袖子消失。Aplayerswearsalightgreenjerseywiththewhitenumber1onthebackVIRES提出SequentialControlNet和定制的模塊來有效處理Sketch序列，將編輯視頻與提供的Sketch序列準確對齊，實現細粒度編輯。效果如下圖所示：Aplayerswearsalightgreenjerseywiththewhitenumber1ontheback對于每個視頻實例，提供重繪的控制條件，包括Sketch序列、Mask序列和相應的文本描述，VIRES能夠生成與條件一致的編輯視頻。如下所示，VIRES有4個主要應用場景，首先是視頻實例重繪，例如更換人物身著衣服的材質和顏色；其次是視頻實例替換，例如將視頻中的紅色皮卡替換成黑色SUV。第三是定制實例生成，如演示視頻中在戶外雪地增加一只柯基；最后一個場景是指定實例消除，例如刪除視頻中的足球。VIRES在多項指標上超越現有SOTA模型研究團隊將VIRES與5種目前最先進的方法進行了比較，包括Rerender(SIGGRAPHAsia’23)，VidToMe(CVPR’24)，Text2Video-zero（ICCV’23），RAVE(ICCV’23)，VideoComposer(NeurIPS’24)。為了確保詳細的比較，其不僅在VireSet數據集上進行測試，還在業內廣泛使用的DAVIS（CVPR’16）數據集上進行了測試。實驗結果顯示，VIRES在客觀評價指標：視覺感知質量（PSNR）、空間結構一致性（SSIM）、幀運動準確性（WE）、幀間一致性（FC）和文本描述一致性（TC）方面均取得了最佳結果。此外，團隊還進行了兩項用戶調研，其一是視覺質量評估（VQE），參與者會看到由VIRES和對比編輯方法生成的編輯結果，需要選擇最具視覺吸引力的視頻片段。其二是文本對齊評估（TAE），給定一個對應的文本描述，要求參與者從同一組編輯后的結果中選擇最符合該描述的視頻片段。在用戶調研中，VIRES均取得了最佳結果。VIRES與5種現有方法在外觀編輯上的表現對比：VIRES與5種現有方法在結構編輯上的效果對比：另外值得一提的是，在Sketch引導視頻生成方面，VIRES還支持根據文本描述直接從Sketch序列生成完整視頻。在稀疏幀引導視頻編輯方面，VIRES支持只提供第一幀的Sketch來編輯視頻。效果如下所示?？煽匾曨l生成領域的持續探索總結來看，VIRES在草圖與文本引導下實現了實例結構一致性，而從某種角度來看，其也是面向「如何讓空間結構信息在視頻生成中穩定傳遞」這一重要挑戰，給出了一種可靠的解決方案。與此同時，該研究團隊步履不停，在突破這一類目標級控制之后，還將目光投向了全景級別的可控視頻生成。該研究團隊提出了一種能夠以最小改動，有效將預訓練文本生成視頻模型擴展至全景領域的方法，并將其命名為PanoWan。該方法采用了緯度感知采樣（latitude-awaresampling）以避免緯度方向的圖像畸變，同時引入旋轉語義去噪機制（rotatedsemanticdenoising）和像素級填充解碼策略（paddedpixel-wisedecoding），以實現經度邊界的無縫過渡。實驗結果表明，PanoWan在全景視頻生成任務中的表現達SOTA級別，并在零樣本下游任務中展現出良好的泛化能力。相關論文現已發布于arXiv：https://arxiv.org/abs/2505.22016。聚焦該研究團隊，北京大學相機智能實驗室（http://camera.pku.edu.cn），負責人施柏鑫，北京大學計算機學院視頻與視覺技術研究所副所長，長聘副教授（研究員）、博士生導師；北京智源學者；北大-智平方具身智能聯合實驗室主任。日本東京大學博士，麻省理工學院媒體實驗室博士后。研究方向為計算攝像學與計算機視覺，發表論文200余篇（包括TPAMI論文30篇，計算機視覺三大頂級會議論文92篇）。論文獲評IEEE/CVF計算機視覺與模式識別會議（CVPR）2024最佳論文亞軍（BestPaper,Runners-Up）、國際計算攝像會議（ICCP）2015最佳論文亞軍、國際計算機視覺會議（ICCV）2015最佳論文候選，獲得日本大川研究助成獎（2021）、中國電子學會青年科學家獎（2024）。科技部人工智能重大專項首席科學家，國家自然科學基金重點項目負責人，國家級青年人才計劃入選者。擔任國際頂級期刊TPAMI、IJCV編委，頂級會議CVPR、ICCV、ECCV領域主席。APSIPA杰出講者、CCF杰出會員、IEEE/CSIG高級會員。主要合作者OpenBayes貝式計算作為國內領先的人工智能服務商，深耕工業研究與科研支持領域，通過為新一代異構芯片嫁接經典軟件生態及機器學習模型，進而為工業企業及高?？蒲袡C構等提供更加快速、易用的數據科學計算產品，其產品已被數十家大型工業場景或頭部科研院所采用。雙方共同在可控視頻生成領域的探索已經取得了階段性成果，相信在這一校企合作模式下，也將加速推進高質量成果早日落地產業。文中視頻鏈接：https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ

今日熱聞

中國疾控中心：奧密克戎變異株傳播力和免疫逃逸能力略有增強

《巫師4》主創回應希里主角爭議：玩后再發表意見！

農業農村部：中國80%的水產品來自養殖，全球養殖水產品60%來自中國

蔡瀾遺信公布

這個周末，黃浦有個24小時不間息的夏日狂歡好去處

社評：“團結十講”是賴清德的絕望政治秀

簽表出爐：張本兄妹林鐘勛申裕斌，國乒17人次出賽錢天一身兼3項

中國不許有人趁亂搞事！美伊大戰一觸即發，央視釋放三航母信號

商品期貨早盤漲跌互現：焦炭跌超4%動力煤漲超2%

14年前網易最短命的旗艦端游，僅運營一年就停運，萬人請愿復活

友情鏈接

信陽生活網事欽州生活網事野三坡拓展基地

野花直播免费观看日本更新最新