信息密度最高、情感表達最豐富的媒介之一,高度還原現實的復雜性與細節。正因如此,視頻也是編輯難度最高的一類數字內容。在傳統的視頻編輯流程中,若要調整或替換主體、場景、色彩或是移除一個物體,往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊,也很難在復雜場景中保持編輯內容的時間一致性。
近年來,生成式AI尤其是擴散模型與多模態大模型的快速迭代,為視頻編輯帶來了全新的解題思路。從早期基于規則的特效工具,到目標識別與自動分割,再到基于文本指令的視頻生成與重繪,盡管AI已經為視頻編輯帶來了效率與可控性的雙重提升,但在精度要求較高的場景中仍存在一系列挑戰,例如當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍;對于背景復雜或多目標場景,可能會出現錯位、模糊或語義偏差。針對于此,北京大學相機智能實驗室(施柏鑫團隊)聯合OpenBayes貝式計算,以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊,共同提出了一種結合草圖與文本引導的視頻實例重繪方法VIRES,支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。該方法利用文本生成視頻模型的先驗知識,確保時間上的一致性,同時還提出了帶有標準化自適應縮放機制的SequentialControlNet,能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。
更進一步地,研究團隊在DiT(diffusiontransformer)backbone中引入草圖注意力機制,以解讀并注入細顆粒度的草圖語義。
實驗結果表明,VIRES在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有SOTA模型。
VIRES與5種現有方法在不同數據集上的多類指標得分相關研究以「VIRES:VideoInstanceRepaintingviaSketchandTextGuidedGeneration」為題,已入選CVPR2025。
論文主頁:https://hjzheng.net/projects/VIRES/項目開源地址:https://github.com/suimuc/VIRESHuggingFace地址:https://huggingface.co/suimu/VIRES研究所用數據集下載地址:https://go.hyper.ai/n5pgy大規模視頻實例數據集VireSet為了實現精準的可控視頻實例重繪,研究團隊標注了大量視頻實例的Sketch序列、Mask以及文本描述,提出了一個配備詳細注釋的大規模視頻實例數據集VireSet。其中包含了86k視頻片段、連續的視頻Mask、詳細的草圖序列,以及高質量的文本描述。
此前,Meta曾開源了一個大規模視頻分割數據集SegmentAnythingVideodataset(SA-V數據集),提供了51k個視頻以及643k個實例Mask。然而,其中實例Mask的標注是間隔4幀標注一次,因此FPS為6,導致Mask非常不連貫。為了得到連貫的視頻實例Mask,研究團隊利用預訓練的SAM-2模型,對中間幀進行標注,從而將Mask的FPS提高到24。
效果對比如下所示:原視頻SA-V提供的Mask研究團隊標注的Mask隨后,研究團隊采用預訓練的PLLaVA模型為每個視頻片段生成文本描述,并利用邊緣檢測算法HED提取每個視頻實例的Sketch序列,為每個實例提供結構上的指導信息。Thevideoshowsasmall,dark-coloredgoatwithablueandwhitestripedclothdrapedoveritsback.Thegoatisseenwalkingacrossagrassyareawithpatchesofdirt.Thebackgroundincludesgreenvegetationandsomesunlightfilteringthroughthetrees,creatingasereneoutdoorsetting.Thegoatappearstobemovingatasteadypace.結合草圖與文本引導的視頻實例重繪方法VIRESVIRES主要由3大模塊組成:帶有標準化自適應縮放的SequentialControlNet,帶有草圖注意力機制的DiTbackbone,以及用于改進解碼過程的草圖感知編碼器,VIRES的工作流程如下圖所示。
VIRES的工作流程如圖a所示,輸入視頻首先被VAE壓縮64倍空間緯度和4倍時間緯度,變成潛碼,噪聲會根據Mask序列被選擇性地添加到潛碼中。隨后,該噪聲潛碼被送入去噪網絡(Denoisingnetwork)進行去噪,如圖b所示。該網絡由多個具有時間和空間注意力機制的Transformer塊堆疊組成。為了實現對實例屬性的精確控制,研究團隊提出了SequentialControlNet,從Sketch序列中提取結構布局,如圖c所示。為了自適應地捕捉Sketch序列中的細節,團隊引入了Standardizedself-scaling來增強Sketch序列中黑色邊緣線與白色背景之間的高對比度過渡。此外,為了確保穩定且高效的訓練,其根據視頻潛碼特征的均值,對齊處理后的Sketch特征與視頻潛碼特征,確保Sketch特征和視頻潛碼特征具有相似的數據分布。為了在潛在空間中解釋和注入細粒度的草圖語義,研究團隊設計了SketchAttention來增強去噪網絡的空間注意力塊,如圖d所示,SketchAttention結合了一個預定義的二進制矩陣A,以指示視頻潛碼與Sketch序列之間的對應關系。最后,為了在潛空間內將編輯結果與Sketch序列進一步對齊,團隊引入了草圖感知編碼器,提取多級Sketch特征來指導解碼過程,如圖e所示。
VIRES的4個應用場景:重繪,替換,生成與消除文本指令可以傳達一般的視頻編輯目標,但在用戶意圖解釋方面仍留有相當大的進步空間。因此,最近的研究引入了額外的引導信息(例如,草圖)以實現更精確的控制。部分現有的方法,如RAVE,利用Zero-Shot的方式,將圖片編輯模型擴展成視頻編輯模型,但由于依賴預訓練的文本到圖像模型,該方法在時間一致性上表現不佳,不可避免地導致畫面閃爍。AlightorangeandwhitefishswimminginanaquariumVIRES通過利用文本到視頻模型的生成先驗,保持了時間一致性并生成了令人滿意的結果。Alightorangeandwhitefishswimminginanaquarium另外一些方法,如VideoComposer,在文本到圖像模型中引入時間建模層并微調,但該方法對組合性的關注限制了編輯視頻與提供的Sketch序列之間的準確對齊,導致細粒度編輯效果不佳,如下圖所示效果,人物衣服的袖子消失。Aplayerswearsalightgreenjerseywiththewhitenumber1onthebackVIRES提出SequentialControlNet和定制的模塊來有效處理Sketch序列,將編輯視頻與提供的Sketch序列準確對齊,實現細粒度編輯。
效果如下圖所示:Aplayerswearsalightgreenjerseywiththewhitenumber1ontheback對于每個視頻實例,提供重繪的控制條件,包括Sketch序列、Mask序列和相應的文本描述,VIRES能夠生成與條件一致的編輯視頻。如下所示,VIRES有4個主要應用場景,首先是視頻實例重繪,例如更換人物身著衣服的材質和顏色;其次是視頻實例替換,例如將視頻中的紅色皮卡替換成黑色SUV。
第三是定制實例生成,如演示視頻中在戶外雪地增加一只柯基;最后一個場景是指定實例消除,例如刪除視頻中的足球。
VIRES在多項指標上超越現有SOTA模型研究團隊將VIRES與5種目前最先進的方法進行了比較,包括Rerender(SIGGRAPHAsia’23),VidToMe(CVPR’24),Text2Video-zero(ICCV’23),RAVE(ICCV’23),VideoComposer(NeurIPS’24)。為了確保詳細的比較,其不僅在VireSet數據集上進行測試,還在業內廣泛使用的DAVIS(CVPR’16)數據集上進行了測試。
實驗結果顯示,VIRES在客觀評價指標:視覺感知質量(PSNR)、空間結構一致性(SSIM)、幀運動準確性(WE)、幀間一致性(FC)和文本描述一致性(TC)方面均取得了最佳結果。此外,團隊還進行了兩項用戶調研,其一是視覺質量評估(VQE),參與者會看到由VIRES和對比編輯方法生成的編輯結果,需要選擇最具視覺吸引力的視頻片段。其二是文本對齊評估(TAE),給定一個對應的文本描述,要求參與者從同一組編輯后的結果中選擇最符合該描述的視頻片段。在用戶調研中,VIRES均取得了最佳結果。VIRES與5種現有方法在外觀編輯上的表現對比:VIRES與5種現有方法在結構編輯上的效果對比:另外值得一提的是,在Sketch引導視頻生成方面,VIRES還支持根據文本描述直接從Sketch序列生成完整視頻。在稀疏幀引導視頻編輯方面,VIRES支持只提供第一幀的Sketch來編輯視頻。效果如下所示??煽匾曨l生成領域的持續探索總結來看,VIRES在草圖與文本引導下實現了實例結構一致性,而從某種角度來看,其也是面向「如何讓空間結構信息在視頻生成中穩定傳遞」這一重要挑戰,給出了一種可靠的解決方案。與此同時,該研究團隊步履不停,在突破這一類目標級控制之后,還將目光投向了全景級別的可控視頻生成。該研究團隊提出了一種能夠以最小改動,有效將預訓練文本生成視頻模型擴展至全景領域的方法,并將其命名為PanoWan。該方法采用了緯度感知采樣(latitude-awaresampling)以避免緯度方向的圖像畸變,同時引入旋轉語義去噪機制(rotatedsemanticdenoising)和像素級填充解碼策略(paddedpixel-wisedecoding),以實現經度邊界的無縫過渡。
實驗結果表明,PanoWan在全景視頻生成任務中的表現達SOTA級別,并在零樣本下游任務中展現出良好的泛化能力。相關論文現已發布于arXiv:https://arxiv.org/abs/2505.22016。聚焦該研究團隊,北京大學相機智能實驗室(http://camera.pku.edu.cn),負責人施柏鑫,北京大學計算機學院視頻與視覺技術研究所副所長,長聘副教授(研究員)、博士生導師;北京智源學者;北大-智平方具身智能聯合實驗室主任。日本東京大學博士,麻省理工學院媒體實驗室博士后。研究方向為計算攝像學與計算機視覺,發表論文200余篇(包括TPAMI論文30篇,計算機視覺三大頂級會議論文92篇)。論文獲評IEEE/CVF計算機視覺與模式識別會議(CVPR)2024最佳論文亞軍(BestPaper,Runners-Up)、國際計算攝像會議(ICCP)2015最佳論文亞軍、國際計算機視覺會議(ICCV)2015最佳論文候選,獲得日本大川研究助成獎(2021)、中國電子學會青年科學家獎(2024)。
科技部人工智能重大專項首席科學家,國家自然科學基金重點項目負責人,國家級青年人才計劃入選者。
擔任國際頂級期刊TPAMI、IJCV編委,頂級會議CVPR、ICCV、ECCV領域主席。APSIPA杰出講者、CCF杰出會員、IEEE/CSIG高級會員。主要合作者OpenBayes貝式計算作為國內領先的人工智能服務商,深耕工業研究與科研支持領域,通過為新一代異構芯片嫁接經典軟件生態及機器學習模型,進而為工業企業及高??蒲袡C構等提供更加快速、易用的數據科學計算產品,其產品已被數十家大型工業場景或頭部科研院所采用。雙方共同在可控視頻生成領域的探索已經取得了階段性成果,相信在這一校企合作模式下,也將加速推進高質量成果早日落地產業。
文中視頻鏈接:https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ