MiniMax-Remover: Taming Bad Noise Helps Video Object Removal

要約

ビデオ拡散モデルの最近の進歩により、ビデオ編集技術の急速な進歩が促進されています。
ただし、ビデオ編集の重要なサブタスクであるビデオオブジェクトの削除は、幻覚オブジェクトや視覚アーティファクトなどの問題のために困難なままです。
さらに、既存の方法は、多くの場合、計算的に高価なサンプリング手順と分類器のないガイダンス(CFG)に依存しており、その結果、推論が遅くなります。
これらの制限に対処するために、新しい2段階のビデオオブジェクト削除アプローチであるMinimax-Removerを提案します。
テキスト条件はこのタスクに最適ではないという観察に動機付けられているため、テキスト入力とクロスアテナンス層を削除することにより、前提条件のビデオ生成モデルを簡素化し、最初の段階でより軽量で効率的なモデルアーキテクチャをもたらします。
第2段階では、ステージ1モデルによって生成され、人間のアノテーターによってキュレーションされた成功したビデオでリムーバーを蒸留しました。ミニマックス最適化戦略を使用して、編集品質と推論速度をさらに向上させました。
具体的には、内部の最大化は、故障の除去を行う敵対的な入力ノイズ(「悪いノイズ」)を識別しますが、外側の最小化ステップは、このような困難な条件下でも高品質の除去結果を生成するためにモデルを訓練します。
その結果、私たちの方法は、わずか6のサンプリングステップで最先端のビデオオブジェクト削除結果を達成し、CFGに依存せず、推論効率を大幅に改善します。
広範な実験は、既存の方法と比較してMinimax-Removerの有効性と優位性を示しています。
コードとビデオは、https://minimax-remover.github.ioで入手できます。

要約(オリジナル)

Recent advances in video diffusion models have driven rapid progress in video editing techniques. However, video object removal, a critical subtask of video editing, remains challenging due to issues such as hallucinated objects and visual artifacts. Furthermore, existing methods often rely on computationally expensive sampling procedures and classifier-free guidance (CFG), resulting in slow inference. To address these limitations, we propose MiniMax-Remover, a novel two-stage video object removal approach. Motivated by the observation that text condition is not best suited for this task, we simplify the pretrained video generation model by removing textual input and cross-attention layers, resulting in a more lightweight and efficient model architecture in the first stage. In the second stage, we distilled our remover on successful videos produced by the stage-1 model and curated by human annotators, using a minimax optimization strategy to further improve editing quality and inference speed. Specifically, the inner maximization identifies adversarial input noise (‘bad noise’) that makes failure removals, while the outer minimization step trains the model to generate high-quality removal results even under such challenging conditions. As a result, our method achieves a state-of-the-art video object removal results with as few as 6 sampling steps and doesn’t rely on CFG, significantly improving inference efficiency. Extensive experiments demonstrate the effectiveness and superiority of MiniMax-Remover compared to existing methods. Codes and Videos are available at: https://minimax-remover.github.io.

arxiv情報

著者 Bojia Zi,Weixuan Peng,Xianbiao Qi,Jianan Wang,Shihao Zhao,Rong Xiao,Kam-Fai Wong
発行日 2025-05-30 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク