要約
ビデオ修復は、視覚的に説得力のある方法でビデオ内の領域を塗りつぶすタスクです。
データの次元が高く、説得力のある結果を得るには時間的な一貫性が必要であるため、これは非常に困難です。
最近、拡散モデルは、画像やビデオを含む複雑なデータ分布のモデル化において目覚ましい結果を示しています。
それでもなお、このようなモデルはトレーニングと推論の実行に非常にコストがかかるため、ビデオへの適用性が大幅に低下し、不当な計算負荷が生じます。
ビデオ修復の場合、ビデオの高度な自動類似性のおかげで、拡散モデルのトレーニング データを入力ビデオに制限しながらも、非常に満足のいく結果が得られることを示します。
これにより、内部学習アプローチを採用することになり、ニューラル ネットワークのサイズを、画像修復に使用されている現在の拡散モデルよりも約 3 桁大幅に削減することもできます。
また、拡散プロセスの異なるノイズ レベルに対応する異なる学習間隔に拡散プロセスを分割することにより、内部学習のコンテキストで拡散モデルの効率的なトレーニングと推論を行うための新しい方法も導入します。
私たちの知る限り、これは純粋に拡散に基づいた最初のビデオ修復手法です。
他の方法ではオプティカル フロー推定などの追加コンポーネントが必要となるため、動的なテクスチャや複雑なモーションの場合のパフォーマンスが制限されます。
定性的および定量的な結果を示し、動的なテクスチャと複雑な動的な背景の場合、私たちの方法が最先端のパフォーマンスに達することを示しています。
要約(オリジナル)
Video inpainting is the task of filling a region in a video in a visually convincing manner. It is very challenging due to the high dimensionality of the data and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Such models remain nonetheless very expensive to train and to perform inference with, which strongly reduce their applicability to videos, and yields unreasonable computational loads. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training data of a diffusion model can be restricted to the input video and still produce very satisfying results. This leads us to adopt an internal learning approach, which also allows us to greatly reduce the neural network size by about three orders of magnitude less than current diffusion models used for image inpainting. We also introduce a new method for efficient training and inference of diffusion models in the context of internal learning, by splitting the diffusion process into different learning intervals corresponding to different noise levels of the diffusion process. To the best of our knowledge, this is the first video inpainting method based purely on diffusion. Other methods require additional components such as optical flow estimation, which limits their performance in the case of dynamic textures and complex motions. We show qualitative and quantitative results, demonstrating that our method reaches state of the art performance in the case of dynamic textures and complex dynamic backgrounds.
arxiv情報
著者 | Nicolas Cherel,Andrés Almansa,Yann Gousseau,Alasdair Newson |
発行日 | 2024-08-28 16:23:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google