要約
画像間生成の方法は、印象的な写真と現実的な品質を達成しています。
ただし、オブジェクトモーションやカメラの動きなどの生成されたビデオで特定の要素を調整することは、多くの場合、試行錯誤の退屈なプロセスであり、たとえば、さまざまなランダムシードでビデオを再生成することを含みます。
最近の手法は、訓練を受けた事前に訓練されたモデルを微調整して、境界ボックスやポイント軌道などのコンディショニング信号に従うことにより、この問題に対処しています。
しかし、この微調整手順は計算的に高価である可能性があり、注釈付きオブジェクトモーションを備えたデータセットが必要であるため、調達が困難です。
この作業では、事前に訓練された画像に存在する知識のみに依存することによりゼロショット制御を提供する自己ガイド付き$ \ unicode {x2013} $である制御可能な画像からビデオへの生成のフレームワークであるSG-I2Vを紹介します。
– 微調整や外部の知識を必要とせずに、ビデオから拡散モデル。
当社のゼロショットメソッドは、監視されていないベースラインよりも優れていますが、視覚的な品質とモーションフィデリティの観点から、パフォーマンスのギャップを監視されたモデルと大幅に絞り込みます。
追加の詳細とビデオの結果は、プロジェクトページのページで入手できます:https://kmcode1.github.io/projects/sg-i2v
要約(オリジナル)
Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guided$\unicode{x2013}$offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while significantly narrowing down the performance gap with supervised models in terms of visual quality and motion fidelity. Additional details and video results are available on our project page: https://kmcode1.github.io/Projects/SG-I2V
arxiv情報
著者 | Koichi Namekata,Sherwin Bahmani,Ziyi Wu,Yash Kant,Igor Gilitschenski,David B. Lindell |
発行日 | 2025-02-25 17:27:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google