要約
画像からビデオへの生成方法は、印象的で写真のようにリアルな品質を実現しました。
ただし、オブジェクトの動きやカメラの動きなど、生成されたビデオ内の特定の要素を調整することは、さまざまなランダム シードを使用してビデオを再生成するなど、試行錯誤の退屈なプロセスであることがよくあります。
最近の技術では、境界ボックスや点の軌跡などの条件付け信号に従うように事前トレーニングされたモデルを微調整することで、この問題に対処しています。
ただし、この微調整手順は計算コストが高くつく可能性があり、注釈付きのオブジェクトの動きを含むデータセットが必要ですが、これを入手するのは難しい場合があります。
この研究では、事前トレーニングされた画像に存在する知識のみに依存してゼロショット制御を提供する自己誘導型の制御可能な画像からビデオへの生成フレームワークである SG-I2V を紹介します。
微調整や外部知識を必要としないビデオへの拡散モデル。
私たちのゼロショット手法は、教師なしのベースラインよりも優れたパフォーマンスを示しながら、視覚的な品質とモーションの忠実度の点で教師ありモデルと競合します。
要約(オリジナル)
Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guided$\unicode{x2013}$offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while being competitive with supervised models in terms of visual quality and motion fidelity.
arxiv情報
著者 | Koichi Namekata,Sherwin Bahmani,Ziyi Wu,Yash Kant,Igor Gilitschenski,David B. Lindell |
発行日 | 2024-11-07 18:56:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google