要約
人物画像アニメーションは、基準人物画像とターゲット モーション ビデオの入力から人物モーション ビデオを生成することを目的としています。
現在の拡散ベースの画像アニメーション システムは、人間のアイデンティティをターゲットの動きに変換する際に高い精度を示しますが、依然として出力の品質が不規則です。
最適な精度は、参照画像とターゲット ポーズ フレーム内の人間の形状の物理的構成 (つまり、スケールと回転) が一致している場合にのみ達成されます。
このような調整が行われていない場合、忠実性と一貫性が著しく低下します。
特に現実の環境では、この構成のずれがよく発生し、現在のシステムの実際の使用に重大な課題をもたらします。
この目的を達成するために、私たちはテストタイム プロクラステス キャリブレーション (TPC) を提案します。これは、構成のずれに直面した場合でも最適なパフォーマンスを維持することで拡散ベースの画像アニメーション システムの堅牢性を強化し、現実世界のシナリオに効果的に対処します。
TPC は、拡散モデルに校正済みの参照画像を提供し、参照画像とターゲット画像内の人間の形状間の対応を理解する能力を強化します。
私たちの方法はシンプルで、モデルに依存しない方法であらゆる拡散ベースの画像アニメーション システムに適用でき、追加のトレーニングを行わなくてもテスト時の効率が向上します。
要約(オリジナル)
Human image animation aims to generate a human motion video from the inputs of a reference human image and a target motion video. Current diffusion-based image animation systems exhibit high precision in transferring human identity into targeted motion, yet they still exhibit irregular quality in their outputs. Their optimal precision is achieved only when the physical compositions (i.e., scale and rotation) of the human shapes in the reference image and target pose frame are aligned. In the absence of such alignment, there is a noticeable decline in fidelity and consistency. Especially, in real-world environments, this compositional misalignment commonly occurs, posing significant challenges to the practical usage of current systems. To this end, we propose Test-time Procrustes Calibration (TPC), which enhances the robustness of diffusion-based image animation systems by maintaining optimal performance even when faced with compositional misalignment, effectively addressing real-world scenarios. The TPC provides a calibrated reference image for the diffusion model, enhancing its capability to understand the correspondence between human shapes in the reference and target images. Our method is simple and can be applied to any diffusion-based image animation system in a model-agnostic manner, improving the effectiveness at test time without additional training.
arxiv情報
著者 | Sunjae Yoon,Gwanhyeong Koo,Younghwan Lee,Chang D. Yoo |
発行日 | 2024-10-31 15:34:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google