Key-point Guided Deformable Image Manipulation Using Diffusion Model

要約

この論文では、オブジェクトのキーポイントを操作することによって画像を正確に制御するキーポイント誘導拡散確率モデル (KDM) を紹介します。
中間出力としてオプティカル フロー マップを組み込んだ 2 段階の生成モデルを提案します。
そうすることで、画像と疎なキーポイントの間の意味関係の高密度のピクセル単位の理解が構成され、より現実的な画像の生成につながります。
さらに、オプティカル フローの統合により、連続画像のフレーム間の変動を調整し、本物の連続画像生成を実証します。
KDM は、顔画像生成、人物ポーズ合成、心エコー検査ビデオ予測など、さまざまなキーポイント条件付き画像合成タスクで評価され、KDM が最先端のモデルと比較して一貫性が強化され、フォトリアリスティックな画像を実現していることを証明しています。

要約(オリジナル)

In this paper, we introduce a Key-point-guided Diffusion probabilistic Model (KDM) that gains precise control over images by manipulating the object’s key-point. We propose a two-stage generative model incorporating an optical flow map as an intermediate output. By doing so, a dense pixel-wise understanding of the semantic relation between the image and sparse key point is configured, leading to more realistic image generation. Additionally, the integration of optical flow helps regulate the inter-frame variance of sequential images, demonstrating an authentic sequential image generation. The KDM is evaluated with diverse key-point conditioned image synthesis tasks, including facial image generation, human pose synthesis, and echocardiography video prediction, demonstrating the KDM is proving consistency enhanced and photo-realistic images compared with state-of-the-art models.

arxiv情報

著者 Seok-Hwan Oh,Guil Jung,Myeong-Gee Kim,Sang-Yun Kim,Young-Min Kim,Hyeon-Jik Lee,Hyuk-Sool Kwon,Hyeon-Min Bae
発行日 2024-01-16 07:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク