Cross Attention Based Style Distribution for Controllable Person Image Synthesis

要約

制御可能な人物画像合成タスクは、身体のポーズと外観を明示的に制御することで幅広いアプリケーションを可能にします。
この論文では、ポーズ転送のためにソースセマンティックスタイルとターゲットポーズの間で計算するクロスアテンションベースのスタイル分配モジュールを提案します。
モジュールは、意図的に各セマンティックによって表されるスタイルを選択し、ターゲット ポーズに従ってそれらを配布します。
クロス アテンションのアテンション マトリックスは、すべてのセマンティクスのターゲット ポーズとソース スタイルの間の動的な類似性を表します。
したがって、ソース画像から色とテクスチャをルーティングするために利用でき、より明確な目的を達成するためにターゲット解析マップによってさらに制約されます。
同時に、ソースの外観を正確にエンコードするために、異なるセマンティック スタイル間の自己注意も追加されます。
私たちのモデルの有効性は、ポーズ転送と仮想試着タスクで定量的および定性的に検証されます。

要約(オリジナル)

Controllable person image synthesis task enables a wide range of applications through explicit control over body pose and appearance. In this paper, we propose a cross attention based style distribution module that computes between the source semantic styles and target pose for pose transfer. The module intentionally selects the style represented by each semantic and distributes them according to the target pose. The attention matrix in cross attention expresses the dynamic similarities between the target pose and the source styles for all semantics. Therefore, it can be utilized to route the color and texture from the source image, and is further constrained by the target parsing map to achieve a clearer objective. At the same time, to encode the source appearance accurately, the self attention among different semantic styles is also added. The effectiveness of our model is validated quantitatively and qualitatively on pose transfer and virtual try-on tasks.

arxiv情報

著者 Xinyue Zhou,Mingyu Yin,Xinyuan Chen,Li Sun,Changxin Gao,Qingli Li
発行日 2022-08-01 09:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク