要約
Pose Guided Human Image Synthesis (PGHIS) は、スタイルを維持しながら、人間のイメージを参照ポーズからターゲット ポーズに変換するという困難なタスクです。
ほとんどの既存の方法は、参照人物画像全体のテクスチャを潜在空間にエンコードし、デコーダを使用してターゲット ポーズの画像テクスチャを合成します。
しかし、人物像全体の細かい質感を再現することは困難です。
この問題を軽減するために、人体をいくつかの部分 (髪、顔、手、足など) に分離し、これらの各部分を使用して人物のリアルなイメージを合成する方法を提案します。
生成された画像の詳細情報を保存します。
さらに、PGHIS 用のマルチヘッド注意ベースのモジュールを設計します。
ほとんどの畳み込みニューラル ネットワーク ベースの方法では、畳み込み演算が原因で長距離依存関係をモデル化することが困難であるため、アテンション メカニズムの長距離モデリング機能は、ポーズ転送タスク、特に急激なポーズ変形の場合、畳み込みニューラル ネットワークよりも適しています。
Market-1501 および DeepFashion データセットに関する広範な実験により、定性的および定量的指標の両方に関して、当社の方法が他の既存の最先端の方法よりもほぼ優れていることが明らかになりました。
要約(オリジナル)
Pose Guided Human Image Synthesis (PGHIS) is a challenging task of transforming a human image from the reference pose to a target pose while preserving its style. Most existing methods encode the texture of the whole reference human image into a latent space, and then utilize a decoder to synthesize the image texture of the target pose. However, it is difficult to recover the detailed texture of the whole human image. To alleviate this problem, we propose a method by decoupling the human body into several parts (\eg, hair, face, hands, feet, \etc) and then using each of these parts to guide the synthesis of a realistic image of the person, which preserves the detailed information of the generated images. In addition, we design a multi-head attention-based module for PGHIS. Because most convolutional neural network-based methods have difficulty in modeling long-range dependency due to the convolutional operation, the long-range modeling capability of attention mechanism is more suitable than convolutional neural networks for pose transfer task, especially for sharp pose deformation. Extensive experiments on Market-1501 and DeepFashion datasets reveal that our method almost outperforms other existing state-of-the-art methods in terms of both qualitative and quantitative metrics.
arxiv情報
| 著者 | Jianhan Wu,Jianzong Wang,Shijing Si,Xiaoyang Qu,Jing Xiao |
| 発行日 | 2022-10-07 15:31:37+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google