Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose Transfer by Permuting Textures

要約

人体ポーズ変換は、与えられたポーズの下で人物の新しいビューを合成することを目的としています。最近の研究では、人物画像からポーズとテクスチャの特徴を切り離し、その2つの特徴を組み合わせて人物を再構成する自己再構成によってこれを実現しています。しかし、このような特徴量の分離は、詳細な情報が失われ、不要なアーチファクトが発生する可能性があり、困難かつ未定義な問題である。本論文では、テクスチャをランダムに並べ替え、その後、画像レベルの切り離しとディテール保存のためのテクスチャ転送を達成するために、二重分岐アテンションで画像を再構成する自己駆動型人物ポーズ転送法を提案する。その結果、特徴レベルの分離と比較して、画像レベルの分離がより制御可能で信頼性が高いことがわかった。さらに、我々は、順列によって引き起こされるノイズを低減するために、異なるサイズの受容野を与えるデュアルカーネルエンコーダを導入し、その結果、ポーズとテクスチャを整列しながら服の詳細を回復させる。DeepFashionとMarket-1501を用いた広範な実験により、我々のモデルは他の自己駆動型手法よりもFID、LPIPS、SSIMの面で生成画像の品質を向上させ、さらにいくつかの完全教師あり手法よりも優れていることが示されている。また、ユーザー調査により、自己駆動型アプローチの中で、我々の手法によって生成された画像は、先行研究よりも72%のケースで好まれていることが示されています。

要約(オリジナル)

Human pose transfer aims to synthesize a new view of a person under a given pose. Recent works achieve this via self-reconstruction, which disentangles pose and texture features from the person image, then combines the two features to reconstruct the person. Such feature-level disentanglement is a difficult and ill-defined problem that could lead to loss of details and unwanted artifacts. In this paper, we propose a self-driven human pose transfer method that permutes the textures at random, then reconstructs the image with a dual branch attention to achieve image-level disentanglement and detail-preserving texture transfer. We find that compared with feature-level disentanglement, image-level disentanglement is more controllable and reliable. Furthermore, we introduce a dual kernel encoder that gives different sizes of receptive fields in order to reduce the noise caused by permutation and thus recover clothing details while aligning pose and textures. Extensive experiments on DeepFashion and Market-1501 shows that our model improves the quality of generated images in terms of FID, LPIPS and SSIM over other self-driven methods, and even outperforming some fully-supervised methods. A user study also shows that among self-driven approaches, images generated by our method are preferred in 72% of cases over prior work.

arxiv情報

著者 Nannan Li,Kevin J. Shih,Bryan A. Plummer
発行日 2022-10-06 14:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク