要約
ソースポートレートが与えられると、自動人体再整形タスクは、それを美しい体型に編集することを目的としています。
この技術はメディアで広く使われているため、主に身体の形状を歪ませるオプティカルフローを生成することに焦点を当てたいくつかの方法が提案されています。
ただし、これらの以前の研究では、さまざまな身体部分 (腕、胴体、脚) の局所的な変換のみが考慮されており、全体的な親和性は無視され、身体全体にわたる一貫性と品質を確保する能力が制限されていました。
この論文では、生成されるオプティカル フローの品質を向上させるために、さまざまな身体部分間のグローバル アフィニティを抽出する新しいアダプティブ アフィニティ グラフ ネットワーク (AAGN) を提案します。
具体的には、私たちの AAGN は主に次の設計を導入しています。 (1) 完全に接続されたグラフの特性を活用するアダプティブ アフィニティ グラフ (AAG) ブロックを提案します。
AAG は、さまざまな身体部分を適応完全接続グラフ内のノードとして表し、ノード間のすべての親和性を取得してグローバルな親和性マップを取得します。
この設計により、体の各部分間の一貫性がさらに向上する可能性があります。
(2) さらに、高周波のディテールは写真の美しさにとって非常に重要であるため、Body Shape Discriminator (BSD) は高周波領域と空間領域の両方から情報を抽出するように設計されています。
特に、SRM フィルターは高周波の詳細を抽出するために利用され、BSD への入力として空間特徴と結合されます。
この設計により、BSD はフロー ジェネレーター (FG) が厳密なピクセル レベルのフィッティングではなく、さまざまな細かい詳細に注意を払うようにガイドします。
BR-5K データセットに対して行われた広範な実験により、私たちのフレームワークが、再形成された写真の美的魅力を大幅に強化し、これまでのすべての研究を超えて、すべての評価指標において最先端を達成していることが実証されました。
要約(オリジナル)
Given a source portrait, the automatic human body reshaping task aims at editing it to an aesthetic body shape. As the technology has been widely used in media, several methods have been proposed mainly focusing on generating optical flow to warp the body shape. However, those previous works only consider the local transformation of different body parts (arms, torso, and legs), ignoring the global affinity, and limiting the capacity to ensure consistency and quality across the entire body. In this paper, we propose a novel Adaptive Affinity-Graph Network (AAGN), which extracts the global affinity between different body parts to enhance the quality of the generated optical flow. Specifically, our AAGN primarily introduces the following designs: (1) we propose an Adaptive Affinity-Graph (AAG) Block that leverages the characteristic of a fully connected graph. AAG represents different body parts as nodes in an adaptive fully connected graph and captures all the affinities between nodes to obtain a global affinity map. The design could better improve the consistency between body parts. (2) Besides, for high-frequency details are crucial for photo aesthetics, a Body Shape Discriminator (BSD) is designed to extract information from both high-frequency and spatial domain. Particularly, an SRM filter is utilized to extract high-frequency details, which are combined with spatial features as input to the BSD. With this design, BSD guides the Flow Generator (FG) to pay attention to various fine details rather than rigid pixel-level fitting. Extensive experiments conducted on the BR-5K dataset demonstrate that our framework significantly enhances the aesthetic appeal of reshaped photos, surpassing all previous work to achieve state-of-the-art in all evaluation metrics.
arxiv情報
著者 | Qiwen Deng,Yangcen Liu,Wen Li,Guoqing Wang |
発行日 | 2024-12-02 16:29:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google