要約
人間の画像の完成のための最近の方法は、もっともらしい体の形を再構築することができますが、明示的な参照画像なしでは、特定の衣類パターンや独特のアクセサリーなどの独自の詳細を保持できないことがよくあります。
最先端のリファレンスベースのインピンティングアプローチでさえ、参照画像からきめの細かい詳細を正確にキャプチャして統合するのに苦労しています。
この制限に対処するために、斬新な参照ベースの人間の画像完了フレームワークであるCompletemeを提案します。
Completemeは、参照画像の関連する領域に対するモデルの注意を明示的に導く、地域中心の注意(RFA)ブロックと組み合わせたデュアルU-Netアーキテクチャを採用しています。
このアプローチは、細かい詳細を効果的にキャプチャし、正確なセマンティック対応を保証し、完成した画像の忠実度と一貫性を大幅に改善します。
さらに、参照ベースのヒューマン画像完了タスクを評価するために特別に設計された挑戦的なベンチマークを紹介します。
広範な実験は、提案された方法が既存の手法と比較して優れた視覚品質と意味的一貫性を達成することを示しています。
プロジェクトページ:https://liagm.github.io/completeme/
要約(オリジナル)
Recent methods for human image completion can reconstruct plausible body shapes but often fail to preserve unique details, such as specific clothing patterns or distinctive accessories, without explicit reference images. Even state-of-the-art reference-based inpainting approaches struggle to accurately capture and integrate fine-grained details from reference images. To address this limitation, we propose CompleteMe, a novel reference-based human image completion framework. CompleteMe employs a dual U-Net architecture combined with a Region-focused Attention (RFA) Block, which explicitly guides the model’s attention toward relevant regions in reference images. This approach effectively captures fine details and ensures accurate semantic correspondence, significantly improving the fidelity and consistency of completed images. Additionally, we introduce a challenging benchmark specifically designed for evaluating reference-based human image completion tasks. Extensive experiments demonstrate that our proposed method achieves superior visual quality and semantic consistency compared to existing techniques. Project page: https://liagm.github.io/CompleteMe/
arxiv情報
著者 | Yu-Ju Tsai,Brian Price,Qing Liu,Luis Figueroa,Daniil Pakhomov,Zhihong Ding,Scott Cohen,Ming-Hsuan Yang |
発行日 | 2025-04-28 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google