要約
マルチヒューマン解析は、インスタンス レベルと詳細なカテゴリ レベルの情報の両方を必要とする画像セグメンテーション タスクです。
ただし、これまでの研究では通常、これら 2 種類の情報が別個のブランチと別個の出力形式を通じて処理され、非効率で冗長なフレームワークが生じていました。
この論文では、インスタンス レベルとカテゴリ レベルの表現を 3 つの重要な側面で統合する UniParser を紹介します。1) 統合された相関表現学習アプローチを提案し、ネットワークがコサイン空間内のインスタンスとカテゴリの特徴を学習できるようにします。
2) 補助損失を伴う均一なラベルを使用してインスタンスとカテゴリの特徴を監視しながら、各モジュールの出力の形式をピクセルレベルのセグメンテーション結果として統一します。
3) インスタンスとカテゴリの表現を融合するための共同最適化手順を設計します。
インスタンス レベルとカテゴリ レベルの出力を仮想的に統合することにより、UniParser は手動で設計された後処理技術を回避し、最先端の方法を超え、MHPv2.0 で 49.3% の AP、CIHP で 60.4% の AP を達成します。
今後の研究を促進するために、ソース コード、事前トレーニング済みモデル、オンライン デモをリリースします。
要約(オリジナル)
Multi-human parsing is an image segmentation task necessitating both instance-level and fine-grained category-level information. However, prior research has typically processed these two types of information through separate branches and distinct output formats, leading to inefficient and redundant frameworks. This paper introduces UniParser, which integrates instance-level and category-level representations in three key aspects: 1) we propose a unified correlation representation learning approach, allowing our network to learn instance and category features within the cosine space; 2) we unify the form of outputs of each modules as pixel-level segmentation results while supervising instance and category features using a homogeneous label accompanied by an auxiliary loss; and 3) we design a joint optimization procedure to fuse instance and category representations. By virtual of unifying instance-level and category-level output, UniParser circumvents manually designed post-processing techniques and surpasses state-of-the-art methods, achieving 49.3% AP on MHPv2.0 and 60.4% AP on CIHP. We will release our source code, pretrained models, and online demos to facilitate future studies.
arxiv情報
著者 | Jiaming Chu,Lei Jin,Junliang Xing,Jian Zhao |
発行日 | 2023-10-13 10:03:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google