End-to-end One-shot Human Parsing

要約

以前の人間の解析モデルは、人間を事前定義されたクラスに解析することに限定されていました。これは、新しいファッションアイテムクラスを持つことが多い実用的なファッションアプリケーションには柔軟性がありません。
このホワイトペーパーでは、テスト例で定義されたクラスのオープンセットに人間を解析する必要がある新しいワンショット人間解析(OSHP)タスクを定義します。
トレーニング中は、基本クラスのみが公開され、テスト時間クラスの一部とのみ重複します。
OSHPの3つの主要な課題、つまり、小さいサイズ、テストバイアス、および同様の部分に対処するために、エンドツーエンドのワンショット人間解析ネットワーク(EOP-Net)を考案します。
まず、エンドツーエンドの人間解析フレームワークを提案して、クエリ画像を粗粒度と細粒度の両方の人間クラスに解析します。これにより、さまざまな粒度で共有される豊富なセマンティック情報を備えた強力な埋め込みネットワークが構築され、小規模なサイズの識別が容易になります。
人間のクラス。
次に、トレーニング時間を安定させ、堅牢な機能を学習するのに役立つ、トレーニング時間の静的プロトタイプを徐々に平滑化することにより、勢いが更新されたプロトタイプの学習を提案します。
さらに、ネットワークが機能の表現能力と転送可能性の両方を強化することを奨励するデュアルメトリック学習スキームを考案します。
したがって、EOP-Netは、新しいクラスにすばやく適応し、テストの偏りの問題を軽減できる代表的な機能を学習できます。
さらに、プロトタイプレベルで対照的な損失を採用することにより、細粒度の距離空間内のクラス間の距離を強制して、類似した部分を識別します。
3つの既存の一般的な人間の解析ベンチマークをOSHPタスクに合わせて調整します。
新しいベンチマークでの実験は、EOP-Netが代表的なワンショットセグメンテーションモデルを大幅に上回っていることを示しています。これは、この新しいタスクに関するさらなる研究の強力なベースラインとして機能します。
ソースコードはhttps://github.com/Charleshhy/One-shot-Human-Parsingで入手できます。

要約(オリジナル)

Previous human parsing models are limited to parsing humans into pre-defined classes, which is inflexible for practical fashion applications that often have new fashion item classes. In this paper, we define a novel one-shot human parsing (OSHP) task that requires parsing humans into an open set of classes defined by any test example. During training, only base classes are exposed, which only overlap with part of the test-time classes. To address three main challenges in OSHP, i.e., small sizes, testing bias, and similar parts, we devise an End-to-end One-shot human Parsing Network (EOP-Net). Firstly, an end-to-end human parsing framework is proposed to parse the query image into both coarse-grained and fine-grained human classes, which builds a strong embedding network with rich semantic information shared across different granularities, facilitating identifying small-sized human classes. Then, we propose learning momentum-updated prototypes by gradually smoothing the training time static prototypes, which helps stabilize the training and learn robust features. Moreover, we devise a dual metric learning scheme which encourages the network to enhance features’ both representational capability and transferability. Therefore, our EOP-Net can learn representative features that can quickly adapt to the novel classes and mitigate the testing bias issue. In addition, we employ a contrastive loss at the prototype level, thereby enforcing the distances among the classes in the fine-grained metric space to discriminate similar parts. We tailor three existing popular human parsing benchmarks to the OSHP task. Experiments on the new benchmarks demonstrate that EOP-Net outperforms representative one-shot segmentation models by large margins, which serves as a strong baseline for further research on this new task. The source code is available at https://github.com/Charleshhy/One-shot-Human-Parsing.

arxiv情報

著者 Haoyu He,Bohan Zhuang,Jing Zhang,Jianfei Cai,Dacheng Tao
発行日 2022-06-23 10:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク