Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels

要約

タイトル:部分的ラベル付きマルチラベル画像認識における双方向視点意味認識特徴混合

要約:
– 現在のマルチラベル画像認識(MLR)アルゴリズムは、完全なラベルを持つ大規模なデータセットに依存しており、大規模なデータセットを収集することは非常に時間がかかり、労働集約的であるため、問題になっている。
– 部分ラベル(MLR-PL)でMLRモデルをトレーニングするという代替案があるが、現在のMLR-PLアルゴリズムは、事前トレーニングされた画像類似性モデルに依存するか、未知のラベルのために擬似ラベルを生成するために分類モデルを反復的に更新する必要があるため、注釈の一定量に依存し、特に既知ラベルの割合が低い場合には明らかな性能低下が発生する。
– このジレンマに対処するため、提案手法では、双方向視点意味認識特徴混合(DSRB)を提案している。この手法は、別々の画像を対空間と原型の視点からマルチグラニュラリティカテゴリ特定の意味表現を混合し、既知のラベルの情報を未知のラベルを補完するために転送する。
– 特に、インスタンス視点表現混合(IPRB)モジュールでは、画像内の既知のラベルの表現を他の画像にある対応する未知のラベルの表現と混合し、未知のラベルを補完することを目的としている。同時に、プロトタイプ視点表現混合(PPRB)モジュールでは、各カテゴリについてより安定した表現プロトタイプを学習し、未知のラベルの表現を対応するラベルのプロトタイプと場所に敏感な方法で混合し、未知のラベルを補完する。
– MS-COCO、Visual Genome、Pascal VOC 2007データセット上の詳細な実験結果により、提案されたDSRB手法は、すべての既知のラベル割合設定で現在の最先端のアルゴリズムよりも一貫して優れた性能を発揮することが示された。

要約(オリジナル)

Despite achieving impressive progress, current multi-label image recognition (MLR) algorithms heavily depend on large-scale datasets with complete labels, making collecting large-scale datasets extremely time-consuming and labor-intensive. Training the multi-label image recognition models with partial labels (MLR-PL) is an alternative way, in which merely some labels are known while others are unknown for each image. However, current MLP-PL algorithms rely on pre-trained image similarity models or iteratively updating the image classification models to generate pseudo labels for the unknown labels. Thus, they depend on a certain amount of annotations and inevitably suffer from obvious performance drops, especially when the known label proportion is low. To address this dilemma, we propose a dual-perspective semantic-aware representation blending (DSRB) that blends multi-granularity category-specific semantic representation across different images, from instance and prototype perspective respectively, to transfer information of known labels to complement unknown labels. Specifically, an instance-perspective representation blending (IPRB) module is designed to blend the representations of the known labels in an image with the representations of the corresponding unknown labels in another image to complement these unknown labels. Meanwhile, a prototype-perspective representation blending (PPRB) module is introduced to learn more stable representation prototypes for each category and blends the representation of unknown labels with the prototypes of corresponding labels, in a location-sensitive manner, to complement these unknown labels. Extensive experiments on the MS-COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed DSRB consistently outperforms current state-of-the-art algorithms on all known label proportion settings.

arxiv情報

著者 Tao Pu,Tianshui Chen,Hefeng Wu,Yukai Shi,Zhijing Yang,Liang Lin
発行日 2023-04-11 10:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク