Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels

要約

部分ラベルを使用したマルチラベル画像認識 (MLR-PL) では、画像ごとに一部のラベルが既知であるが、その他のラベルは未知であるため、アノテーションのコストが大幅に削減され、大規模な MLR が容易になる可能性があります。
各画像内および異なる画像間には強力な意味相関が存在することがわかりました。これらの相関は、既知のラベルが持つ知識を転送して未知のラベルを取得するのに役立ち、MLR-PL タスクのパフォーマンスを向上させることができます (図 1 を参照)。
この研究では、画像内と画像間の両方の意味相関を探索して、既知のラベルが持つ知識を転送して未知のラベルの疑似ラベルを生成する 2 つの相補的な転送モジュールで構成される、新しいヘテロジニアス セマンティック転送 (HST) フレームワークを提案します。

具体的には、画像内セマンティック転送 (IST) モジュールが画像ごとに画像固有のラベル共起行列を学習し、これらの行列に基づいて既知のラベルをマッピングして未知のラベルを補完します。
さらに、クロスイメージ転送 (CST) モジュールは、カテゴリ固有の機能とプロトタイプの類似性を学習し、対応するプロトタイプとの類似度が高い未知のラベルを補完するのに役立ちます。
最後に、既知の擬似ラベルと生成された擬似ラベルの両方を使用して、MLR モデルをトレーニングします。
Microsoft COCO、Visual Genome、および Pascal VOC 2007 データセットに対して行われた広範な実験により、提案された HST フレームワークが現在の最先端のアルゴリズムよりも優れたパフォーマンスを達成することが示されています。
具体的には、3 つのデータセットで、以前に開発された最もパフォーマンスの良いアルゴリズムの結果と比較して、平均平均精度 (mAP) が 1.4%、3.3%、0.4% 向上しました。

要約(オリジナル)

Multi-label image recognition with partial labels (MLR-PL), in which some labels are known while others are unknown for each image, may greatly reduce the cost of annotation and thus facilitate large-scale MLR. We find that strong semantic correlations exist within each image and across different images, and these correlations can help transfer the knowledge possessed by the known labels to retrieve the unknown labels and thus improve the performance of the MLR-PL task (see Figure 1). In this work, we propose a novel heterogeneous semantic transfer (HST) framework that consists of two complementary transfer modules that explore both within-image and cross-image semantic correlations to transfer the knowledge possessed by known labels to generate pseudo labels for the unknown labels. Specifically, an intra-image semantic transfer (IST) module learns an image-specific label co-occurrence matrix for each image and maps the known labels to complement the unknown labels based on these matrices. Additionally, a cross-image transfer (CST) module learns category-specific feature-prototype similarities and then helps complement the unknown labels that have high degrees of similarity with the corresponding prototypes. Finally, both the known and generated pseudo labels are used to train MLR models. Extensive experiments conducted on the Microsoft COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed HST framework achieves superior performance to that of current state-of-the-art algorithms. Specifically, it obtains mean average precision (mAP) improvements of 1.4%, 3.3%, and 0.4% on the three datasets over the results of the best-performing previously developed algorithm.

arxiv情報

著者 Tianshui Chen,Tao Pu,Lingbo Liu,Yukai Shi,Zhijing Yang,Liang Lin
発行日 2023-05-17 11:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク