要約
マルチラベル少数のショット画像分類(ML-FSIC)の目的は、各ラベルに少数のトレーニング例のみが利用できる設定で、セマンティックラベルを画像に割り当てることです。
マルチラベル設定の重要な特徴は、画像にいくつかのラベルがあることが多いことです。これは通常、画像の異なる領域に表示されるオブジェクトを指します。
メトリックベースの設定でラベルのプロトタイプを推定する場合、どの領域がどの領域に関連するかを判断することが重要ですが、トレーニングデータの限られた量とローカル機能の騒々しい性質により、これは非常に困難になります。
解決策として、ラベルのプロトタイプが徐々に洗練される戦略を提案します。
まず、ワード埋め込みを使用してプロトタイプを初期化します。これにより、ラベルの意味に関する事前知識を活用できます。
第二に、これらの初期プロトタイプを活用して、損失変化測定(LCM)戦略を使用して、特定のラベルを代表する可能性が最も高いトレーニング画像(つまり、サポートセット)からローカル機能を選択します。
第三に、マルチモーダルの相互相互作用メカニズムを使用して、これらの代表的なローカル機能を集約することにより、ラベルの最終プロトタイプを構築します。
Coco、Pascal Voc、Nus-Wide、およびImaterialistの実験は、私たちのモデルが現在の最先端を大幅に改善することを示しています。
要約(オリジナル)
The aim of multi-label few-shot image classification (ML-FSIC) is to assign semantic labels to images, in settings where only a small number of training examples are available for each label. A key feature of the multi-label setting is that an image often has several labels, which typically refer to objects appearing in different regions of the image. When estimating label prototypes, in a metric-based setting, it is thus important to determine which regions are relevant for which labels, but the limited amount of training data and the noisy nature of local features make this highly challenging. As a solution, we propose a strategy in which label prototypes are gradually refined. First, we initialize the prototypes using word embeddings, which allows us to leverage prior knowledge about the meaning of the labels. Second, taking advantage of these initial prototypes, we then use a Loss Change Measurement (LCM) strategy to select the local features from the training images (i.e. the support set) that are most likely to be representative of a given label. Third, we construct the final prototype of the label by aggregating these representative local features using a multi-modal cross-interaction mechanism, which again relies on the initial word embedding-based prototypes. Experiments on COCO, PASCAL VOC, NUS-WIDE, and iMaterialist show that our model substantially improves the current state-of-the-art.
arxiv情報
著者 | Kun Yan,Zied Bouraoui,Fangyun Wei,Chang Xu,Ping Wang,Shoaib Jameel,Steven Schockaert |
発行日 | 2025-02-24 14:34:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google