Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning

要約

フューショット学習 (FSL) は、限られた数の視覚サンプルを使用して新しい概念を認識することを目的としています。
既存のアプローチでは、カテゴリを理解するために、限られた視覚データに意味論的な情報を組み込もうとしています。
ただし、これらの方法では、クラスレベルの特徴表現が抽象的なカテゴリ名で強化されることが多く、効果的な一般化に不可欠な微妙な特徴を捉えることができません。
この問題に対処するために、私たちは、抽象クラス セマンティクスと大規模言語モデル (LLM) から抽出された具体的なクラス エンティティの両方を組み込んで、クラス プロトタイプの表現を強化する FSL 用の新しいフレームワークを提案します。
具体的には、私たちのフレームワークは、セマンティックガイド付きビジュアルパターン抽出 (SVPE) モジュールとプロトタイプキャリブレーション (PC) モジュールで構成されます。SVPE は、さまざまなスケールにわたってセマンティックを意識したビジュアルパターンを細心の注意を払って抽出し、PC モジュールはこれらのパターンをシームレスに統合して改良します。
視覚的なプロトタイプを作成し、その代表性を高めます。
4 つの少数ショット分類ベンチマークと BSCD-FSL クロスドメイン ベンチマークに関する広範な実験により、現在の最先端の手法に比べて顕著な進歩が見られます。
特に、難しいワンショット設定では、ResNet-12 バックボーンを利用した当社のアプローチは、2 番目に優れた競合他社と比較して、平均 1.95% という驚異的な改善を達成しました。

要約(オリジナル)

Few-shot learning (FSL) aims to recognize new concepts using a limited number of visual samples. Existing approaches attempt to incorporate semantic information into the limited visual data for category understanding. However, these methods often enrich class-level feature representations with abstract category names, failing to capture the nuanced features essential for effective generalization. To address this issue, we propose a novel framework for FSL, which incorporates both the abstract class semantics and the concrete class entities extracted from Large Language Models (LLMs), to enhance the representation of the class prototypes. Specifically, our framework composes a Semantic-guided Visual Pattern Extraction (SVPE) module and a Prototype-Calibration (PC) module, where the SVPE meticulously extracts semantic-aware visual patterns across diverse scales, while the PC module seamlessly integrates these patterns to refine the visual prototype, enhancing its representativeness. Extensive experiments on four few-shot classification benchmarks and the BSCD-FSL cross-domain benchmarks showcase remarkable advancements over the current state-of-the-art methods. Notably, for the challenging one-shot setting, our approach, utilizing the ResNet-12 backbone, achieves an impressive average improvement of 1.95% over the second-best competitor.

arxiv情報

著者 Mushui Liu,Fangtai Wu,Bozheng Li,Ziqian Lu,Yunlong Yu,Xi Li
発行日 2024-08-22 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク