Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition

要約

わずか数個の画像サンプルから新しい概念を認識する方法を学習することは、学習されたモデルが少数のデータに対して簡単に過剰適合してしまい、一般化性が低下するため、非常に困難です。
有望だが十分に検討されていない解決策の 1 つは、妥当なサンプルを生成することで新しいクラスを補うことです。
ただし、この分野の既存の作品のほとんどは視覚情報のみを活用しており、生成されたデータは、入手可能な少数のサンプルに含まれるいくつかの困難な要素によって簡単に注意がそらされてしまいます。
人間の概念を反映するテキストモダリティの意味情報を意識したこの研究では、意味関係を利用して数ショット画像認識のための二視点データ幻覚を導く新しいフレームワークを提案しています。
提案されたフレームワークは、基本クラスからの効果的な情報転送を通じて、新しいクラスのより多様で合理的なデータ サンプルを生成することを可能にします。
具体的には、インスタンス ビュー データ幻覚モジュールは、新しいクラスの各サンプルを幻覚させて、基本クラスから派生したローカル意味論的相関注意とグローバル意味論的特徴融合を使用して新しいデータを生成します。
一方、プロトタイプ ビュー データ幻覚モジュールは、セマンティクスを意識した手段を利用して、少数のサンプルから新しいクラスのプロトタイプとそれに関連する分布を推定します。これにより、プロトタイプがより安定したサンプルとして収集され、多数のサンプルのリサンプリングが可能になります。
私たちは、提案されたフレームワークの有効性を検証するために、いくつかの一般的な少数ショット ベンチマークで広範な実験と最先端の手法との比較を実施します。

要約(オリジナル)

Learning to recognize novel concepts from just a few image samples is very challenging as the learned model is easily overfitted on the few data and results in poor generalizability. One promising but underexplored solution is to compensate the novel classes by generating plausible samples. However, most existing works of this line exploit visual information only, rendering the generated data easy to be distracted by some challenging factors contained in the few available samples. Being aware of the semantic information in the textual modality that reflects human concepts, this work proposes a novel framework that exploits semantic relations to guide dual-view data hallucination for few-shot image recognition. The proposed framework enables generating more diverse and reasonable data samples for novel classes through effective information transfer from base classes. Specifically, an instance-view data hallucination module hallucinates each sample of a novel class to generate new data by employing local semantic correlated attention and global semantic feature fusion derived from base classes. Meanwhile, a prototype-view data hallucination module exploits semantic-aware measure to estimate the prototype of a novel class and the associated distribution from the few samples, which thereby harvests the prototype as a more stable sample and enables resampling a large number of samples. We conduct extensive experiments and comparisons with state-of-the-art methods on several popular few-shot benchmarks to verify the effectiveness of the proposed framework.

arxiv情報

著者 Hefeng Wu,Guangzhi Ye,Ziyang Zhou,Ling Tian,Qing Wang,Liang Lin
発行日 2024-08-08 17:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク