GCT: Graph Co-Training for Semi-Supervised Few-Shot Learning

要約

データ不足の問題を解決することを目的としたフューショット学習 (FSL) は、近年かなりの注目を集めています。
一般的な FSL フレームワークには 2 つのフェーズが含まれています。(i) 事前トレーニング フェーズでは、基本データを使用して CNN ベースの特徴抽出器をトレーニングします。
(ii) メタテストフェーズでは、凍結特徴抽出器を新規データ (新規データはベースデータとは異なるカテゴリーを持っています) に適用し、認識のための分類器を設計します。
少数ショットデータの分布を修正するために、研究者らは、ラベルなしデータを導入することによる半教師あり少数ショット学習(SSFSL)を提案しています。
SSFSL は FSL コミュニティで優れたパフォーマンスを達成することが証明されていますが、根本的な問題がまだ存在しています。それは、カテゴリをまたがる設定のため、事前トレーニングされた特徴抽出器が新しいデータに完璧に適応できないということです。
通常、新しい特徴には大量のノイズが導入されます。
私たちはこれを特徴抽出不適応 (FEM) 問題と呼んでいます。
FEM に取り組むために、この論文では 2 つの取り組みを行っています。
まず、新しいラベル予測手法である IGL (Isolated Graph Learning) を提案します。
IGL では、生データをグラフ空間にエンコードするラプラシアン演算子を導入しています。これにより、分類時の特徴への依存を軽減し、予測のためにグラフ表現をラベル空間に投影できます。
重要な点は、IGL は特徴表現の観点からノイズの悪影響を弱めることができ、またトレーニングとテストの手順を独立して完了できる柔軟性もあり、SSFSL に適しているということです。
次に、提案された IGL を共トレーニング フレームワークに拡張することで、マルチモーダル融合の観点からこの課題に取り組むためのグラフ共トレーニング (GCT) を提案します。
GCT は、IGL 分類器を交差的に強化するために 2 つのモード特徴を持つラベルなしサンプルを利用する半教師あり手法です。

要約(オリジナル)

Few-shot learning (FSL), purposing to resolve the problem of data-scarce, has attracted considerable attention in recent years. A popular FSL framework contains two phases: (i) the pre-train phase employs the base data to train a CNN-based feature extractor. (ii) the meta-test phase applies the frozen feature extractor to novel data (novel data has different categories from base data) and designs a classifier for recognition. To correct few-shot data distribution, researchers propose Semi-Supervised Few-Shot Learning (SSFSL) by introducing unlabeled data. Although SSFSL has been proved to achieve outstanding performances in the FSL community, there still exists a fundamental problem: the pre-trained feature extractor can not adapt to the novel data flawlessly due to the cross-category setting. Usually, large amounts of noises are introduced to the novel feature. We dub it as Feature-Extractor-Maladaptive (FEM) problem. To tackle FEM, we make two efforts in this paper. First, we propose a novel label prediction method, Isolated Graph Learning (IGL). IGL introduces the Laplacian operator to encode the raw data to graph space, which helps reduce the dependence on features when classifying, and then project graph representation to label space for prediction. The key point is that: IGL can weaken the negative influence of noise from the feature representation perspective, and is also flexible to independently complete training and testing procedures, which is suitable for SSFSL. Second, we propose Graph Co-Training (GCT) to tackle this challenge from a multi-modal fusion perspective by extending the proposed IGL to the co-training framework. GCT is a semi-supervised method that exploits the unlabeled samples with two modal features to crossly strengthen the IGL classifier.

arxiv情報

著者 Rui Xu,Lei Xing,Shuai Shao,Lifei Zhao,Baodi Liu,Weifeng Liu,Yicong Zhou
発行日 2024-03-19 16:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク