ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving Few-Shot Learning

要約

タイトル:FSLの性能向上に寄与する自己学習エピソード空間仮説タスク(ESPT)について

要約:

– 自己学習(SSL)は、最近、FSLフレームワークに統合され、少数の画像分類のパフォーマンスを向上させる有望な結果が示されています。
– しかし、FSLで使用される既存のSSLアプローチは、通常、各画像のグローバル埋め込みから監督信号を探し求めるため、エピソードトレーニング中に、これらの方法は、イメージサンプルのローカルビジュアル情報とエピソード全体のデータ構造情報を捉え、完全に活用することはできません。これらは、FSLにとって有益です。
– このため、当社は、エピソードトレーニングを用いたESPT(自己学習エピソード空間仮説タスク)を使用して、FSL目的を拡張することを提案します。
– 具体的には、各少数ショットエピソードについて、すべての画像にランダムな幾何学的変換を適用して、変換されたエピソードを生成します。
– これに基づいて、ESPT目的は、元のエピソードと変換されたエピソードの間のローカル空間関係一貫性を最大化することと定義されます。
– この定義により、ESPTで拡張されたFSL目的は、さまざまな画像のローカル空間的特徴と、入力エピソード内の相互リレーショナル構造情報を捉える、より移植性の高い特徴表現を学習し、新しいカテゴリにわずかなサンプルだけで汎化させることを可能にします。
– 大規模な実験により、ESPT法が、3つの主要なベンチマークデータセットにおける少数の画像分類の最新の最高のパフォーマンスを達成したことが示されました。ソースコードは次のとおりです:https://github.com/Whut-YiRong/ESPT。

要約(オリジナル)

Self-supervised learning (SSL) techniques have recently been integrated into the few-shot learning (FSL) framework and have shown promising results in improving the few-shot image classification performance. However, existing SSL approaches used in FSL typically seek the supervision signals from the global embedding of every single image. Therefore, during the episodic training of FSL, these methods cannot capture and fully utilize the local visual information in image samples and the data structure information of the whole episode, which are beneficial to FSL. To this end, we propose to augment the few-shot learning objective with a novel self-supervised Episodic Spatial Pretext Task (ESPT). Specifically, for each few-shot episode, we generate its corresponding transformed episode by applying a random geometric transformation to all the images in it. Based on these, our ESPT objective is defined as maximizing the local spatial relationship consistency between the original episode and the transformed one. With this definition, the ESPT-augmented FSL objective promotes learning more transferable feature representations that capture the local spatial features of different images and their inter-relational structural information in each input episode, thus enabling the model to generalize better to new categories with only a few samples. Extensive experiments indicate that our ESPT method achieves new state-of-the-art performance for few-shot image classification on three mainstay benchmark datasets. The source code will be available at: https://github.com/Whut-YiRong/ESPT.

arxiv情報

著者 Yi Rong,Xiongbo Lu,Zhaoyang Sun,Yaxiong Chen,Shengwu Xiong
発行日 2023-04-26 04:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク