Less is More : A Closer Look at Multi-Modal Few-Shot Learning

要約

フューショット学習は、非常に限られた数の利用可能な画像を使用して新しいカテゴリを学習して区別することを目的としており、深層学習の分野では大きな課題となっています。
最近の研究者は、学習を促進するために、これらのまれなカテゴリの追加のテキスト情報または言語情報を事前にトレーニングされた言語モデルを活用して、不十分な監視信号の問題を部分的に軽減することを目指しています。
ただし、これまでの数回の学習では、テキスト情報と事前トレーニングされた言語モデルの可能性が最大限に発揮されず、パフォーマンスの向上が限られていました。
これに対処するために、テキスト情報と言語モデルを活用するように特別に設計された、数ショット学習タスク用のシンプルだが効果的なフレームワークを提案します。
より詳細には、学習可能なプロンプトを備えた事前トレーニング済み言語モデルのゼロショット機能を明示的に活用します。
また、以前の作品のように複雑に設計された融合モジュールを使用せずに、推論用のテキスト機能を備えた視覚機能を直接追加するだけです。
さらに、自己アンサンブルと蒸留を適用して、これらのコンポーネントをさらに強化します。
広く使用されている 4 つの少数ショット データセットに対して行われた広範な実験により、シンプルなフレームワークが優れた結果を達成できることが実証されました。
特に注目すべきは、ワンショット学習タスクにおける優れたパフォーマンスであり、分類精度において最先端の手法を平均 3.0\% 上回っています。
\footnote{受け入れられ次第、提案されたフレームワークのソースコードを公開します。
}。

要約(オリジナル)

Few-shot Learning aims to learn and distinguish new categories with a very limited number of available images, presenting a significant challenge in the realm of deep learning. Recent researchers have sought to leverage the additional textual or linguistic information of these rare categories with a pre-trained language model to facilitate learning, thus partially alleviating the problem of insufficient supervision signals. However, the full potential of the textual information and pre-trained language model have been underestimated in the few-shot learning till now, resulting in limited performance enhancements. To address this, we propose a simple but effective framework for few-shot learning tasks, specifically designed to exploit the textual information and language model. In more detail, we explicitly exploit the zero-shot capability of the pre-trained language model with the learnable prompt. And we just add the visual feature with the textual feature for inference directly without the intricate designed fusion modules in previous works. Additionally, we apply the self-ensemble and distillation to further enhance these components. Our extensive experiments conducted across four widely used few-shot datasets demonstrate that our simple framework achieves impressive results. Particularly noteworthy is its outstanding performance in the 1-shot learning task, surpassing state-of-the-art methods by an average of 3.0\% in classification accuracy. \footnote{We will make the source codes of the proposed framework publicly available upon acceptance. }.

arxiv情報

著者 Chunpeng Zhou,Haishuai Wang,Xilu Yuan,Zhi Yu,Jiajun Bu
発行日 2024-01-10 08:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク