FILM: How can Few-Shot Image Classification Benefit from Pre-Trained Language Models?

要約

フューショット学習は、わずかなサンプルのみで新しいクラスに一般化できるモデルをトレーニングすることを目的としています。
最近、クラス名からアクセス可能な意味情報を使用して少数ショット学習を強化する一連の研究が提案されています。
ただし、これらの作業は、標準の少数ショット学習フレームワークのビジュアル プロトタイプや特徴抽出器などの既存のモジュールを改善することに重点を置いています。
これにより、セマンティック情報の潜在的な使用が制限されます。
この論文では、対照学習に基づいた事前トレーニング済み言語モデルを使用する、新しい少数ショット学習フレームワークを提案します。
視覚的特徴と、テキストベースの事前トレーニング済み言語モデルから得られるテキスト埋め込みとの間の調整という課題に対処するために、フレームワークのテキスト分岐を慎重に設計し、コサイン類似度を一般化するメトリック モジュールを導入します。
転送性を高めるために、メトリクス モジュールをさまざまな数ショット タスクに適応させ、MAML を採用して 2 レベルの最適化を通じてモデルをトレーニングします。
さらに、私たちは手法の有効性を実証するために、複数のベンチマークで広範な実験を実施しています。

要約(オリジナル)

Few-shot learning aims to train models that can be generalized to novel classes with only a few samples. Recently, a line of works are proposed to enhance few-shot learning with accessible semantic information from class names. However, these works focus on improving existing modules such as visual prototypes and feature extractors of the standard few-shot learning framework. This limits the full potential use of semantic information. In this paper, we propose a novel few-shot learning framework that uses pre-trained language models based on contrastive learning. To address the challenge of alignment between visual features and textual embeddings obtained from text-based pre-trained language model, we carefully design the textual branch of our framework and introduce a metric module to generalize the cosine similarity. For better transferability, we let the metric module adapt to different few-shot tasks and adopt MAML to train the model via bi-level optimization. Moreover, we conduct extensive experiments on multiple benchmarks to demonstrate the effectiveness of our method.

arxiv情報

著者 Zihao Jiang,Yunkai Dang,Dong Pang,Huishuai Zhang,Weiran Huang
発行日 2023-07-09 08:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク