Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning

要約

過去 1 年間にわたり、GPT 記述子を使用したゼロショット評価を中心とした多数のマルチモーダルな研究が行われてきました。
これらの研究により、GPT によって生成されたラベル固有のテキストのアンサンブルを使用して、事前トレーニングされた VL モデルのゼロショット精度が向上しました。
最近の研究 WaffleCLIP では、ランダム記述子のアンサンブルを使用しても同様のゼロショット精度を達成できることが実証されました。
ただし、両方のゼロショット手法はトレーニング不可能であり、その結果、少数ショットの分布外 (OOD) トレーニング データが利用可能な場合には最適とは言えません。
これらの以前の研究からインスピレーションを得て、記述子スープとワードスープと呼ばれる 2 つのより柔軟な方法を紹介します。これらはテスト時に LLM を必要とせず、トレーニング データを活用して OOD ターゲットの精度を向上させることができます。
記述子スープは、一般的な少数ショットのトレーニング データを使用してテキスト記述子の小さなセットを貪欲に選択し、選択した記述子を使用して堅牢なクラスの埋め込みを計算します。
ワードスープも同じように貪欲に言葉の連鎖を組み立てていきます。
既存の少数ショットのソフト プロンプト チューニング方法と比較して、ワード スープはバックプロパゲーションを必要としないため、構築時に必要なパラメータが少なく、GPU メモリも少なくなります。
どちらのスープも、クロスデータセットおよびドメイン汎化ベンチマークにおいて、SoTA ゼロショット手法と組み合わせた場合でも、現在公開されている少数ショット手法よりも優れたパフォーマンスを示します。
ProDA や WaffleCLIP などの SoTA プロンプトおよび記述子のアンサンブル手法と比較して、ワード スープは少ないアンサンブル メンバーで高い OOD 精度を実現します。
コードをチェックしてください: github.com/Chris210634/word_soups

要約(オリジナル)

Over the past year, a large body of multimodal research has emerged around zero-shot evaluation using GPT descriptors. These studies boost the zero-shot accuracy of pretrained VL models with an ensemble of label-specific text generated by GPT. A recent study, WaffleCLIP, demonstrated that similar zero-shot accuracy can be achieved with an ensemble of random descriptors. However, both zero-shot methods are un-trainable and consequently sub-optimal when some few-shot out-of-distribution (OOD) training data is available. Inspired by these prior works, we present two more flexible methods called descriptor and word soups, which do not require an LLM at test time and can leverage training data to increase OOD target accuracy. Descriptor soup greedily selects a small set of textual descriptors using generic few-shot training data, then calculates robust class embeddings using the selected descriptors. Word soup greedily assembles a chain of words in a similar manner. Compared to existing few-shot soft prompt tuning methods, word soup requires fewer parameters by construction and less GPU memory, since it does not require backpropagation. Both soups outperform current published few-shot methods, even when combined with SoTA zero-shot methods, on cross-dataset and domain generalization benchmarks. Compared with SoTA prompt and descriptor ensembling methods, such as ProDA and WaffleCLIP, word soup achieves higher OOD accuracy with fewer ensemble members. Please checkout our code: github.com/Chris210634/word_soups

arxiv情報

著者 Christopher Liao,Theodoros Tsiligkaridis,Brian Kulis
発行日 2024-03-29 15:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク