要約
少数ショット学習の領域では、CLIP のような基礎モデルが効果的であることが証明されていますが、特に少数ショット設定ではクロスドメインの堅牢性に限界があります。
最近の作品では、これらのモデルのパフォーマンスを向上させるための追加モダリティとしてテキストが追加されています。
これらのアプローチのほとんどは、基礎となるクラスの視覚的特徴の分布を解明する可能性を十分に探ることなく、テキストを補助的なモダリティとして扱います。
この論文では、テキスト由来の統計を活用して、各クラスの視覚的特徴分布の平均と共分散を予測する新しいアプローチを紹介します。
この予測フレームワークは潜在空間を強化し、より堅牢で一般化可能な少数ショット学習モデルを生成します。
さまざまなデータセットにわたる少数ショット分類のパフォーマンスを向上させるために、平均統計と共分散統計の両方を組み込むことの有効性を実証します。
私たちの方法は、テキストを使用して分布の平均と共分散を予測できることを示しており、少数ショットの学習シナリオで有望な改善をもたらします。
要約(オリジナル)
In the realm of few-shot learning, foundation models like CLIP have proven effective but exhibit limitations in cross-domain robustness especially in few-shot settings. Recent works add text as an extra modality to enhance the performance of these models. Most of these approaches treat text as an auxiliary modality without fully exploring its potential to elucidate the underlying class visual features distribution. In this paper, we present a novel approach that leverages text-derived statistics to predict the mean and covariance of the visual feature distribution for each class. This predictive framework enriches the latent space, yielding more robust and generalizable few-shot learning models. We demonstrate the efficacy of incorporating both mean and covariance statistics in improving few-shot classification performance across various datasets. Our method shows that we can use text to predict the mean and covariance of the distribution offering promising improvements in few-shot learning scenarios.
arxiv情報
著者 | Yassir Bendou,Vincent Gripon,Bastien Pasdeloup,Giulia Lioi,Lukas Mauch,Fabien Cardinaux,Ghouthi Boukli Hacene |
発行日 | 2023-11-24 15:23:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google