UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning

要約

トランスダクトの少数のショット学習は、最近、コンピュータービジョンにおいて幅広い注目を集めています。
しかし、現在の方法では、クラスバランスのレベルなどのテストバッチの予測統計を制御するキーハイパーパラメーターを導入し、パフォーマンスに大きな影響を与えます。
このようなハイパーパラメーターは、検証データに対して経験的にグリッド検索されており、その構成はターゲットデータセットと事前トレーニングモデルによって大きく異なる場合があり、そのような経験的検索は、最適ではなく計算的に扱いやすくなります。
この作業では、少数のショット学習の文脈で「学習を最適化する」とも呼ばれる展開パラダイムを提唱し、紹介し、それによって最適化されたハイパーパラメーターのセットを効率的かつ効果的に学習します。
具体的には、ユビキタスな期待最大化(EM)オプティマイザーの一般化をニューラルネットワークアーキテクチャに展開し、それぞれをレイヤーにマッピングし、検証データを介した重要なハイパーパラメーターのセットを学習します。
当社の展開アプローチでは、最近の基礎ビジョン言語モデルや標準的なビジョンのみの分類器を含む、さまざまな統計的特徴分布とトレーニング前のパラダイムをカバーしています。
包括的な実験を報告します。包括的な実験は、幅広い細粒の下流の画像分類タスクをカバーしており、提案された拡大されたEMアルゴリズムが反復バリエーションよりももたらした大幅な利益を示しています。
達成された改善は、それぞれ視力のみと視覚言語のベンチマークで最大10%と7.5%に達します。

要約(オリジナル)

Transductive few-shot learning has recently triggered wide attention in computer vision. Yet, current methods introduce key hyper-parameters, which control the prediction statistics of the test batches, such as the level of class balance, affecting performances significantly. Such hyper-parameters are empirically grid-searched over validation data, and their configurations may vary substantially with the target dataset and pre-training model, making such empirical searches both sub-optimal and computationally intractable. In this work, we advocate and introduce the unrolling paradigm, also referred to as ‘learning to optimize’, in the context of few-shot learning, thereby learning efficiently and effectively a set of optimized hyper-parameters. Specifically, we unroll a generalization of the ubiquitous Expectation-Maximization (EM) optimizer into a neural network architecture, mapping each of its iterates to a layer and learning a set of key hyper-parameters over validation data. Our unrolling approach covers various statistical feature distributions and pre-training paradigms, including recent foundational vision-language models and standard vision-only classifiers. We report comprehensive experiments, which cover a breadth of fine-grained downstream image classification tasks, showing significant gains brought by the proposed unrolled EM algorithm over iterative variants. The achieved improvements reach up to 10% and 7.5% on vision-only and vision-language benchmarks, respectively.

arxiv情報

著者 Long Zhou,Fereshteh Shakeri,Aymen Sadraoui,Mounir Kaaniche,Jean-Christophe Pesquet,Ismail Ben Ayed
発行日 2025-04-11 16:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク