要約
勾配ベースのメタ学習技術は、新しいタスクを勾配降下法でより効率的に学習できるように、一連のトレーニング タスクから有用な事前知識を抽出することを目的としています。
これらの方法はさまざまなシナリオで成功を収めていますが、一般に、新しいタスクを学習するときにトレーニング可能な層のすべてのパラメーターを適応させます。
これにより、特定のタスク分布に対する潜在的により効率的な学習戦略が無視され、特に限られた数の例からタスクを学習する必要がある少数ショット学習では、過学習が発生しやすくなる可能性があります。
これらの問題に対処するために、我々は、適合すべき操作サブセットの形式で適切な初期化パラメータ (事前知識) と層ごとのパラメータ部分空間を共同で学習する、新しい勾配ベースのメタ学習アルゴリズムである Subspace Adaptation Prior (SAP) を提案します。
このようにして、SAP は、基礎となるタスクの分布に基づいて勾配降下法でどの演算サブセットを調整するかを学習することができ、同時に新しいタスクを学習する際の過剰適合のリスクを軽減します。
SAP が少数ショットの画像分類設定で優れたパフォーマンスまたは競争力のあるパフォーマンスを生み出すため、この機能が役立つことを実証します (精度が 0.1% ~ 3.9% 向上)。
学習された部分空間の分析は、低次元操作が高い活性化強度をもたらすことが多いことを示しており、低次元操作が良好な少数ショット学習パフォーマンスを達成するために重要である可能性があることを示しています。
再現性を確保するため、当社ではすべての研究コードを公開しています。
要約(オリジナル)
Gradient-based meta-learning techniques aim to distill useful prior knowledge from a set of training tasks such that new tasks can be learned more efficiently with gradient descent. While these methods have achieved successes in various scenarios, they commonly adapt all parameters of trainable layers when learning new tasks. This neglects potentially more efficient learning strategies for a given task distribution and may be susceptible to overfitting, especially in few-shot learning where tasks must be learned from a limited number of examples. To address these issues, we propose Subspace Adaptation Prior (SAP), a novel gradient-based meta-learning algorithm that jointly learns good initialization parameters (prior knowledge) and layer-wise parameter subspaces in the form of operation subsets that should be adaptable. In this way, SAP can learn which operation subsets to adjust with gradient descent based on the underlying task distribution, simultaneously decreasing the risk of overfitting when learning new tasks. We demonstrate that this ability is helpful as SAP yields superior or competitive performance in few-shot image classification settings (gains between 0.1% and 3.9% in accuracy). Analysis of the learned subspaces demonstrates that low-dimensional operations often yield high activation strengths, indicating that they may be important for achieving good few-shot learning performance. For reproducibility purposes, we publish all our research code publicly.
arxiv情報
著者 | Mike Huisman,Aske Plaat,Jan N. van Rijn |
発行日 | 2023-10-13 11:40:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google