Understanding the Overfitting of the Episodic Meta-training

要約

2 段階の少数ショット分類法の成功にもかかわらず、エピソードのメタトレーニング段階では、モデルは深刻な過学習に悩まされます。
我々は、それが過剰な差別によって引き起こされると仮説を立てます。つまり、モデルは、新しいクラスの一般化を抑制しながら、基本クラスの差別に適合する表面的な特徴に過度に依存することを学習します。
過度の差別を罰するために、トレーニング中に教師モデルから新しい一般化知識を保持するための知識蒸留手法を導入します。
具体的には、メタトレーニング中に最良の検証精度を持つ教師モデルを選択し、教師モデルの線形分類器の出力分布と学生モデルの線形分類器の出力分布の間の対称カルバック・ライブラー (SKL) 発散を制限します。
このシンプルなアプローチは、標準のメタトレーニング プロセスよりも優れたパフォーマンスを発揮します。
さらに、知識蒸留技術の限界を押し上げるメタトレーニングのための最近傍対称カルバックライブラー (NNSKL) 発散を提案します。
NNSKL は、少数ショット タスクを入力として受け取り、最近傍分類器の出力にペナルティを課します。これは、クエリの埋め込みとサポート センターの間の関係に影響を与えます。
メタトレーニングで SKL と NNSKL を組み合わせることで、モデルはさらに優れたパフォーマンスを達成し、いくつかのベンチマークで最先端の結果を上回ります。

要約(オリジナル)

Despite the success of two-stage few-shot classification methods, in the episodic meta-training stage, the model suffers severe overfitting. We hypothesize that it is caused by over-discrimination, i.e., the model learns to over-rely on the superficial features that fit for base class discrimination while suppressing the novel class generalization. To penalize over-discrimination, we introduce knowledge distillation techniques to keep novel generalization knowledge from the teacher model during training. Specifically, we select the teacher model as the one with the best validation accuracy during meta-training and restrict the symmetric Kullback-Leibler (SKL) divergence between the output distribution of the linear classifier of the teacher model and that of the student model. This simple approach outperforms the standard meta-training process. We further propose the Nearest Neighbor Symmetric Kullback-Leibler (NNSKL) divergence for meta-training to push the limits of knowledge distillation techniques. NNSKL takes few-shot tasks as input and penalizes the output of the nearest neighbor classifier, which possesses an impact on the relationships between query embedding and support centers. By combining SKL and NNSKL in meta-training, the model achieves even better performance and surpasses state-of-the-art results on several benchmarks.

arxiv情報

著者 Siqi Hui,Sanping Zhou,Ye deng,Jinjun Wang
発行日 2023-06-29 11:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク