Improving generalization in large language models by learning prefix subspaces

要約

この記事では、希少データ領域 (「少数ショット」学習設定とも呼ばれます) における大規模言語モデル (LLM) の微調整に焦点を当てます。
ニューラルネットワーク部分空間に基づいてLLMの汎化能力を高める方法を提案します。
最近コンピュータ ビジョンに導入されたこの最適化手法は、パラメータ空間でのモデルの単体全体の共同最適化を通じて、より広範な局所最適化を特定することにより、モデルの一般化を改善することを目的としています。
ただし、大規模な事前トレーニング済みトランスフォーマーへの適応には、いくつかの課題が生じます。
第一に、パラメータの数が非常に多いため、複数のモデルを共同でトレーニングすることが困難になります。第二に、決定論的なパラメータ初期化スキームにより、最初に提案された部分空間法には適さなくなります。
ただし、この論文では、「パラメータ効率の良い微調整」(PEFT) 手法がこの元のアプローチと完全に互換性があることを示し、連続プレフィックスの単体全体を学習することを提案します。
私たちは、少数ショット学習設定に適応した GLUE ベンチマークのバリアントでメソッドをテストし、両方の貢献が共同して sota メソッドと比較して平均パフォーマンスの向上につながることを示します。
実装は次のリンクにあります: https://github.com/Liloulou/prefix_subspace

要約(オリジナル)

This article focuses on large language models (LLMs) fine-tuning in the scarce data regime (also known as the ‘few-shot’ learning setting). We propose a method to increase the generalization capabilities of LLMs based on neural network subspaces. This optimization method, recently introduced in computer vision, aims to improve model generalization by identifying wider local optima through the joint optimization of an entire simplex of models in parameter space. Its adaptation to massive, pretrained transformers, however, poses some challenges. First, their considerable number of parameters makes it difficult to train several models jointly, and second, their deterministic parameter initialization schemes make them unfit for the subspace method as originally proposed. We show in this paper that ‘Parameter Efficient Fine-Tuning’ (PEFT) methods, however, are perfectly compatible with this original approach, and propose to learn entire simplex of continuous prefixes. We test our method on a variant of the GLUE benchmark adapted to the few-shot learning setting, and show that both our contributions jointly lead to a gain in average performances compared to sota methods. The implementation can be found at the following link: https://github.com/Liloulou/prefix_subspace

arxiv情報

著者 Louis Falissard,Vincent Guigue,Laure Soulier
発行日 2023-10-24 12:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク