Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models

要約

我々は、既存のモデルパラメータの小さなサブセットを最適化することでモデルを下流のタスクに適応させる、大規模言語モデル向けの新しいパラメータ効率トレーニング(PET)方法を提案します。
従来の方法とは異なり、このサブセットは位置が固定されておらず、どのパラメータが変更されるかはトレーニングの過程で変化します。
この動的パラメータ選択により、既存の方法よりもはるかに少ないパラメータで良好なパフォーマンスが得られます。
私たちの方法では、モデル全体のサイズの任意の割合にわたってサブセット サイズをシームレスにスケーリングできますが、プロンプト チューニングや LoRA などの一般的な PET アプローチは、この範囲のごく一部しかカバーしません。
ほとんどの場合、さまざまなモデル ファミリやサイズにわたる特定のパラメーター バジェットのさまざまな NLP タスク (MT、QA、GSM8K、SuperGLUE) で、当社はプロンプト チューニングと LoRA と同等またはそれを上回ります。

要約(オリジナル)

We propose a novel parameter-efficient training (PET) method for large language models that adapts models to downstream tasks by optimizing a small subset of the existing model parameters. Unlike prior methods, this subset is not fixed in location but rather which parameters are modified evolves over the course of training. This dynamic parameter selection can yield good performance with many fewer parameters than extant methods. Our method enables a seamless scaling of the subset size across an arbitrary proportion of the total model size, while popular PET approaches like prompt tuning and LoRA cover only a small part of this spectrum. We match or outperform prompt tuning and LoRA in most cases on a variety of NLP tasks (MT, QA, GSM8K, SuperGLUE) for a given parameter budget across different model families and sizes.

arxiv情報

著者 Felix Stahlberg,Jared Lichtarge,Shankar Kumar
発行日 2024-11-13 13:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク