要約
サイズが大きいため、大規模言語モデル (LLM) は通常、単一バックボーンのマルチテナント フレームワーク内にデプロイされます。
このセットアップでは、LLM バックボーンの単一インスタンスが、さまざまなパラメーター効率の良い微調整 (PEFT) モデルのアプリケーションを通じて複数のユーザーまたはタスクに対応する必要があります。
LoRA など、数多くの効果的な PEFT 手法が利用可能であるにもかかわらず、推論中の高い効率と下流のタスクでの競争力のあるパフォーマンスの両方を達成する PEFT アプローチの必要性が依然として残っています。
この研究では、\underline{P}rompt D\underline{E}pen\underline{D}ent \underline{R}epresentation M\underline{O}dification (PEDRO) と呼ばれる、新しくて簡単な PEFT 手法を導入します。
提案された方法では、軽量ベクトル ジェネレーターを各 Transformer レイヤーに統合し、入力プロンプトに応じてベクトルを生成します。
これらのベクトルは、ドット積演算を通じて LLM によって作成された隠れた表現を変更し、それによってモデルのセマンティック出力と生成されたコンテンツに影響を与えます。
さまざまなタスクにわたる広範な実験により、(a) 同数の調整可能なパラメーターを使用した場合、PEDRO は最近の PEFT ベンチマークを上回っていることがわかります。
(b) シングル バックボーン マルチテナント展開モデルの下では、PEDRO は LoRA と比較して優れた効率を示し、大きな産業上の可能性を示しています。
要約(オリジナル)
Due to their substantial sizes, large language models (LLMs) are typically deployed within a single-backbone multi-tenant framework. In this setup, a single instance of an LLM backbone must cater to multiple users or tasks through the application of various parameter-efficient fine-tuning (PEFT) models. Despite the availability of numerous effective PEFT techniques such as LoRA, there remains a need for a PEFT approach that achieves both high efficiency during inference and competitive performance on downstream tasks. In this research, we introduce a new and straightforward PEFT methodology named \underline{P}rompt D\underline{E}pen\underline{D}ent \underline{R}epresentation M\underline{O}dification (PEDRO). The proposed method involves integrating a lightweight vector generator into each Transformer layer, which generates vectors contingent upon the input prompts. These vectors then modify the hidden representations created by the LLM through a dot product operation, thereby influencing the semantic output and generated content of the model. Extensive experimentation across a variety of tasks indicates that: (a) PEDRO surpasses recent PEFT benchmarks when using a similar number of tunable parameters. (b) Under the single-backbone multi-tenant deployment model, PEDRO exhibits superior efficiency compared to LoRA, indicating significant industrial potential.
arxiv情報
著者 | Tianfang Xie,Tianjing Li,Wei Zhu,Wei Han,Yi Zhao |
発行日 | 2024-09-26 13:36:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google