要約
大規模言語モデル (LLM) は、テキストの要約や数学的な質問など、すぐに使用できるさまざまなタスクを解決する機能を備えていますが、多くの場合、単一のタスクを念頭に置いてトレーニングされます。
計算コストが高いため、現在の傾向は、プロンプト命令チューニングを使用して、モノリシックで事前トレーニングされた LLM を新しい (ただし個別の) 下流タスクに合わせてより適切に調整することです。
したがって、プロンプトチューニングをどのように拡張して、同時に異種タスクとデータ分散を処理できるかは、広く未解決の問題です。
このギャップに対処するために、スマート ゲーティング機能に関連付けられた \emph{Mixture of Prompts}、または MoP の使用を提案します。後者は、その設計がこの論文の貢献の 1 つであり、さまざまな機能に埋め込まれた関連スキルを識別できます。
プロンプトのグループを作成し、ターゲット タスクに基づいて組み合わせたエキスパート (つまり、プロンプトのコレクション) を動的に割り当てます。
さらに、MoP は経験的に、効率性の理由から適用されるモデル圧縮技術や、命令データ ソースやタスク構成に依存しません。
実際には、MoP は、マルチタスク、マルチソースのシナリオ (ソース間でのタスクとデータの異質性など) におけるプロンプト トレーニングの「干渉」と、モデルの近似による考えられる影響を同時に軽減できます。
ハイライトとして、MoP はフェデレーテッド シナリオでベースラインと比較して、最終的な混乱を $\sim20\%$ から $\sim70\%$ まで、そして $\sim 3\%$ から $\sim30 まで減少させることに成功しています。
集中シナリオの \%$。
要約(オリジナル)
Large Language Models (LLMs) have the ability to solve a variety of tasks, such as text summarization and mathematical questions, just out of the box, but they are often trained with a single task in mind. Due to high computational costs, the current trend is to use prompt instruction tuning to better adjust monolithic, pretrained LLMs for new — but often individual — downstream tasks. Thus, how one would expand prompt tuning to handle — concomitantly — heterogeneous tasks and data distributions is a widely open question. To address this gap, we suggest the use of \emph{Mixture of Prompts}, or MoPs, associated with smart gating functionality: the latter — whose design is one of the contributions of this paper — can identify relevant skills embedded in different groups of prompts and dynamically assign combined experts (i.e., collection of prompts), based on the target task. Additionally, MoPs are empirically agnostic to any model compression technique applied — for efficiency reasons — as well as instruction data source and task composition. In practice, MoPs can simultaneously mitigate prompt training ‘interference’ in multi-task, multi-source scenarios (e.g., task and data heterogeneity across sources), as well as possible implications from model approximations. As a highlight, MoPs manage to decrease final perplexity from $\sim20\%$ up to $\sim70\%$, as compared to baselines, in the federated scenario, and from $\sim 3\%$ up to $\sim30\%$ in the centralized scenario.
arxiv情報
著者 | Chen Dun,Mirian Hipolito Garcia,Guoqing Zheng,Ahmed Hassan Awadallah,Anastasios Kyrillidis,Robert Sim |
発行日 | 2023-10-05 21:13:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google