要約
GPT-4 のような大規模言語モデル (LLM) の出現により、単一のモデルがさまざまなタスクにわたる習熟度を実証するマルチタスク学習 (MTL) の探求が促進されました。
タスク演算は、MTL の費用対効果の高いアプローチとして登場しました。
対応するタスク ベクトルを事前トレーニングされたモデルに追加することで、複数のタスクにわたるパフォーマンスの向上が可能になります。
ただし、最適なパフォーマンス、計算効率、データ プライバシーを同時に達成できる方法が現時点では存在しないため、LLM への適用は限られています。
この論文では、\textbf{M}odel \textbf{E}xclusive \textbf{T}ask \textbf{A} を \textbf{GPT} スケール モデルをマージするための算術演算を提案します。これは、モデルをマージして
マルチタスク学習フレームワーク。マージされたモデルと個々のタスク モデル間の平均損失の差を最小限に抑えることを目的としています。
データ プライバシーによりマルチタスク トレーニング データの使用が制限されるため、LLM の局所線形性とタスク ベクトルの直交性を利用してデータ項とスケーリング係数項を分離し、モデル専用のタスク演算方法を導き出します。
私たちが提案する MetaGPT はデータに依存せず、大量の検索プロセスをバイパスするため、コスト効率が高く、LLM への実装が容易になります。広範な実験により、MetaGPT がタスクの演算の改善につながり、複数のタスクで最先端のパフォーマンスを達成することが実証されました。
。
要約(オリジナル)
The advent of large language models (LLMs) like GPT-4 has catalyzed the exploration of multi-task learning (MTL), in which a single model demonstrates proficiency across diverse tasks. Task arithmetic has emerged as a cost-effective approach for MTL. It enables performance enhancement across multiple tasks by adding their corresponding task vectors to a pre-trained model. However, the current lack of a method that can simultaneously achieve optimal performance, computational efficiency, and data privacy limits their application to LLMs. In this paper, we propose \textbf{M}odel \textbf{E}xclusive \textbf{T}ask \textbf{A}rithmetic for merging \textbf{GPT}-scale models, which formalizes the objective of model merging into a multi-task learning framework, aiming to minimize the average loss difference between the merged model and each individual task model. Since data privacy limits the use of multi-task training data, we leverage LLMs’ local linearity and task vectors’ orthogonality to separate the data term and scaling coefficients term and derive a model-exclusive task arithmetic method. Our proposed MetaGPT is data-agnostic and bypasses the heavy search process, making it cost-effective and easy to implement for LLMs.Extensive experiments demonstrate that MetaGPT leads to improvements in task arithmetic and achieves state-of-the-art performance on multiple tasks.
arxiv情報
著者 | Yuyan Zhou,Liang Song,Bingning Wang,Weipeng Chen |
発行日 | 2024-06-27 16:01:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google