Collab: Controlled Decoding using Mixture of Agents for LLM Alignment

要約

大規模な言語モデル(LLMS)のアラインメントは、アプリケーションでの安全で信頼できる展開のために重要です。
人間のフィードバック(RLHF)からの強化学習は、LLMを人間の好みやより広範なユーティリティに合わせるための効果的な手法として浮上していますが、計算高価な数十億のモデルパラメーターを更新する必要があります。
対照的に、制御されたデコードは、再訓練なしで推論時間にモデルを整列させるメカニズムを提供します。
ただし、これらのタスクに内在する複雑さと変動性のため、単一エージェントデコードアプローチは、多様なタスクに適応するのに苦労しています。
ターゲットタスクでテスト時間パフォーマンスを強化するために、既存の既製のアライメントされたLLMポリシーを活用するエージェントベースのデコード戦略の混合を提案します。
エージェントコラボレーションの混合の精神のエージェントとして各事前のポリシーを扱うことで、複数のエージェントのトークンレベルの選択戦略を通じて推論時間アライメントを可能にするデコード方法を開発します。
トークンごとに、最も適切なLLMは、長期的なユーティリティメトリックに基づいたモデルのプールから動的に選択されます。
このポリシースイッチングメカニズムにより、各ステップで最適なモデル選択が保証され、デコード中のLLM間の効率的なコラボレーションと整合が可能になります。
提案されたアルゴリズムの理論分析は、与えられた既製モデルのターゲット報酬を介して表されるターゲットタスクに関して最適なパフォーマンスを確立します。
私たちは、単一エージェントデコードベースラインをめぐるこのアプローチのメリットを実証する、多様なタスクと好みに関するオープンソースアラインドモデルを使用して、包括的な経験的評価を実施します。
特に、Collabは現在のSOTAデコード戦略を上回り、GPT-4ベースのWin-Tieレートで最大1.56倍、71.89%の改善を達成します。

要約(オリジナル)

Alignment of Large Language models (LLMs) is crucial for safe and trustworthy deployment in applications. Reinforcement learning from human feedback (RLHF) has emerged as an effective technique to align LLMs to human preferences and broader utilities, but it requires updating billions of model parameters, which is computationally expensive. Controlled Decoding, by contrast, provides a mechanism for aligning a model at inference time without retraining. However, single-agent decoding approaches often struggle to adapt to diverse tasks due to the complexity and variability inherent in these tasks. To strengthen the test-time performance w.r.t the target task, we propose a mixture of agent-based decoding strategies leveraging the existing off-the-shelf aligned LLM policies. Treating each prior policy as an agent in the spirit of mixture of agent collaboration, we develop a decoding method that allows for inference-time alignment through a token-level selection strategy among multiple agents. For each token, the most suitable LLM is dynamically chosen from a pool of models based on a long-term utility metric. This policy-switching mechanism ensures optimal model selection at each step, enabling efficient collaboration and alignment among LLMs during decoding. Theoretical analysis of our proposed algorithm establishes optimal performance with respect to the target task represented via a target reward for the given off-the-shelf models. We conduct comprehensive empirical evaluations with open-source aligned models on diverse tasks and preferences, which demonstrates the merits of this approach over single-agent decoding baselines. Notably, Collab surpasses the current SoTA decoding strategy, achieving an improvement of up to 1.56x in average reward and 71.89% in GPT-4 based win-tie rate.

arxiv情報

著者 Souradip Chakraborty,Sujay Bhatt,Udari Madhushani Sehwag,Soumya Suvra Ghosal,Jiahao Qiu,Mengdi Wang,Dinesh Manocha,Furong Huang,Alec Koppel,Sumitra Ganesh
発行日 2025-03-27 17:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク