Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques

要約

私たちは、ヒューマン フィードバックからのマルチエージェント強化学習 (MARLHF) の研究を開始し、理論的基礎と経験的検証の両方を調査します。
私たちはこのタスクを、総和ゲームにおける選好のみのオフライン データセットからナッシュ均衡を特定することと定義します。この問題は、フィードバック信号がまばらであるという課題によって特徴づけられます。
私たちの理論は、有効な MARLHF におけるナッシュ均衡の複雑さの上限を確立し、単一ポリシーの適用範囲が不十分であることを実証し、一方的なデータセットの適用範囲の重要性を強調しています。
これらの理論的な洞察は、包括的な実験を通じて検証されます。
実際のパフォーマンスを向上させるために、さらに 2 つのアルゴリズム手法を導入します。
(1) より均一な報酬分布を実現し、報酬学習の成果を向上させるために、時間軸に沿った平均二乗誤差 (MSE) の正則化を提案します。
(2) 模倣学習を活用して基準方針に近似し、研修の安定性と効果を確保します。
私たちの調査結果は、MARLHF に必要な多面的なアプローチを強調し、効果的な好みに基づくマルチエージェント システムへの道を切り開きます。

要約(オリジナル)

We initiate the study of Multi-Agent Reinforcement Learning from Human Feedback (MARLHF), exploring both theoretical foundations and empirical validations. We define the task as identifying Nash equilibrium from a preference-only offline dataset in general-sum games, a problem marked by the challenge of sparse feedback signals. Our theory establishes the upper complexity bounds for Nash Equilibrium in effective MARLHF, demonstrating that single-policy coverage is inadequate and highlighting the importance of unilateral dataset coverage. These theoretical insights are verified through comprehensive experiments. To enhance the practical performance, we further introduce two algorithmic techniques. (1) We propose a Mean Squared Error (MSE) regularization along the time axis to achieve a more uniform reward distribution and improve reward learning outcomes. (2) We utilize imitation learning to approximate the reference policy, ensuring stability and effectiveness in training. Our findings underscore the multifaceted approach required for MARLHF, paving the way for effective preference-based multi-agent systems.

arxiv情報

著者 Natalia Zhang,Xinqi Wang,Qiwen Cui,Runlong Zhou,Sham M. Kakade,Simon S. Du
発行日 2024-09-04 15:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク