Moral Alignment for LLM Agents

要約

事前トレーニングされた大規模言語モデル (LLM) に基づく意思決定エージェントは、人間の活動のさまざまな領域にますます導入されています。
現在、それらのアプリケーションはかなり特殊化されていますが、より汎用的なエージェントを開発するためにいくつかの研究努力が進行中です。
LLM ベースのシステムがよりエージェント的になるにつれて、人間の活動に対するその影響は増大し、その透明性は低下します。
したがって、人間の価値観に合わせて調整するための効果的な方法を開発することが不可欠です。
アライメントにおける一般的な実践は、人間の好みのデータ (RLHF や DPO など) に依存することが多く、その値は暗黙的なものであり、基本的には異なるモデル出力に対する相対的な好みから推定されます。
この研究では、人間のフィードバックに依存する代わりに、基礎エージェント モデルの強化学習ベースの微調整のために人間の中核となる価値を明示的にエンコードする報酬関数の設計を導入します。
具体的には、LLM エージェントの道徳的調整のために固有の報酬を使用します。
私たちは、義務論的倫理と功利主義の伝統的な哲学的枠組みを使用してアプローチを評価し、反復囚人のジレンマ (IPD) 環境における行動と結果の観点からエージェントへの道徳的報酬を定量化します。
また、エージェントが以前に開発した利己的な戦略を学習から解放できるように、道徳の微調整をどのように展開できるかについても示します。
最後に、IPD ゲームで学習した特定の道徳的戦略が、他のいくつかのマトリックス ゲーム環境にも一般化されることがわかりました。
要約すると、本質的報酬による微調整は、LLM エージェントを人間の価値観に合わせて調整するための有望な一般的なソリューションであり、現在主流の調整手法に代わる、より透明性があり、コスト効率の高い代替手段となる可能性があることを示します。

要約(オリジナル)

Decision-making agents based on pre-trained Large Language Models (LLMs) are increasingly being deployed across various domains of human activity. While their applications are currently rather specialized, several research efforts are under way to develop more generalist agents. As LLM-based systems become more agentic, their influence on human activity will grow and the transparency of this will decrease. Consequently, developing effective methods for aligning them to human values is vital. The prevailing practice in alignment often relies on human preference data (e.g., in RLHF or DPO), in which values are implicit and are essentially deduced from relative preferences over different model outputs. In this work, instead of relying on human feedback, we introduce the design of reward functions that explicitly encode core human values for Reinforcement Learning-based fine-tuning of foundation agent models. Specifically, we use intrinsic rewards for the moral alignment of LLM agents. We evaluate our approach using the traditional philosophical frameworks of Deontological Ethics and Utilitarianism, quantifying moral rewards for agents in terms of actions and consequences on the Iterated Prisoner’s Dilemma (IPD) environment. We also show how moral fine-tuning can be deployed to enable an agent to unlearn a previously developed selfish strategy. Finally, we find that certain moral strategies learned on the IPD game generalize to several other matrix game environments. In summary, we demonstrate that fine-tuning with intrinsic rewards is a promising general solution for aligning LLM agents to human values, and it might represent a more transparent and cost-effective alternative to currently predominant alignment techniques.

arxiv情報

著者 Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
発行日 2024-12-02 14:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク