要約
将来の高度な AI システムは、人間が安全に評価できるほど理解できない高度な戦略を強化学習 (RL) を通じて学習する可能性があります。
私たちは、たとえ人間が望ましくない行動であることを検出できなかったとしても、エージェントが高額な報酬を受け取る望ましくない多段階の計画(多段階の「報酬ハック」)を学習することを回避するトレーニング方法を提案します。
この方法である非近視最適化 (MONA) は、近視眼的な最適化と遠視眼的な報酬を組み合わせることによって機能します。
我々は、報酬ハッキングを検出できず、通常の RL がアクセスできない追加情報がなくても、MONA が通常の RL が引き起こす多段階の報酬ハッキングを防ぐことができることを実証します。
私たちは、委任された監視とエンコードされた推論を表す LLM を備えた 2 ステップ環境と、センサーの改ざんを表す長期的なグリッドワールド環境を含む、さまざまな位置ずれの故障モードをモデル化する 3 つの設定で MONA を実証的に研究します。
要約(オリジナル)
Future advanced AI systems may learn sophisticated strategies through reinforcement learning (RL) that humans cannot understand well enough to safely evaluate. We propose a training method which avoids agents learning undesired multi-step plans that receive high reward (multi-step ‘reward hacks’) even if humans are not able to detect that the behaviour is undesired. The method, Myopic Optimization with Non-myopic Approval (MONA), works by combining short-sighted optimization with far-sighted reward. We demonstrate that MONA can prevent multi-step reward hacking that ordinary RL causes, even without being able to detect the reward hacking and without any extra information that ordinary RL does not get access to. We study MONA empirically in three settings which model different misalignment failure modes including 2-step environments with LLMs representing delegated oversight and encoded reasoning and longer-horizon gridworld environments representing sensor tampering.
arxiv情報
著者 | Sebastian Farquhar,Vikrant Varma,David Lindner,David Elson,Caleb Biddulph,Ian Goodfellow,Rohin Shah |
発行日 | 2025-01-22 16:53:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google