MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking

要約

将来の高度なAIシステムは、人間が安全に評価するのに十分十分に理解できない強化学習(RL)を通じて洗練された戦略を学ぶかもしれません。
人間が行動が望ましくないことを検出できない場合でも、高い報酬(マルチステップの「報酬ハッキング」)を受け取る望ましくないマルチステップ計画を学ぶエージェントを避けるトレーニング方法を提案します。
この方法は、非微妙な承認(MONA)による近視最適化は、近視の最適化と遠視の報酬を組み合わせることで機能します。
MONAは、報酬のハッキングを検出できなくても、通常のRLがアクセスしない追加の情報なしで、通常のRLが引き起こすマルチステップ報酬のハッキングを防ぐことができることを実証します。
委任された監視とエンコードされた推論を表すLLMを含む2段階の環境を含むさまざまな不整合障害モードをモデル化する3つの設定でMONAを経験的に研究し、センサーの改ざんを表す高齢者のグリッドワールド環境を表します。

要約(オリジナル)

Future advanced AI systems may learn sophisticated strategies through reinforcement learning (RL) that humans cannot understand well enough to safely evaluate. We propose a training method which avoids agents learning undesired multi-step plans that receive high reward (multi-step ‘reward hacks’) even if humans are not able to detect that the behaviour is undesired. The method, Myopic Optimization with Non-myopic Approval (MONA), works by combining short-sighted optimization with far-sighted reward. We demonstrate that MONA can prevent multi-step reward hacking that ordinary RL causes, even without being able to detect the reward hacking and without any extra information that ordinary RL does not get access to. We study MONA empirically in three settings which model different misalignment failure modes including 2-step environments with LLMs representing delegated oversight and encoded reasoning and longer-horizon gridworld environments representing sensor tampering.

arxiv情報

著者 Sebastian Farquhar,Vikrant Varma,David Lindner,David Elson,Caleb Biddulph,Ian Goodfellow,Rohin Shah
発行日 2025-04-10 16:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク