要約
最近の研究では、補強学習エージェントが報酬と観察の間の偽の相関を活用するポリシーを開発できることが示されています。
ポリシー交絡として知られるこの現象は、エージェントのポリシーが過去と将来の観察変数の両方に影響を与え、通常の軌跡を超えてエージェントの一般化能力を妨げるフィードバックループを作成するために発生します。
このホワイトペーパーでは、ポリシー勾配手法で一般的に使用される利点関数は、勾配推定値の分散を減らすだけでなく、ポリシー交絡の効果を軽減することを示しています。
状態表現に関連するアクション値を調整することにより、アドバンテージは、現在のポリシーの下でより可能性が高い状態のアクションペアをダウンウェアする機能、偽の相関を破り、エージェントが因果要因に焦点を合わせるよう奨励します。
アドバンテージ関数を使用したトレーニングにより、軌道外のパフォーマンスが向上することを示す分析的および経験的証拠の両方を提供します。
要約(オリジナル)
Recent work has shown that reinforcement learning agents can develop policies that exploit spurious correlations between rewards and observations. This phenomenon, known as policy confounding, arises because the agent’s policy influences both past and future observation variables, creating a feedback loop that can hinder the agent’s ability to generalize beyond its usual trajectories. In this paper, we show that the advantage function, commonly used in policy gradient methods, not only reduces the variance of gradient estimates but also mitigates the effects of policy confounding. By adjusting action values relative to the state representation, the advantage function downweights state-action pairs that are more likely under the current policy, breaking spurious correlations and encouraging the agent to focus on causal factors. We provide both analytical and empirical evidence demonstrating that training with the advantage function leads to improved out-of-trajectory performance.
arxiv情報
著者 | Miguel Suau |
発行日 | 2025-06-13 16:06:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google