Explaining an Agent’s Future Beliefs through Temporally Decomposing Future Reward Estimators

要約

将来の報酬の推定は、強化学習エージェントの中核コンポーネントです。
つまり、エージェントの将来の報酬の合計を予測する Q 値関数と状態値関数です。
ただし、そのスカラー出力では、エージェントがいつ、またはどのような個別の将来の報酬を期待できるのかがわかりにくくなります。
私たちは、時間的報酬分解 (TRD) と呼ばれる、エージェントの将来の報酬推定量を変更して、次の N 個の期待報酬を予測することでこの問題に対処します。
これにより、エージェントの行動の新しい説明が明らかになります。
TRD を通じて、次のことが可能になります。 エージェントがいつ報酬を受け取ると予想されるか、報酬の価値、および報酬を受け取るエージェントの自信を推定します。
エージェントの行動決定に対する入力特徴の時間的重要性を測定する。
さまざまなアクションが将来の報酬に与える影響を予測します。
さらに、Atari 環境でトレーニングされた DQN エージェントが、パフォーマンスへの影響を最小限に抑えながら、TRD を組み込むように効率的に再トレーニングできることを示します。

要約(オリジナル)

Future reward estimation is a core component of reinforcement learning agents; i.e., Q-value and state-value functions, predicting an agent’s sum of future rewards. Their scalar output, however, obfuscates when or what individual future rewards an agent may expect to receive. We address this by modifying an agent’s future reward estimator to predict their next N expected rewards, referred to as Temporal Reward Decomposition (TRD). This unlocks novel explanations of agent behaviour. Through TRD we can: estimate when an agent may expect to receive a reward, the value of the reward and the agent’s confidence in receiving it; measure an input feature’s temporal importance to the agent’s action decisions; and predict the influence of different actions on future rewards. Furthermore, we show that DQN agents trained on Atari environments can be efficiently retrained to incorporate TRD with minimal impact on performance.

arxiv情報

著者 Mark Towers,Yali Du,Christopher Freeman,Timothy J. Norman
発行日 2024-08-15 15:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク