Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification

要約

強化学習 (RL) エージェントのトレーニングを成功させるには、明確に定義された報酬関数が不可欠です。
ただし、適切な報酬関数を定義することは、特に複雑で複数の目的がある環境では、非常に困難な作業であることで知られています。
開発者は多くの場合、初期の、誤って指定された可能性のある報酬関数から開始し、観察された学習動作に基づいてそのパラメーターを繰り返し調整するという手段に頼らなければなりません。
この研究では、誤って指定された報酬関数の影響を軽減するために人間のフィードバックを使用する反復的な報酬形成アプローチである ITERS を提案することで、このプロセスを自動化することを目指しています。
私たちのアプローチにより、ユーザーはトレーニング中のエージェントの行動に関する軌跡レベルのフィードバックを提供でき、次のトレーニング反復で報酬形成信号として統合できます。
また、ユーザーがフィードバックの説明を提供することもできます。これは、フィードバックを強化し、ユーザーの労力とフィードバックの頻度を減らすために使用されます。
我々は 3 つの環境で ITERS を評価し、ITERS が誤って指定された報酬関数を正常に修正できることを示します。

要約(オリジナル)

A well-defined reward function is crucial for successful training of an reinforcement learning (RL) agent. However, defining a suitable reward function is a notoriously challenging task, especially in complex, multi-objective environments. Developers often have to resort to starting with an initial, potentially misspecified reward function, and iteratively adjusting its parameters, based on observed learned behavior. In this work, we aim to automate this process by proposing ITERS, an iterative reward shaping approach using human feedback for mitigating the effects of a misspecified reward function. Our approach allows the user to provide trajectory-level feedback on agent’s behavior during training, which can be integrated as a reward shaping signal in the following training iteration. We also allow the user to provide explanations of their feedback, which are used to augment the feedback and reduce user effort and feedback frequency. We evaluate ITERS in three environments and show that it can successfully correct misspecified reward functions.

arxiv情報

著者 Jasmina Gajcin,James McCarthy,Rahul Nair,Radu Marinescu,Elizabeth Daly,Ivana Dusparic
発行日 2023-08-30 11:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク