Causal Confusion and Reward Misidentification in Preference-Based Reward Learning

要約

好みに基づく報酬学習によるポリシーの学習は、エージェントの動作をカスタマイズする方法としてますます一般的になっていますが、偽の相関関係や報酬のハッキング動作が発生しやすいことが逸話的に示されています。
これまでの多くの研究が強化学習と行動クローニングにおける因果的混乱に焦点を当てていましたが、私たちは、好みから学習する際の因果的混乱と報酬の誤認の体系的な研究に焦点を当てています。
特に、選好から学習した報酬が最小のテスト エラーを達成するが、分布外の状態に一般化することに失敗するいくつかのベンチマーク ドメインで一連の感度およびアブレーション分析を実行します。最適化すると、ポリシーのパフォーマンスが低下します。
因果関係のないディストラクター機能の存在、指定された設定のノイズ、および部分的な状態の可観測性はすべて、報酬の誤認を悪化させる可能性があることがわかりました。
また、誤認された学習報酬を解釈するための一連の方法を特定します。
一般に、誤認された報酬を最適化すると、ポリシーが報酬のトレーニング分布から外れ、予測された (学習された) 報酬は高くなりますが、真の報酬は低くなります。
これらの調査結果は、誤認と因果的混乱に報いる選好学習の影響を受けやすいことを明らかにしています。多くの要因の 1 つでも考慮しないと、予期しない望ましくない行動が生じる可能性があります。

要約(オリジナル)

Learning policies via preference-based reward learning is an increasingly popular method for customizing agent behavior, but has been shown anecdotally to be prone to spurious correlations and reward hacking behaviors. While much prior work focuses on causal confusion in reinforcement learning and behavioral cloning, we focus on a systematic study of causal confusion and reward misidentification when learning from preferences. In particular, we perform a series of sensitivity and ablation analyses on several benchmark domains where rewards learned from preferences achieve minimal test error but fail to generalize to out-of-distribution states — resulting in poor policy performance when optimized. We find that the presence of non-causal distractor features, noise in the stated preferences, and partial state observability can all exacerbate reward misidentification. We also identify a set of methods with which to interpret misidentified learned rewards. In general, we observe that optimizing misidentified rewards drives the policy off the reward’s training distribution, resulting in high predicted (learned) rewards but low true rewards. These findings illuminate the susceptibility of preference learning to reward misidentification and causal confusion — failure to consider even one of many factors can result in unexpected, undesirable behavior.

arxiv情報

著者 Jeremy Tien,Jerry Zhi-Yang He,Zackory Erickson,Anca D. Dragan,Daniel S. Brown
発行日 2023-03-09 02:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク