When Your AI Deceives You: Challenges with Partial Observability of Human Evaluators in Reward Learning

要約

人間のフィードバックからの強化学習 (RLHF) の過去の分析は、人間が環境を完全に観察していることを前提としています。
人間のフィードバックが部分的な観察のみに基づいている場合はどうなるでしょうか?
私たちは、欺瞞と過剰正当化という 2 つの失敗ケースを正式に定義します。
人間をボルツマン合理的としてモデル化する
軌道よりも信念を重視することで、RLHF が彼らのパフォーマンスを欺瞞的に水増ししたり、印象を与えるために彼らの行動を過度に正当化したり、あるいはその両方を行う政策を確実にもたらす条件を証明します。
これらの問題に対処するために、環境の部分的な可観測性が学習された戻り関数のあいまいさ (の欠如) にどのように変換されるかを数学的に特徴付けます。
場合によっては、部分的な可観測性を考慮することで、理論的には戻り関数、つまり最適なポリシーを回復することが可能になりますが、他の場合には、軽減できない曖昧さが存在します。
私たちは、部分的に観察可能な環境でRLHFを盲目的に適用することに警告し、これらの課題に取り組むのに役立つ研究の方向性を提案します。

要約(オリジナル)

Past analyses of reinforcement learning from human feedback (RLHF) assume that the human fully observes the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deception and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. To help address these issues, we mathematically characterize how partial observability of the environment translates into (lack of) ambiguity in the learned return function. In some cases, accounting for partial observability makes it theoretically possible to recover the return function and thus the optimal policy, while in other cases, there is irreducible ambiguity. We caution against blindly applying RLHF in partially observable settings and propose research directions to help tackle these challenges.

arxiv情報

著者 Leon Lang,Davis Foote,Stuart Russell,Anca Dragan,Erik Jenner,Scott Emmons
発行日 2024-02-27 18:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク