Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism

要約

この論文では、人間の選択によって引き起こされる一連の軌跡から、人間の根本的な報酬と MDP の最適なポリシーを学習することを目的とした、ヒューマン フィードバックによるオフライン強化学習 (RLHF) を研究します。
RLHF は複数の理由から困難を伴います。それは、大きな国家空間だが人間のフィードバックが限られていること、人間の意思決定の制限された合理性、およびポリシー外の配分の変化です。
この論文では、人間の選択をモデル化して理解するための動的離散選択 (DDC) モデルに焦点を当てます。
DCC は、計量経済学と意思決定理論に根ざしており、将来を見据えた限定された合理性を備えた人間の意思決定プロセスをモデル化するために広く使用されています。
\underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}最適化 (DCPPO) 手法を提案します。
\ この方法には 3 段階のプロセスが含まれます。最初のステップは、最尤推定 (MLE) によって人間の行動ポリシーと状態行動価値関数を推定することです。
2 番目のステップでは、学習値関数を使用してベルマン平均二乗誤差を最小化することで人間の報酬関数を回復します。
3 番目のステップは、学習した報酬を組み込み、最適に近いポリシーを見つけるために悲観的な値の反復を呼び出すことです。
データセットの単一ポリシー カバレッジ (つまり、最適ポリシー) のみを使用して、DCPPO の準最適性が、分布シフトと次元に対する準最適性の依存性の点で古典的な悲観的オフライン RL アルゴリズムとほぼ一致することを証明します。
私たちの知る限り、この論文は、動的離散選択モデルを使用したオフポリシー オフライン RLHF の最初の理論的保証を示します。

要約(オリジナル)

In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human’s underlying reward and the MDP’s optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality’s dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.

arxiv情報

著者 Zihao Li,Zhuoran Yang,Mengdi Wang
発行日 2023-05-31 15:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク