Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism

要約

本論文では、人間の選択によって誘発される軌道の集合から、人間の基本的な報酬とMDPの最適な政策を学習することを目的とした、人間のフィードバックを伴うオフライン強化学習(RLHF)を研究する。RLHFは、状態空間が大きいが人間のフィードバックが限られていること、人間の意思決定が限定合理的であること、政策分布がずれてしまうことなどの理由から困難である。本稿では、人間の選択をモデル化し理解するための動的離散選択(DDC)モデルに注目する。DCCは計量経済学と意思決定理論に根ざしたモデルであり、前向きで拘束合理性を持つ人間の意思決定過程をモデル化するために広く用いられている。我々は、DCPPO(Dynamic-underline-C}hoice-underline-P}essimistic-underline-P}olicy-underline-Optimization)法を提案する。\ この方法は3段階のプロセスを含む:第一段階は最尤推定(MLE)による人間行動政策と状態行動価値関数の推定、第二段階は学習された価値関数を用いたベルマン平均二乗誤差の最小化による人間報酬関数の復元、第三段階は学習された報酬をプラグインし、最適に近い政策を見つけるための悲観的価値反復を呼び出すことである。データセットの単一ポリシーカバレッジ(すなわち最適ポリシー)のみで、DCPPOの準最適性は、分布シフトと次元に対する準最適性の依存性という点で、古典的な悲観的オフラインRLアルゴリズムとほぼ一致することを証明する。我々の知る限り、本論文は動的離散選択モデルを用いたオフポリシーオフラインRLHFに対する最初の理論的保証を提示する。

要約(オリジナル)

In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human’s underlying reward and the MDP’s optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality’s dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.

arxiv情報

著者 Zihao Li,Zhuoran Yang,Mengdi Wang
発行日 2023-07-03 13:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク