Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks

要約

強化学習を解決するための最近人気のアプローチは、人間の好みからのデータを使用するものです。
実際、人間の選好データは現在、アクタークリティック法などの古典的な強化学習アルゴリズムで使用されています。これには、オフポリシー評価 (OPE) として知られる、分布シフトを伴う人間の選好データから学習した報酬に対する中間ポリシーの評価が含まれます。
このようなアルゴリズムには、(i) 人間の嗜好データセットから報酬関数を学習すること、および (ii) ターゲット ポリシーの予想累積報酬を学習することが含まれます。
経験的には大きな成功を収めているにもかかわらず、選好データを使用した既存の OPE 手法は理論的な理解が不足しており、ヒューリスティックに大きく依存していることがよくあります。
この論文では、人間の好みに基づいて OPE のサンプル効率を研究し、それに対する統計的保証を確立します。
具体的には、ディープ ニューラル ネットワークを使用した近似 Q 評価によって価値関数を学習することで OPE にアプローチします。
ReLU ネットワークのサイズを適切に選択することにより、マルコフ決定プロセスで低次元多様体構造を活用し、高いデータ周囲次元の呪縛に悩まされることなくサンプル効率の高い推定量を取得できることを示します。
報酬の平滑性が高いという仮定の下では、私たちの結果は \textit{観測可能な報酬データを備えた古典的な OPE の結果とほぼ一致しています}。
私たちの知る限り、これは RLHF によるオフポリシー評価に対する \textit{証明可能に効率的} な保証を確立した最初の結果です。

要約(オリジナル)

A recently popular approach to solving reinforcement learning is with data from human preferences. In fact, human preference data are now used with classic reinforcement learning algorithms such as actor-critic methods, which involve evaluating an intermediate policy over a reward learned from human preference data with distribution shift, known as off-policy evaluation (OPE). Such algorithm includes (i) learning reward function from human preference dataset, and (ii) learning expected cumulative reward of a target policy. Despite the huge empirical success, existing OPE methods with preference data often lack theoretical understanding and rely heavily on heuristics. In this paper, we study the sample efficiency of OPE with human preference and establish a statistical guarantee for it. Specifically, we approach OPE by learning the value function by fitted-Q-evaluation with a deep neural network. By appropriately selecting the size of a ReLU network, we show that one can leverage any low-dimensional manifold structure in the Markov decision process and obtain a sample-efficient estimator without suffering from the curse of high data ambient dimensionality. Under the assumption of high reward smoothness, our results \textit{almost align with the classical OPE results with observable reward data}. To the best of our knowledge, this is the first result that establishes a \textit{provably efficient} guarantee for off-policy evaluation with RLHF.

arxiv情報

著者 Zihao Li,Xiang Ji,Minshuo Chen,Mengdi Wang
発行日 2023-10-16 16:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク