Beyond Reward: Offline Preference-guided Policy Optimization

要約

この研究は、オフラインの好みに基づく強化学習 (PbRL) のトピックに焦点を当てています。PbRL は、オンラインでの対話や報酬関数の仕様を必要としない従来の強化学習の変形です。
代わりに、エージェントには既存のオフライン軌跡と軌跡のペア間の人間の好みが提供され、それぞれダイナミクスとタスク情報が抽出されます。
ダイナミクスとタスク情報は直交しているため、単純なアプローチでは、好みに基づいた報酬学習を使用し、その後に既製のオフライン RL アルゴリズムを使用する必要があります。
ただし、これにはスカラー報酬関数を別途学習する必要があり、これが情報のボトルネックになると考えられます。
この問題に対処するために、私たちはオフラインの好みに基づくポリシー最適化 (OPPO) パラダイムを提案します。これは、オフラインの軌跡と好みを 1 ステップのプロセスでモデル化し、報酬関数を個別に学習する必要性を排除します。
OPPO は、コンテキスト ポリシーを最適化するためのオフライン後知恵情報マッチング目標と、最適なコンテキストを見つけるためのプリファレンス モデリング目標を導入することでこれを実現します。
OPPO は、2 つの目標を繰り返し最適化することで、優れたパフォーマンスの意思決定ポリシーをさらに統合します。
私たちの実証結果は、OPPO がオフラインの好みを効果的にモデル化し、真または疑似の報酬関数仕様に基づいて実行されるオフライン RL アルゴリズムを含む、以前の競合するベースラインを上回るパフォーマンスを示していることを示しています。
私たちのコードは https://github.com/bkggbkjb/OPPO で入手できます。

要約(オリジナル)

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with pre-existing offline trajectories and human preferences between pairs of trajectories to extract the dynamics and task information, respectively. Since the dynamics and task information are orthogonal, a naive approach would involve using preference-based reward learning followed by an off-the-shelf offline RL algorithm. However, this requires the separate learning of a scalar reward function, which is assumed to be an information bottleneck. To address this issue, we propose the offline preference-guided policy optimization (OPPO) paradigm, which models offline trajectories and preferences in a one-step process, eliminating the need for separately learning a reward function. OPPO achieves this by introducing an offline hindsight information matching objective for optimizing a contextual policy and a preference modeling objective for finding the optimal context. OPPO further integrates a well-performing decision policy by optimizing the two objectives iteratively. Our empirical results demonstrate that OPPO effectively models offline preferences and outperforms prior competing baselines, including offline RL algorithms performed over either true or pseudo reward function specifications. Our code is available at https://github.com/bkkgbkjb/OPPO .

arxiv情報

著者 Yachen Kang,Diyuan Shi,Jinxin Liu,Li He,Donglin Wang
発行日 2023-05-25 16:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク