Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

要約

オフライン嗜好に基づく強化学習(RL)は、オフラインデータセットから選択された軌跡セグメントのペアの間の人間の嗜好を用いてポリシーを最適化することに焦点を当て、RLアプリケーションの実用的な道として浮上してきた。既存の研究では、嗜好が累積マルコフ報酬と相関すると仮定し、軌跡ごとの嗜好注釈からステップごとの報酬信号を抽出することに依存している。しかし、このような方法では、データ注釈の全体的な視点を捉えることができない:人間はしばしば、直接的な報酬よりも全体的な結果を考慮することで、一連の行動の望ましさを評価する。この課題を解決するために、我々は、軌跡セグメントの将来の結果を条件とした報酬、すなわち後知恵情報を用いて人間の嗜好をモデル化することを提案する。下流のRL最適化のために、各ステップの報酬は、将来起こりうる結果に対してマージナル化することによって計算され、その分布はオフラインデータセットを用いて学習された変分オートエンコーダによって近似される。我々の提案手法である後知恵優先学習(HPL)は、大量のラベル無しデータセットから得られる膨大な軌跡データを最大限に活用することで、単位割り当てを容易にすることができる。包括的な実証研究により、様々な領域において頑健かつ有利な報酬を提供するHPLの利点が実証されている。我々のコードは https://github.com/typoverflow/WiseRL で公開されている。

要約(オリジナル)

Offline preference-based reinforcement learning (RL), which focuses on optimizing policies using human preferences between pairs of trajectory segments selected from an offline dataset, has emerged as a practical avenue for RL applications. Existing works rely on extracting step-wise reward signals from trajectory-wise preference annotations, assuming that preferences correlate with the cumulative Markovian rewards. However, such methods fail to capture the holistic perspective of data annotation: Humans often assess the desirability of a sequence of actions by considering the overall outcome rather than the immediate rewards. To address this challenge, we propose to model human preferences using rewards conditioned on future outcomes of the trajectory segments, i.e. the hindsight information. For downstream RL optimization, the reward of each step is calculated by marginalizing over possible future outcomes, the distribution of which is approximated by a variational auto-encoder trained using the offline dataset. Our proposed method, Hindsight Preference Learning (HPL), can facilitate credit assignment by taking full advantage of vast trajectory data available in massive unlabeled datasets. Comprehensive empirical studies demonstrate the benefits of HPL in delivering robust and advantageous rewards across various domains. Our code is publicly released at https://github.com/typoverflow/WiseRL.

arxiv情報

著者 Chen-Xiao Gao,Shengjun Fang,Chenjun Xiao,Yang Yu,Zongzhang Zhang
発行日 2024-07-05 12:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク