LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency

要約

オフラインの好みに基づく強化学習 (PbRL) は、報酬を設計するという課題とオンライン インタラクションの高いコストを克服する効果的な方法を提供します。
ただし、好みのラベル付けには人間によるリアルタイムのフィードバックが必要であるため、十分な好みのラベルを取得するのは困難です。
これを解決するために、この論文では、学習された遷移モデルを利用してラベルのない嗜好データを生成する、高サンプル効率 (LEASE) アルゴリズムを備えたオフライン嗜好ベースの RL を提案します。
事前トレーニングされた報酬モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮して、信頼性が高く分散が低いデータのみが選択される報酬モデルのパフォーマンスを保証する不確実性を考慮したメカニズムを設計します。
さらに、報酬モデルの一般化限界を提供して報酬の精度に影響を与える要因を分析し、LEASE によって学習されたポリシーが理論的な改善保証を持つことを実証します。
開発された理論は状態とアクションのペアに基づいており、他のオフライン アルゴリズムと簡単に組み合わせることができます。
実験結果は、LEASE がオンライン対話なしでより少ない嗜好データの下でベースラインと同等のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Offline preference-based reinforcement learning (PbRL) provides an effective way to overcome the challenges of designing reward and the high costs of online interaction. However, since labeling preference needs real-time human feedback, acquiring sufficient preference labels is challenging. To solve this, this paper proposes a offLine prEference-bAsed RL with high Sample Efficiency (LEASE) algorithm, where a learned transition model is leveraged to generate unlabeled preference data. Considering the pretrained reward model may generate incorrect labels for unlabeled data, we design an uncertainty-aware mechanism to ensure the performance of reward model, where only high confidence and low variance data are selected. Moreover, we provide the generalization bound of reward model to analyze the factors influencing reward accuracy, and demonstrate that the policy learned by LEASE has theoretical improvement guarantee. The developed theory is based on state-action pair, which can be easily combined with other offline algorithms. The experimental results show that LEASE can achieve comparable performance to baseline under fewer preference data without online interaction.

arxiv情報

著者 Xiao-Yin Liu,Guotao Li,Xiao-Hu Zhou,Zeng-Guang Hou
発行日 2024-12-30 15:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク