Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems

要約

意思決定の問題における重要なタスクは、報酬エンジニアリングです。
実際には、報酬関数の明確な選択肢が存在しないのが一般的です。
したがって、一般的なアプローチは、トレーニング中に人間のフィードバックを導入し、そのようなフィードバックを活用して報酬関数を学習することです。
人間のフィードバックを使用するすべてのポリシー学習方法の中で、好みに基づく方法は、InstructGPT などの最近の経験的アプリケーションで大きな成功を収めています。
この研究では、オフラインのコンテキスト盗賊における好みに基づく手法の利点を証明する理論を開発します。
特に、人間が採点したサンプルに対してポリシー学習手法を直接実行するためのモデリングと準最適性分析を改善します。
次に、それを好みに基づく方法の準最適性の保証と比較し、好みに基づく方法の準最適性が低いことを示します。

要約(オリジナル)

A crucial task in decision-making problems is reward engineering. It is common in practice that no obvious choice of reward function exists. Thus, a popular approach is to introduce human feedback during training and leverage such feedback to learn a reward function. Among all policy learning methods that use human feedback, preference-based methods have demonstrated substantial success in recent empirical applications such as InstructGPT. In this work, we develop a theory that provably shows the benefits of preference-based methods in offline contextual bandits. In particular, we improve the modeling and suboptimality analysis for running policy learning methods on human-scored samples directly. Then, we compare it with the suboptimality guarantees of preference-based methods and show that preference-based methods enjoy lower suboptimality.

arxiv情報

著者 Xiang Ji,Huazheng Wang,Minshuo Chen,Tuo Zhao,Mengdi Wang
発行日 2023-07-24 17:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク