要約
この論文では、人間による評価を使用して強化学習における人間による指導を得る、新しい評価ベースの強化学習アプローチを開発します。
サンプルペアに対する人間の相対的な好みに基づく既存の好みベースおよびランキングベースの強化学習パラダイムとは異なり、提案されている評価ベースの強化学習アプローチは、サンプルペア間の相対比較を行わない、個々の軌跡の人による評価に基づいています。
評価ベースの強化学習アプローチは、人間による評価の新しい予測モデルと新しいマルチクラス損失関数に基づいて構築されています。
私たちは、新しい評価ベースの強化学習アプローチの有効性と利点を評価するために、合成評価と実際の人間の評価に基づいていくつかの実験研究を実施します。
要約(オリジナル)
This paper develops a novel rating-based reinforcement learning approach that uses human ratings to obtain human guidance in reinforcement learning. Different from the existing preference-based and ranking-based reinforcement learning paradigms, based on human relative preferences over sample pairs, the proposed rating-based reinforcement learning approach is based on human evaluation of individual trajectories without relative comparisons between sample pairs. The rating-based reinforcement learning approach builds on a new prediction model for human ratings and a novel multi-class loss function. We conduct several experimental studies based on synthetic ratings and real human ratings to evaluate the effectiveness and benefits of the new rating-based reinforcement learning approach.
arxiv情報
著者 | Devin White,Mingkang Wu,Ellen Novoseller,Vernon J. Lawhern,Nicholas Waytowich,Yongcan Cao |
発行日 | 2024-01-29 15:00:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google