SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning

要約

選好ベースの強化学習(PBRL)方法は、人間の好みに基づいて報酬モデルを学習することにより、報酬エンジニアリングを避けるためのソリューションを提供します。
ただし、フィードバックとサンプルの効率が不十分であり、PBRLの適用を妨げる問題のままです。
このホワイトペーパーでは、シニアと呼ばれる新しい効率的なクエリの選択と優先誘導探索方法を紹介します。これにより、有意義で比較しやすい動作セグメントペアを選択して、人間のフィードバック効率を改善し、設計された優先誘導本質的な報酬を使用して政策学習を加速できます。
私たちの重要なアイデアは2つあります。(1)モーションディスティションベースの選択スキーム(MDS)を設計しました。
状態のカーネル密度推定により、見かけの動きと異なる方向を持つセグメントペアを選択します。
(2)新しい選好ガイド付き探査方法(PGE)を提案しました。
それは、高い訪問と低い訪問で州への探査を促進し、貴重なサンプルを達成するエージェントを継続的に導きます。
2つのメカニズム間の相乗効果は、報酬と政策学習の進歩を大幅に加速する可能性があります。
私たちの実験は、シニアがシミュレーションと4つの現実世界からの6つの複雑なロボット操作タスクで、人間のフィードバック効率とポリシー収束速度の両方で、他の5つの既存の方法を上回ることを示しています。

要約(オリジナル)

Preference-based Reinforcement Learning (PbRL) methods provide a solution to avoid reward engineering by learning reward models based on human preferences. However, poor feedback- and sample- efficiency still remain the problems that hinder the application of PbRL. In this paper, we present a novel efficient query selection and preference-guided exploration method, called SENIOR, which could select the meaningful and easy-to-comparison behavior segment pairs to improve human feedback-efficiency and accelerate policy learning with the designed preference-guided intrinsic rewards. Our key idea is twofold: (1) We designed a Motion-Distinction-based Selection scheme (MDS). It selects segment pairs with apparent motion and different directions through kernel density estimation of states, which is more task-related and easy for human preference labeling; (2) We proposed a novel preference-guided exploration method (PGE). It encourages the exploration towards the states with high preference and low visits and continuously guides the agent achieving the valuable samples. The synergy between the two mechanisms could significantly accelerate the progress of reward and policy learning. Our experiments show that SENIOR outperforms other five existing methods in both human feedback-efficiency and policy convergence speed on six complex robot manipulation tasks from simulation and four real-worlds.

arxiv情報

著者 Hexian Ni,Tao Lu,Haoyuan Hu,Yinghao Cai,Shuo Wang
発行日 2025-06-17 15:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク