S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning

要約

優先ベースの強化学習(PBRL)は、人間の好みを直接報酬信号として利用し、複雑な報酬エンジニアリングの必要性を排除することで際立っています。
ただし、その可能性にもかかわらず、従来のPBRLメソッドは、学習プロセスを妨げるセグメントの区別不可能性によってしばしば制約されます。
このホワイトペーパーでは、スキルを強化する優先順位の最適化アルゴリズム(S-EPOA)を紹介します。これは、スキルメカニズムを優先学習フレームワークに統合することにより、セグメントの区別可能性の問題に対処します。
具体的には、最初に監視されていない事前宣言を実施して、有用なスキルを学びます。
次に、学習したスキル空間にわたって情報のゲインと区別可能性のバランスをとるための新しいクエリ選択メカニズムを提案します。
ロボット操作や移動など、さまざまなタスクの実験結果は、S-EPOAが堅牢性と学習効率の両方の観点から従来のPBRLメソッドを大幅に上回ることを示しています。
結果は、セグメントの区別可能性によってもたらされる課題を克服する上で、スキル主導の学習の有効性を強調しています。

要約(オリジナル)

Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indistinguishability of segments, which impedes the learning process. In this paper, we introduce Skill-Enhanced Preference Optimization Algorithm (S-EPOA), which addresses the segment indistinguishability issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and distinguishability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by segment indistinguishability.

arxiv情報

著者 Ni Mu,Yao Luan,Yiqin Yang,Bo Xu,Qing-shan Jia
発行日 2025-05-13 14:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク