RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

要約

好みに基づく強化学習 (PbRL) は、人間の好みを報酬シグナルとして利用することで、報酬エンジニアリングの必要性を回避します。
ただし、現在の PbRL アルゴリズムは、ドメインの専門家からの質の高いフィードバックに過度に依存しているため、堅牢性が欠如しています。
この論文では、ノイズの多い選好から効果的に報酬を学習するための堅牢な PbRL アルゴリズムである RIME を紹介します。
私たちの方法には、サンプル選択ベースの弁別器が組み込まれており、堅牢なトレーニングのためにノイズ除去された設定を動的にフィルタリングします。
誤った選択によって引き起こされる累積エラーを軽減するために、報酬モデルをウォーム スタートすることを提案します。これにより、PbRL での事前トレーニングからオンライン トレーニングへの移行時のパフォーマンス ギャップがさらに埋められます。
ロボット操作と移動タスクに関する私たちの実験は、RIME が現在の最先端の PbRL 手法の堅牢性を大幅に強化することを実証しました。
アブレーション研究では、フィードバックが限られている場合には、ウォーム スタートが堅牢性とフィードバック効率の両方にとって重要であることがさらに実証されています。

要約(オリジナル)

Preference-based Reinforcement Learning (PbRL) avoids the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL algorithms over-reliance on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method incorporates a sample selection-based discriminator to dynamically filter denoised preferences for robust training. To mitigate the accumulated error caused by incorrect selection, we propose to warm start the reward model, which additionally bridges the performance gap during transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the current state-of-the-art PbRL method. Ablation studies further demonstrate that the warm start is crucial for both robustness and feedback-efficiency in limited-feedback cases.

arxiv情報

著者 Jie Cheng,Gang Xiong,Xingyuan Dai,Qinghai Miao,Yisheng Lv,Fei-Yue Wang
発行日 2024-03-12 04:48:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク