RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

要約

好みに基づく強化学習 (PbRL) は、人間の好みを報酬シグナルとして利用することで、報酬エンジニアリングの必要性を回避します。
しかし、現在の PbRL 手法は、ドメインの専門家からの質の高いフィードバックに過度に依存しているため、堅牢性が欠如しています。
この論文では、ノイズの多い選好から効果的に報酬を学習するための堅牢な PbRL アルゴリズムである RIME を紹介します。
私たちの方法では、サンプル選択ベースの弁別器を利用して動的にノイズを除去し、堅牢なトレーニングを保証します。
誤った選択に起因する累積エラーに対処するために、報酬モデルのウォーム スタートを提案します。これにより、PbRL での事前トレーニングからオンライン トレーニングへの移行時のパフォーマンス ギャップがさらに埋められます。
ロボット操作と移動タスクに関する私たちの実験は、RIME が最先端の PbRL 手法の堅牢性を大幅に強化することを実証しました。
コードは https://github.com/CJReinforce/RIME_ICML2024 で入手できます。

要約(オリジナル)

Preference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method utilizes a sample selection-based discriminator to dynamically filter out noise and ensure robust training. To counteract the cumulative error stemming from incorrect selection, we suggest a warm start for the reward model, which additionally bridges the performance gap during the transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the state-of-the-art PbRL method. Code is available at https://github.com/CJReinforce/RIME_ICML2024.

arxiv情報

著者 Jie Cheng,Gang Xiong,Xingyuan Dai,Qinghai Miao,Yisheng Lv,Fei-Yue Wang
発行日 2024-10-28 12:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク