要約
好みに基づく強化学習 (PbRL) は、人間の好みを報酬シグナルとして利用することで、報酬エンジニアリングの必要性を回避します。
しかし、現在の PbRL 手法は、ドメインの専門家からの質の高いフィードバックに過度に依存しているため、堅牢性が欠如しています。
この論文では、ノイズの多い選好から効果的に報酬を学習するための堅牢な PbRL アルゴリズムである RIME を紹介します。
私たちの方法では、サンプル選択ベースの弁別器を利用して動的にノイズを除去し、堅牢なトレーニングを保証します。
誤った選択に起因する累積エラーに対処するために、報酬モデルのウォーム スタートを提案します。これにより、PbRL での事前トレーニングからオンライン トレーニングへの移行時のパフォーマンス ギャップがさらに埋められます。
ロボット操作と移動タスクに関する私たちの実験は、RIME が最先端の PbRL 手法の堅牢性を大幅に強化することを実証しました。
コードは https://github.com/CJReinforce/RIME_ICML2024 で入手できます。
要約(オリジナル)
Preference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method utilizes a sample selection-based discriminator to dynamically filter out noise and ensure robust training. To counteract the cumulative error stemming from incorrect selection, we suggest a warm start for the reward model, which additionally bridges the performance gap during the transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the state-of-the-art PbRL method. Code is available at https://github.com/CJReinforce/RIME_ICML2024.
arxiv情報
著者 | Jie Cheng,Gang Xiong,Xingyuan Dai,Qinghai Miao,Yisheng Lv,Fei-Yue Wang |
発行日 | 2024-05-30 08:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google