要約
オフライン環境での好みに基づく強化学習 (PBRL) は、チャットボットなどの産業用アプリケーションで大きな成功を収めています。
この問題には、報酬モデリング ステップの後に強化学習ステップを適用する 2 ステップの学習フレームワークが広く採用されています。
ただし、このような方法は、報酬ハッキングのリスクと強化学習の複雑さという課題に直面しています。
この課題を克服するための私たちの洞察は、両方の課題はデータセットでサポートされていない状態アクションに起因しているということです。
このような状態アクションは信頼性が低く、第 2 ステップでの強化学習問題の複雑さが増大します。
この洞察に基づいて、PRC と呼ばれる新しい 2 段階の学習方法、つまり制約されたアクションを使用した好みに基づく強化学習を開発しました。
大まかな考え方は、強化学習エージェントが分布外の状態アクションを除外する制約されたアクション空間上で最適化するように制限することです。
私たちの手法はロボット制御環境のさまざまなデータセットに対して高い学習効率を持っていることを経験的に検証しています。
要約(オリジナル)
Preference-based reinforcement learning (PBRL) in the offline setting has succeeded greatly in industrial applications such as chatbots. A two-step learning framework where one applies a reinforcement learning step after a reward modeling step has been widely adopted for the problem. However, such a method faces challenges from the risk of reward hacking and the complexity of reinforcement learning. To overcome the challenge, our insight is that both challenges come from the state-actions not supported in the dataset. Such state-actions are unreliable and increase the complexity of the reinforcement learning problem at the second step. Based on the insight, we develop a novel two-step learning method called PRC: preference-based reinforcement learning with constrained actions. The high-level idea is to limit the reinforcement learning agent to optimize over a constrained action space that excludes the out-of-distribution state-actions. We empirically verify that our method has high learning efficiency on various datasets in robotic control environments.
arxiv情報
著者 | Yinglun Xu,Tarun Suresh,Rohan Gumaste,David Zhu,Ruirui Li,Zhengyang Wang,Haoming Jiang,Xianfeng Tang,Qingyu Yin,Monica Xiao Cheng,Qi Zeng,Chao Zhang,Gagandeep Singh |
発行日 | 2024-10-25 17:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google