要約
この論文では、報酬関数を使用して軌道をスコアリングする固有のバイアスに対処するために、MPC ベースの強化学習法の計画モジュール用の新しいスコアリング関数を提案します。
提案手法は、値の割引合計を使用して既存の MPC ベースの MBRL 手法の学習効率を向上させます。
この方法は、最適な軌道を利用してポリシー学習をガイドし、現実世界の強化されたオンボード データに基づいて状態アクション値関数を更新します。
提案された方法の学習効率は、選択された MuJoCo Gym 環境および Cassie ロボットのシミュレートされたモデルの移動スキルの学習において評価されます。
結果は、提案された方法が学習効率と平均報酬リターンの点で現在の最先端のアルゴリズムよりも優れていることを示しています。
要約(オリジナル)
This paper proposes a novel scoring function for the planning module of MPC-based reinforcement learning methods to address the inherent bias of using the reward function to score trajectories. The proposed method enhances the learning efficiency of existing MPC-based MBRL methods using the discounted sum of values. The method utilizes optimal trajectories to guide policy learning and updates its state-action value function based on real-world and augmented onboard data. The learning efficiency of the proposed method is evaluated in selected MuJoCo Gym environments as well as in learning locomotion skills for a simulated model of the Cassie robot. The results demonstrate that the proposed method outperforms the current state-of-the-art algorithms in terms of learning efficiency and average reward return.
arxiv情報
著者 | Mehran Raisi,Amirhossein Noohian,Luc Mccutcheon,Saber Fallah |
発行日 | 2023-07-19 16:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google