要約
この論文では、任意のオフポリシー強化学習 (RL) アルゴリズムと互換性のある新しい手法であるバックステッピング エクスペリエンス リプレイ (BER) を提案します。
BER は、近似可逆性を備えたシステムの学習効率を向上させ、複雑な報酬形成の必要性を軽減することを目的としています。
この方法では、バックステッピング遷移を使用して逆軌道を構築し、ランダムまたは固定のターゲットに到達します。
双方向のアプローチとして解釈できる BER は、学習中の再生エクスペリエンスの蒸留を通じて、バックステップ遷移の不正確さに対処します。
ソフト ロボットの複雑な性質と環境との複雑な相互作用を考慮して、ソフト ヘビ ロボットの移動とナビゲーションのためのモデルフリー RL アプローチでの BER のアプリケーションを紹介します。ソフト ヘビ ロボットは、ロボット間の異方性摩擦によって可能になる蛇行運動が可能です。
体も地面も。
さらに、BER アルゴリズムの有効性と効率を評価するために動的シミュレーターが開発されており、ロボットは学習の成功 (成功率 100% に達する) を実証し、ランダムなターゲットに巧みに到達し、平均速度よりも 48% 速い速度を達成しています。
最良のベースラインアプローチ。
要約(オリジナル)
In this paper, we propose a novel technique, Back-stepping Experience Replay (BER), that is compatible with arbitrary off-policy reinforcement learning (RL) algorithms. BER aims to enhance learning efficiency in systems with approximate reversibility, reducing the need for complex reward shaping. The method constructs reversed trajectories using back-stepping transitions to reach random or fixed targets. Interpretable as a bi-directional approach, BER addresses inaccuracies in back-stepping transitions through a distillation of the replay experience during learning. Given the intricate nature of soft robots and their complex interactions with environments, we present an application of BER in a model-free RL approach for the locomotion and navigation of a soft snake robot, which is capable of serpentine motion enabled by anisotropic friction between the body and ground. In addition, a dynamic simulator is developed to assess the effectiveness and efficiency of the BER algorithm, in which the robot demonstrates successful learning (reaching a 100% success rate) and adeptly reaches random targets, achieving an average speed 48% faster than that of the best baseline approach.
arxiv情報
著者 | Xinda Qi,Dong Chen,Zhaojian Li,Xiaobo Tan |
発行日 | 2024-01-21 02:17:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google