要約
Twin Delayed Deep Deterministic Policy gradient (TD3) などのアクター クリティカル ベースの強化学習アルゴリズムでは、7 自由度のロボット アームを制御するときに、空間空間の探索が不十分であるため、最適ではないポリシーが生成される可能性があります。
この問題に対処するために、新しい状態に遭遇した場合に追加の報酬を提供することで探索を改善する、新しい探索強化対照学習 (EECL) モジュールを提案します。
私たちのモジュールは、以前に探索された状態をバッファに保存し、K 次元ツリー (KDTree) フレームワーク内のユークリッド距離を使用して履歴データと比較することで新しい状態を識別します。
エージェントが新しい状態を探索すると、探索報酬が割り当てられます。
これらの報酬は TD3 アルゴリズムに統合され、Q 学習プロセスにこれらのシグナルが確実に組み込まれ、より効果的な戦略の最適化が促進されます。
ロボスイート パンダ リフト タスクでメソッドを評価し、テスト環境における効率と収束速度の両方の点でベースライン TD3 を大幅に上回るパフォーマンスを示しています。
要約(オリジナル)
In actor-critic-based reinforcement learning algorithms such as Twin Delayed Deep Deterministic policy gradient (TD3), insufficient exploration of the spatial space can result in suboptimal policies when controlling 7-DOF robotic arms. To address this issue, we propose a novel Exploration-Enhanced Contrastive Learning (EECL) module that improves exploration by providing additional rewards for encountering novel states. Our module stores previously explored states in a buffer and identifies new states by comparing them with historical data using Euclidean distance within a K-dimensional tree (KDTree) framework. When the agent explores new states, exploration rewards are assigned. These rewards are then integrated into the TD3 algorithm, ensuring that the Q-learning process incorporates these signals, promoting more effective strategy optimization. We evaluate our method on the robosuite panda lift task, demonstrating that it significantly outperforms the baseline TD3 in terms of both efficiency and convergence speed in the tested environment.
arxiv情報
著者 | Wen-Han Hsieh,Jen-Yuan Chang |
発行日 | 2024-08-26 04:30:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google