Dual Action Policy for Robust Sim-to-Real Reinforcement Learning

要約

この論文では、強化学習のシミュレーションと現実のギャップに内在するダイナミクスの不一致に対処する新しいアプローチであるデュアル アクション ポリシー (DAP) を紹介します。
DAP は単一のポリシーを使用して 2 セットのアクションを予測します。1 つはシミュレーションでのタスク報酬を最大化するためのもので、もう 1 つは報酬調整によるドメイン適応に特化したものです。
この分離により、トレーニング中にソース ドメインの全体的な報酬を最大化することが容易になります。
さらに、DAP にはトレーニング中に不確実性ベースの探索が組み込まれており、エージェントの堅牢性が向上します。
実験結果は、シミュレーションと現実のギャップを埋める DAP の有効性を実証し、シミュレーションにおける困難なタスクでベースラインを上回るパフォーマンスを示し、不確実性推定を組み込むことでさらなる改善が達成されます。

要約(オリジナル)

This paper presents Dual Action Policy (DAP), a novel approach to address the dynamics mismatch inherent in the sim-to-real gap of reinforcement learning. DAP uses a single policy to predict two sets of actions: one for maximizing task rewards in simulation and another specifically for domain adaptation via reward adjustments. This decoupling makes it easier to maximize the overall reward in the source domain during training. Additionally, DAP incorporates uncertainty-based exploration during training to enhance agent robustness. Experimental results demonstrate DAP’s effectiveness in bridging the sim-to-real gap, outperforming baselines on challenging tasks in simulation, and further improvement is achieved by incorporating uncertainty estimation.

arxiv情報

著者 Ng Wen Zheng Terence,Chen Jianda
発行日 2024-10-16 05:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク