Globally Stable Neural Imitation Policies

要約

模倣学習は、解空間でゼロから政策を学習する際のリソース集約的で時間のかかる性質を緩和する効果的なアプローチを提示する。その結果、専門家のデモンストレーションを確実に模倣することができても、状態空間の未探索領域では予測可能性に欠けることが多く、摂動に直面した場合の安全性に重大な懸念が生じる。このような課題に対処するため、我々は安定性を保証した政策を生成する模倣学習システムである安定ニューラル・ダイナミカル・システム(Stable Neural Dynamical System: SNDS)を導入する。我々は、リアプノフの定理に基づく安定性の表現を容易にするニューラル・ポリシー・アーキテクチャを導入し、グローバルな安定性を保証するために、ポリシーとそれに対応するリアプノフ候補を共同で学習する。我々は、シミュレーションによる広範な実験を行い、学習されたポリシーを実世界のマニピュレータアームに展開することに成功することで、本アプローチを検証する。実験結果は、我々の手法が、従来の模倣学習手法に関連する不安定性、精度、および計算強度の問題を克服していることを示し、我々の手法を複雑な計画シナリオにおける安定した政策学習のための有望な解決策とする。

要約(オリジナル)

Imitation learning presents an effective approach to alleviate the resource-intensive and time-consuming nature of policy learning from scratch in the solution space. Even though the resulting policy can mimic expert demonstrations reliably, it often lacks predictability in unexplored regions of the state-space, giving rise to significant safety concerns in the face of perturbations. To address these challenges, we introduce the Stable Neural Dynamical System (SNDS), an imitation learning regime which produces a policy with formal stability guarantees. We deploy a neural policy architecture that facilitates the representation of stability based on Lyapunov theorem, and jointly train the policy and its corresponding Lyapunov candidate to ensure global stability. We validate our approach by conducting extensive experiments in simulation and successfully deploying the trained policies on a real-world manipulator arm. The experimental results demonstrate that our method overcomes the instability, accuracy, and computational intensity problems associated with previous imitation learning methods, making our method a promising solution for stable policy learning in complex planning scenarios.

arxiv情報

著者 Amin Abyaneh,Mariana Sosa Guzmán,Hsiu-Chin Lin
発行日 2024-09-02 18:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク