Globally Stable Neural Imitation Policies

要約

模倣学習は、ソリューション空間でゼロからポリシーを学習するというリソース集約的で時間のかかる性質を軽減する効果的なアプローチを提供します。
その結果として得られる政策は専門家の実証を確実に模倣することができますが、国家空間の未踏の領域では予測可能性に欠けることが多く、混乱に直面した場合に重大な安全上の懸念が生じます。
これらの課題に対処するために、形式的な安定性が保証されたポリシーを生成する模倣学習レジームである Stable Neural Dynamical System (SNDS) を導入します。
私たちは、リアプノフ定理に基づいて安定性の表現を容易にするニューラル ポリシー アーキテクチャを展開し、グローバルな安定性を確保するためにポリシーとそれに対応するリアプノフ候補を共同でトレーニングします。
私たちは、シミュレーションで広範な実験を実施し、訓練されたポリシーを現実世界のマニピュレーター アームに正常に展開することで、アプローチを検証します。
実験結果は、私たちの方法が以前の模倣学習方法に関連する不安定性、精度、計算強度の問題を克服し、複雑な計画シナリオにおける安定したポリシー学習のための有望なソリューションとなることを示しています。

要約(オリジナル)

Imitation learning presents an effective approach to alleviate the resource-intensive and time-consuming nature of policy learning from scratch in the solution space. Even though the resulting policy can mimic expert demonstrations reliably, it often lacks predictability in unexplored regions of the state-space, giving rise to significant safety concerns in the face of perturbations. To address these challenges, we introduce the Stable Neural Dynamical System (SNDS), an imitation learning regime which produces a policy with formal stability guarantees. We deploy a neural policy architecture that facilitates the representation of stability based on Lyapunov theorem, and jointly train the policy and its corresponding Lyapunov candidate to ensure global stability. We validate our approach by conducting extensive experiments in simulation and successfully deploying the trained policies on a real-world manipulator arm. The experimental results demonstrate that our method overcomes the instability, accuracy, and computational intensity problems associated with previous imitation learning methods, making our method a promising solution for stable policy learning in complex planning scenarios.

arxiv情報

著者 Amin Abyaneh,Mariana Sosa Guzmán,Hsiu-Chin Lin
発行日 2024-03-07 00:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク