Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery

要約

模倣学習は、専門家の行動からポリシーを学習するデータ駆動型のアプローチですが、サンプル外 (OOS) 領域では信頼性の低い結果が得られる傾向があります。
安定した力学システムに依存したこれまでの研究では、望ましい状態への収束が保証されていましたが、過渡的な動作が見落とされることがよくありました。
私たちは、収縮力学システムによってモデル化されたポリシーを使用してポリシーを学習するためのフレームワークを提案します。これにより、摂動に関係なくすべてのポリシーの展開が確実に収束し、効率的な OOS 回復が可能になります。
リカレント平衡ネットワークと結合層を活用することにより、ポリシー構造はあらゆるパラメータ選択に対する収縮性を保証し、制約のない最適化を容易にします。
さらに、最悪の場合の損失条件と予想される損失条件の理論上の上限を提供し、導入時の手法の信頼性を厳密に確立します。
シミュレーションにおけるロボット操作およびナビゲーション タスクにおいて、OOS のパフォーマンスが大幅に向上することを経験的に実証しています。

要約(オリジナル)

Imitation learning is a data-driven approach to learning policies from expert behavior, but it is prone to unreliable outcomes in out-of-sample (OOS) regions. While previous research relying on stable dynamical systems guarantees convergence to a desired state, it often overlooks transient behavior. We propose a framework for learning policies using modeled by contractive dynamical systems, ensuring that all policy rollouts converge regardless of perturbations, and in turn, enable efficient OOS recovery. By leveraging recurrent equilibrium networks and coupling layers, the policy structure guarantees contractivity for any parameter choice, which facilitates unconstrained optimization. Furthermore, we provide theoretical upper bounds for worst-case and expected loss terms, rigorously establishing the reliability of our method in deployment. Empirically, we demonstrate substantial OOS performance improvements in robotics manipulation and navigation tasks in simulation.

arxiv情報

著者 Amin Abyaneh,Mahrokh G. Boroujeni,Hsiu-Chin Lin,Giancarlo Ferrari-Trecate
発行日 2024-12-10 14:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML パーマリンク