要約
模倣学習は、専門家の行動からのポリシーを学習するためのデータ駆動型のアプローチですが、サンプル外(OOS)地域では信頼できない結果が生じる傾向があります。
安定した動的システムに依存している以前の研究は、望ましい状態への収束を保証しますが、しばしば一時的な動作を見落としています。
契約上の動的システムによってモデル化されたポリシーを学習するためのフレームワークを提案し、すべてのポリシーロールアウトが摂動に関係なく収束し、次に効率的なOOS回復を可能にすることを保証します。
再発性平衡ネットワークとカップリング層を活用することにより、ポリシー構造は、制約のない最適化を容易にするパラメーター選択の契約性を保証します。
また、展開における方法の信頼性を厳密に確立するために、最悪のケースと予想される損失の理論上の上限を提供します。
経験的には、シミュレートされたロボット操作とナビゲーションタスクの大幅なOOSパフォーマンスの改善を示します。
要約(オリジナル)
Imitation learning is a data-driven approach to learning policies from expert behavior, but it is prone to unreliable outcomes in out-of-sample (OOS) regions. While previous research relying on stable dynamical systems guarantees convergence to a desired state, it often overlooks transient behavior. We propose a framework for learning policies modeled by contractive dynamical systems, ensuring that all policy rollouts converge regardless of perturbations, and in turn, enable efficient OOS recovery. By leveraging recurrent equilibrium networks and coupling layers, the policy structure guarantees contractivity for any parameter choice, which facilitates unconstrained optimization. We also provide theoretical upper bounds for worst-case and expected loss to rigorously establish the reliability of our method in deployment. Empirically, we demonstrate substantial OOS performance improvements for simulated robotic manipulation and navigation tasks.
arxiv情報
著者 | Amin Abyaneh,Mahrokh G. Boroujeni,Hsiu-Chin Lin,Giancarlo Ferrari-Trecate |
発行日 | 2025-03-26 13:39:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google