要約
サイバーフィジカルシステムやロボットシステムのコンテキストで頻繁に発生する確率的プログラミング問題を解決するための、新しい勾配ベースのオンライン最適化フレームワークを提案します。
私たちの問題定式化は、一般に連続的な状態とアクション空間を持ち、非線形であり、状態が部分的にしか観察されないサイバー物理システムの進化をモデル化する制約に対応します。
また、事前知識としてダイナミクスの近似モデルを学習プロセスに組み込み、ダイナミクスの大まかな推定であってもアルゴリズムの収束を大幅に改善できることを示します。
当社のオンライン最適化フレームワークは、勾配降下法と準ニュートン法の両方を包含しており、非凸設定でのアルゴリズムの統合収束解析を提供します。
また、システムダイナミクスにおけるモデリングエラーがアルゴリズムの収束率に及ぼす影響も特徴付けます。
最後に、柔軟なビーム、4 足歩行ロボットのシミュレーション、および卓球をするロボットを使った現実世界の実験でアルゴリズムを評価します。
要約(オリジナル)
We propose a novel gradient-based online optimization framework for solving stochastic programming problems that frequently arise in the context of cyber-physical and robotic systems. Our problem formulation accommodates constraints that model the evolution of a cyber-physical system, which has, in general, a continuous state and action space, is nonlinear, and where the state is only partially observed. We also incorporate an approximate model of the dynamics as prior knowledge into the learning process and show that even rough estimates of the dynamics can significantly improve the convergence of our algorithms. Our online optimization framework encompasses both gradient descent and quasi-Newton methods, and we provide a unified convergence analysis of our algorithms in a non-convex setting. We also characterize the impact of modeling errors in the system dynamics on the convergence rate of the algorithms. Finally, we evaluate our algorithms in simulations of a flexible beam, a four-legged walking robot, and in real-world experiments with a ping-pong playing robot.
arxiv情報
著者 | Hao Ma,Melanie Zeilinger,Michael Muehlebach |
発行日 | 2024-04-08 09:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google