要約
我々は、ロボットに面したカメラのみを使用したロボットシステムの「ピクセルからトルクへの」制御に対する単純なオブザーバーベースの線形フィードバックポリシーの有効性を実証します。
具体的には、「生徒」出力フィードバック ポリシーの画像ベースのルーエンベルガー オブザーバー (線形状態推定器) の行列が、単純な線形最小法を介して「教師」状態フィードバック ポリシーによって提供されるデモンストレーション データから学習できることを示します。
二乗回帰。
結果として得られる線形出力フィードバック コントローラーは、高次元の生画像からトルクに直接マッピングすると同時に、線形システム理論の豊富な分析ツールのセットに適しており、学習問題で閉ループの安定性制約を強制することができます。
また、Koopman 埋め込みによる方法の非線形拡張も調査します。
最後に、カートポール システムにおける線形ピクセル対トルク ポリシーの驚くべき有効性を、シミュレーションと現実世界のハードウェアの両方で実証します。
このポリシーは、モデルの不一致、プロセスおよびセンサーのノイズ、摂動、およびオクルージョンの影響を受けながらも、カメラのフィードバックのみを使用して、安定化およびスイングアップ軌道追跡タスクの両方を正常に実行します。
要約(オリジナル)
We demonstrate the effectiveness of simple observer-based linear feedback policies for ‘pixels-to-torques’ control of robotic systems using only a robot-facing camera. Specifically, we show that the matrices of an image-based Luenberger observer (linear state estimator) for a ‘student’ output-feedback policy can be learned from demonstration data provided by a ‘teacher’ state-feedback policy via simple linear-least-squares regression. The resulting linear output-feedback controller maps directly from high-dimensional raw images to torques while being amenable to the rich set of analytical tools from linear systems theory, alowing us to enforce closed-loop stability constraints in the learning problem. We also investigate a nonlinear extension of the method via the Koopman embedding. Finally, we demonstrate the surprising effectiveness of linear pixels-to-torques policies on a cartpole system, both in simulation and on real-world hardware. The policy successfully executes both stabilizing and swing-up trajectory tracking tasks using only camera feedback while subject to model mismatch, process and sensor noise, perturbations, and occlusions.
arxiv情報
著者 | Jeong Hun Lee,Sam Schoedel,Aditya Bhardwaj,Zachary Manchester |
発行日 | 2024-06-26 19:05:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google