KOROL: Learning Visualizable Object Feature with Koopman Operator Rollout for Manipulation

要約

物体と複数の指を持つ手の間の相互作用の根底にある複雑な非線形力学のため、器用な操作スキルを学ぶには大きな課題が伴います。
Koopman 演算子は、このような非線形ダイナミクスを線形フレームワーク内でモデル化するための堅牢な方法として登場しました。
ただし、現在の方法はグラウンドトゥルース (GT) オブジェクトの状態への実行時アクセスに依存しているため、ビジョンベースの実用的なアプリケーションには適していません。
制御のための視覚的特徴を暗黙的に学習するイメージツーアクション ポリシーとは異なり、ダイナミクス モデル、特に Koopman オペレーターを使用して、シーン内のロボット操作に重要な視覚的に解釈可能なオブジェクトの特徴を学習します。
特徴抽出器によって予測されたオブジェクトの特徴を使用して Koopman オペレーターを構築し、それを利用してシステム状態を自己回帰的に進めます。
シーン情報をオブジェクトの特徴に埋め込むように特徴抽出器をトレーニングすることで、ロボットの軌跡の正確な伝播を可能にします。
私たちは、シミュレートされた現実世界のロボット タスクに対するアプローチを評価しました。その結果、モデルベースの模倣学習 NDP を 1.08$\times$、イメージからアクションへの拡散ポリシーを 1.16$\times$ 上回ったことがわかりました。
結果は、私たちの方法が学習された特徴でタスクの成功率を維持し、GT オブジェクトの状態なしで現実世界の操作への適用可能性を拡張することを示唆しています。
プロジェクトのビデオとコードは、\url{https://github.com/hychen-naza/KOROL} から入手できます。

要約(オリジナル)

Learning dexterous manipulation skills presents significant challenges due to complex nonlinear dynamics that underlie the interactions between objects and multi-fingered hands. Koopman operators have emerged as a robust method for modeling such nonlinear dynamics within a linear framework. However, current methods rely on runtime access to ground-truth (GT) object states, making them unsuitable for vision-based practical applications. Unlike image-to-action policies that implicitly learn visual features for control, we use a dynamics model, specifically the Koopman operator, to learn visually interpretable object features critical for robotic manipulation within a scene. We construct a Koopman operator using object features predicted by a feature extractor and utilize it to auto-regressively advance system states. We train the feature extractor to embed scene information into object features, thereby enabling the accurate propagation of robot trajectories. We evaluate our approach on simulated and real-world robot tasks, with results showing that it outperformed the model-based imitation learning NDP by 1.08$\times$ and the image-to-action Diffusion Policy by 1.16$\times$. The results suggest that our method maintains task success rates with learned features and extends applicability to real-world manipulation without GT object states. Project video and code are available at: \url{https://github.com/hychen-naza/KOROL}.

arxiv情報

著者 Hongyi Chen,Abulikemu Abuduweili,Aviral Agrawal,Yunhai Han,Harish Ravichandar,Changliu Liu,Jeffrey Ichnowski
発行日 2024-09-08 23:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク