Robust Contact-rich Manipulation through Implicit Motor Adaptation

要約

連絡先が豊富な操作は、毎日の人間の活動において重要な役割を果たします。
ただし、不確実な物理的パラメーターは、多くの場合、計画と制御の両方に大きな課題をもたらします。
有望な戦略は、幅広いパラメーターにわたって堅牢なポリシーを開発することです。
ドメインの適応とドメインのランダム化は広く使用されていますが、インスタンス固有の情報を無視しているため、一般化を新しいインスタンスに制限するか、保守的に実行する傾向があります。
\ textIT {明示的なモーター適応}は、システムパラメーターをオンラインで推定し、パラメーターが整った基本ポリシーからパラメーター条件付きポリシーを取得することにより、これらの問題に対処します。
ただし、通常、学生ポリシーの正確なシステム識別または追加のトレーニングが必要です。どちらも、さまざまな物理的パラメーターを備えた接触豊富な操作タスクで困難です。
この作業では、\ textIT {暗黙的なモーター適応}を提案します。これにより、単一の推定ではなく、ほぼ推定されたパラメーター分布を考慮して、パラメーター条件付きポリシー検索が可能になります。
テンソルトレインは、基本ポリシーの暗黙的な表現として活用し、テンソルコアの分離可能な構造を活用することにより、パラメーター条件付きポリシーの効率的な検索を促進します。
このフレームワークは、最適な動作と強力な一般化を維持しながら、正確なシステムの推定とポリシー再訓練の必要性を排除します。
3つの接触豊富な操作プリミティブの数値評価によってサポートされているアプローチを検証するための理論分析を提供します。
シミュレーションと現実世界の両方の実験は、多様なインスタンスで堅牢なポリシーを生成する能力を示しています。
プロジェクトWebサイト:\ href {https://sites.google.com/view/implicit-ma} {https://sites.google.com/view/implicit-ma}。

要約(オリジナル)

Contact-rich manipulation plays an important role in daily human activities. However, uncertain physical parameters often pose significant challenges for both planning and control. A promising strategy is to develop policies that are robust across a wide range of parameters. Domain adaptation and domain randomization are widely used, but they tend to either limit generalization to new instances or perform conservatively due to neglecting instance-specific information. \textit{Explicit motor adaptation} addresses these issues by estimating system parameters online and then retrieving the parameter-conditioned policy from a parameter-augmented base policy. However, it typically requires precise system identification or additional training of a student policy, both of which are challenging in contact-rich manipulation tasks with diverse physical parameters. In this work, we propose \textit{implicit motor adaptation}, which enables parameter-conditioned policy retrieval given a roughly estimated parameter distribution instead of a single estimate. We leverage tensor train as an implicit representation of the base policy, facilitating efficient retrieval of the parameter-conditioned policy by exploiting the separable structure of tensor cores. This framework eliminates the need for precise system estimation and policy retraining while preserving optimal behavior and strong generalization. We provide a theoretical analysis to validate the approach, supported by numerical evaluations on three contact-rich manipulation primitives. Both simulation and real-world experiments demonstrate its ability to generate robust policies across diverse instances. Project website: \href{https://sites.google.com/view/implicit-ma}{https://sites.google.com/view/implicit-ma}.

arxiv情報

著者 Teng Xue,Amirreza Razmjoo,Suhan Shetty,Sylvain Calinon
発行日 2025-05-05 11:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク