要約
接触が多い操作は、人間の日常活動において重要な役割を果たしていますが、不確実な物理パラメータは、モデルベースおよびモデルフリーの計画と制御の両方にとって重大な課題を引き起こします。
この課題に対処するための有望なアプローチは、幅広いパラメータに対して堅牢なポリシーを開発することです。
ドメイン適応とドメインランダム化は、このようなポリシーを実現するために一般的に使用されますが、多くの場合、新しいインスタンスへの一般化が損なわれたり、インスタンス固有の情報が無視されるために保守的に実行されたりします。
\textit{明示的なモーター適応} は、オンラインでシステム パラメーターを推定し、パラメーターで拡張された基本ポリシーからパラメーター条件付きポリシーを取得することで、これらの問題に対処します。
ただし、これは通常、正確なシステム識別または追加の高品質ポリシーの再トレーニングに依存しており、多様な物理パラメータを使用する接触が多いタスクには大きな課題が生じます。
この研究では、基本ポリシーの暗黙的な表現としてテンソル因数分解を活用する \textit{暗黙的な運動適応} を提案します。
大まかに推定されたパラメータ分布が与えられると、ベース ポリシーからのテンソル コアの分離可能な構造を利用することで、パラメータ条件付きポリシーを効率的に導き出すことができます。
このフレームワークにより、最適な動作と強力な一般化を維持しながら、正確なシステム推定とポリシーの再トレーニングの必要がなくなります。
3 つの接触リッチ操作プリミティブの数値評価によって裏付けられた、この方法を検証する理論的分析を提供します。
シミュレーションと現実世界の実験の両方で、多様なインスタンスに対して堅牢なポリシーを生成する能力を実証しています。
要約(オリジナル)
Contact-rich manipulation plays a vital role in daily human activities, yet uncertain physical parameters pose significant challenges for both model-based and model-free planning and control. A promising approach to address this challenge is to develop policies robust to a wide range of parameters. Domain adaptation and domain randomization are commonly used to achieve such policies but often compromise generalization to new instances or perform conservatively due to neglecting instance-specific information. \textit{Explicit motor adaptation} addresses these issues by estimating system parameters online and then retrieving the parameter-conditioned policy from a parameter-augmented base policy. However, it typically relies on precise system identification or additional high-quality policy retraining, presenting substantial challenges for contact-rich tasks with diverse physical parameters. In this work, we propose \textit{implicit motor adaptation}, which leverages tensor factorization as an implicit representation of the base policy. Given a roughly estimated parameter distribution, the parameter-conditioned policy can be efficiently derived by exploiting the separable structure of tensor cores from the base policy. This framework eliminates the need for precise system estimation and policy retraining while preserving optimal behavior and strong generalization. We provide a theoretical analysis validating this method, supported by numerical evaluations on three contact-rich manipulation primitives. Both simulation and real-world experiments demonstrate its ability to generate robust policies for diverse instances.
arxiv情報
著者 | Teng Xue,Amirreza Razmjoo,Suhan Shetty,Sylvain Calinon |
発行日 | 2024-12-16 14:52:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google