要約
ロボットコントローラーの展開は、データを生成するシミュレーターにおける計算の牽引性や不正確さのための必要な単純化による不一致をモデル化することにより妨げられます。
このような矛盾は通常、目的のパフォーマンスを満たすためにアドホックチューニングを必要とし、それによりターゲットドメインへの転送が成功します。
微分可能なシミュレーターを活用することにより、展開ドメインのパフォーマンスを強化するために、自動化されたグラデーションベースのチューニングのフレームワークを提案します。
私たちの方法は、シミュレーターとコントローラーのパラメーターを共同調整するための反復的な方法でロールアウトを収集し、展開ドメインのいくつかの試行内で系統的転送を可能にします。
具体的には、コントローラーを展開ドメインに効果的に適応させるために、交互の最適化を調整および採用するためのマルチステップ目標を策定します。
私たちのフレームワークのスケーラビリティは、低次元のカートポール安定化から高次元の象限および二倍の追跡に至るまでのタスクの任意の複雑さのモデルベースと学習ベースのコントローラーによって実証され、異なる展開ドメインのパフォーマンスの改善を示します。
要約(オリジナル)
The deployment of robot controllers is hindered by modeling discrepancies due to necessary simplifications for computational tractability or inaccuracies in data-generating simulators. Such discrepancies typically require ad-hoc tuning to meet the desired performance, thereby ensuring successful transfer to a target domain. We propose a framework for automated, gradient-based tuning to enhance performance in the deployment domain by leveraging differentiable simulators. Our method collects rollouts in an iterative manner to co-tune the simulator and controller parameters, enabling systematic transfer within a few trials in the deployment domain. Specifically, we formulate multi-step objectives for tuning and employ alternating optimization to effectively adapt the controller to the deployment domain. The scalability of our framework is demonstrated by co-tuning model-based and learning-based controllers of arbitrary complexity for tasks ranging from low-dimensional cart-pole stabilization to high-dimensional quadruped and biped tracking, showing performance improvements across different deployment domains.
arxiv情報
著者 | Lokesh Krishna,Sheng Cheng,Junheng Li,Naira Hovakimyan,Quan Nguyen |
発行日 | 2025-05-29 23:20:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google