Sampling-Based System Identification with Active Exploration for Legged Robot Sim2Real Learning

要約

SIMと復活の矛盾は、現実の世界で高精度のタスクを達成することを学習に基づいたポリシーを妨げます。
ドメインランダム化(DR)は一般的にこのギャップを埋めるために使用されますが、多くの場合、ヒューリスティックに依存しており、適切に調整されていない場合、パフォーマンスを低下させる過度に保守的な政策につながる可能性があります。
システム識別(SYS-ID)はターゲットを絞ったアプローチを提供しますが、標準的な手法は、微分可能なダイナミクスおよび/または直接トルク測定に依存しています。これは、接触リッチレッグシステムにはめったに当てはまらない仮定です。
この目的のために、sim-to-Realギャップを最小限に抑えるために脚のロボットの物理パラメーターを推定する2段階のフレームワークであるSpi-active(アクティブ探査によるサンプリングベースのパラメーター識別)を示します。
Spi-activeは、大規模な並列サンプリングを介して重要な物理パラメーターを堅牢に識別し、シミュレートされた軌跡と実際の軌跡の間の状態予測エラーを最小限に抑えます。
収集されたデータの情報性をさらに向上させるために、調査ポリシーの入力コマンドを最適化することにより、収集された実世界の軌跡のフィッシャー情報を最大化するアクティブな探索戦略を導入します。
このターゲットを絞った探査は、多様なタスク全体で正確な識別とより良い一般化につながります。
実験は、Spi-activeが現実世界への学習ポリシーの正確なSIMから現実的な転送を可能にし、さまざまな移動タスクでベースラインを42〜63%上回ることを実証することを示しています。

要約(オリジナル)

Sim-to-real discrepancies hinder learning-based policies from achieving high-precision tasks in the real world. While Domain Randomization (DR) is commonly used to bridge this gap, it often relies on heuristics and can lead to overly conservative policies with degrading performance when not properly tuned. System Identification (Sys-ID) offers a targeted approach, but standard techniques rely on differentiable dynamics and/or direct torque measurement, assumptions that rarely hold for contact-rich legged systems. To this end, we present SPI-Active (Sampling-based Parameter Identification with Active Exploration), a two-stage framework that estimates physical parameters of legged robots to minimize the sim-to-real gap. SPI-Active robustly identifies key physical parameters through massive parallel sampling, minimizing state prediction errors between simulated and real-world trajectories. To further improve the informativeness of collected data, we introduce an active exploration strategy that maximizes the Fisher Information of the collected real-world trajectories via optimizing the input commands of an exploration policy. This targeted exploration leads to accurate identification and better generalization across diverse tasks. Experiments demonstrate that SPI-Active enables precise sim-to-real transfer of learned policies to the real world, outperforming baselines by 42-63% in various locomotion tasks.

arxiv情報

著者 Nikhil Sobanbabu,Guanqi He,Tairan He,Yuxiang Yang,Guanya Shi
発行日 2025-05-20 12:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク