要約
深い補強学習は、シミュレーターから現実世界にアジャイルな機動化とナビゲーションスキルをシームレスに転送できます。
ただし、ドメインのランダム化または敵対的な方法でSIMとリアルのギャップを埋めることは、多くの場合、政策の堅牢性を確保するために専門家の物理学知識を要求します。
それでも、最先端のシミュレーターは、すべての現実世界の詳細をキャプチャすることには及ばない可能性があり、再構築された環境は、さまざまな認識の不確実性のためにエラーを導入する可能性があります。
これらの課題に対処するために、ロボットの実行中にシミュレーターの物理係数とオンラインでの残留忠実度ドメインを調整するために条件付きスコアベースの拡散モデルを採用する新しいフレームワークであるニューラルフィデリティキャリブレーション(NFC)を提案します。
具体的には、残留忠実度は、実際のダイナミクスに対するシミュレーションモデルシフトを反映し、知覚された環境の不確実性をキャプチャし、政策微調整のために推定された分布の下で現実的な環境をサンプリングできるようにします。
私たちのフレームワークは、3つの重要な方法で有益で適応的です。(a)異常なシナリオの下でのみ前提条件のポリシーを微調整する、(b)拡散モデルのトレーニング負担を削減する前提条件のNFCの提案をオンラインでオンラインで構築し、(c)NFCの不確実性が高度化されたポリシー改善が促進された場合、(c)explaidemated explage explage explage exprientimped expriefimativt explage exprientimatipimatipimatipimativeが
私たちのフレームワークは、高次元パラメトリックスペースを備えた多様なロボット全体の最先端の方法と比較して、優れたシミュレーターのキャリブレーション精度を実現します。
シミュレーションと現実世界の実験における政策改善に対する残存の忠実度の重要な貢献を研究します。
特に、私たちのアプローチは、雪の多い表面の壊れたホイール車軸など、挑戦的な現実世界の条件下での堅牢なロボットナビゲーションを示しています。
要約(オリジナル)
Deep reinforcement learning can seamlessly transfer agile locomotion and navigation skills from the simulator to real world. However, bridging the sim-to-real gap with domain randomization or adversarial methods often demands expert physics knowledge to ensure policy robustness. Even so, cutting-edge simulators may fall short of capturing every real-world detail, and the reconstructed environment may introduce errors due to various perception uncertainties. To address these challenges, we propose Neural Fidelity Calibration (NFC), a novel framework that employs conditional score-based diffusion models to calibrate simulator physical coefficients and residual fidelity domains online during robot execution. Specifically, the residual fidelity reflects the simulation model shift relative to the real-world dynamics and captures the uncertainty of the perceived environment, enabling us to sample realistic environments under the inferred distribution for policy fine-tuning. Our framework is informative and adaptive in three key ways: (a) we fine-tune the pretrained policy only under anomalous scenarios, (b) we build sequential NFC online with the pretrained NFC’s proposal prior, reducing the diffusion model’s training burden, and (c) when NFC uncertainty is high and may degrade policy improvement, we leverage optimistic exploration to enable hallucinated policy optimization. Our framework achieves superior simulator calibration precision compared to state-of-the-art methods across diverse robots with high-dimensional parametric spaces. We study the critical contribution of residual fidelity to policy improvement in simulation and real-world experiments. Notably, our approach demonstrates robust robot navigation under challenging real-world conditions, such as a broken wheel axle on snowy surfaces.
arxiv情報
著者 | Youwei Yu,Lantao Liu |
発行日 | 2025-04-11 15:12:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google