要約
モデルフリーの強化学習は、複雑で構造化されていない環境をナビゲートできる堅牢なロボット制御ポリシーを開発するための強力な方法として浮上しています。
これらの方法の有効性は、2つの重要な要素にかかっています。(1)ポリシートレーニングを促進するための非常に並行した物理シミュレーションの使用、および(2)継続的な政策改善を促進するために十分に挑戦的でありながら達成可能な環境を作成することを担当する環境ジェネレーター。
屋外環境生成の既存の方法は、多くの場合、一連のパラメーターに制約されているヒューリスティックに依存しており、多様性とリアリズムを制限しています。
この作業では、Adeptを紹介します。これを紹介します。
現在のポリシーに適応する多様で複雑な環境。
Adeptは、初期ノイズの最適化を通じて拡散モデルの生成プロセスを導き、対応する各環境でのポリシーのパフォーマンスによって重み付けされた既存のトレーニング環境からの騒音腐敗した環境をブレンドします。
ノイズの腐敗レベルを操作することにより、トレーニングの多様性を拡大するために、ポリシーの微調整と新規環境のために同様の環境を生成することとの間に、熟達した腐敗レベルを操作します。
オフロードナビゲーションに熟達したベンチマークのために、野生の環境生成のための高速で効果的な多層マップ表現を提案します。
私たちの実験は、Adeptによって訓練されたポリシーが、一般的なナビゲーション方法とともに、手続き上の生成された環境と自然環境の両方を上回ることを示しています。
要約(オリジナル)
Model-free reinforcement learning has emerged as a powerful method for developing robust robot control policies capable of navigating through complex and unstructured environments. The effectiveness of these methods hinges on two essential elements: (1) the use of massively parallel physics simulations to expedite policy training, and (2) an environment generator tasked with crafting sufficiently challenging yet attainable environments to facilitate continuous policy improvement. Existing methods of outdoor environment generation often rely on heuristics constrained by a set of parameters, limiting the diversity and realism. In this work, we introduce ADEPT, a novel \textbf{A}daptive \textbf{D}iffusion \textbf{E}nvironment for \textbf{P}olicy \textbf{T}ransfer in the zero-shot sim-to-real fashion that leverages Denoising Diffusion Probabilistic Models to dynamically expand existing training environments by adding more diverse and complex environments adaptive to the current policy. ADEPT guides the diffusion model’s generation process through initial noise optimization, blending noise-corrupted environments from existing training environments weighted by the policy’s performance in each corresponding environment. By manipulating the noise corruption level, ADEPT seamlessly transitions between generating similar environments for policy fine-tuning and novel ones to expand training diversity. To benchmark ADEPT in off-road navigation, we propose a fast and effective multi-layer map representation for wild environment generation. Our experiments show that the policy trained by ADEPT outperforms both procedural generated and natural environments, along with popular navigation methods.
arxiv情報
| 著者 | Youwei Yu,Junhong Xu,Lantao Liu |
| 発行日 | 2025-06-05 02:23:13+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google