Adaptive Diffusion Terrain Generator for Autonomous Uneven Terrain Navigation

要約

モデルフリーの強化学習は、複雑で構造化されていない地形をナビゲートできる堅牢なロボット制御ポリシーを開発するための強力な方法として登場しました。
これらの手法の有効性は 2 つの重要な要素にかかっています。(1) ポリシーのトレーニングを促進するための大規模並列物理シミュレーションの使用、および (2) 継続的なポリシーの改善を促進するために、十分に困難だが達成可能な領域を作成する任務を負った環境ジェネレーター。
環境生成の既存の方法は、パラメーターのセットによって制約されるヒューリスティックに依存することが多く、多様性と現実性が制限されます。
この研究では、適応拡散地形ジェネレーター (ADTG) を紹介します。これは、ノイズ除去拡散確率モデルを活用して、現在のポリシーに適応するより多様で複雑な地形を追加することで、既存のトレーニング環境を動的に拡張する新しい方法です。
ADTG は、初期ノイズの最適化を通じて拡散モデルの生成プロセスをガイドし、対応する各環境でのポリシーのパフォーマンスによって重み付けされた既存のトレーニング環境からのノイズで破損した地形をブレンドします。
ADTG は、ノイズ破損レベルを操作することで、ポリシーの微調整のための同様のテレインの生成と、トレーニングの多様性を拡張するための新しいテレインの生成の間をシームレスに移行します。
私たちの実験では、ADTG によってトレーニングされたポリシーが、一般的なナビゲーション方法とともに、手続き的に生成された環境と自然環境の両方よりも優れたパフォーマンスを発揮することが示されました。

要約(オリジナル)

Model-free reinforcement learning has emerged as a powerful method for developing robust robot control policies capable of navigating through complex and unstructured terrains. The effectiveness of these methods hinges on two essential elements: (1) the use of massively parallel physics simulations to expedite policy training, and (2) an environment generator tasked with crafting sufficiently challenging yet attainable terrains to facilitate continuous policy improvement. Existing methods of environment generation often rely on heuristics constrained by a set of parameters, limiting the diversity and realism. In this work, we introduce the Adaptive Diffusion Terrain Generator (ADTG), a novel method that leverages Denoising Diffusion Probabilistic Models to dynamically expand existing training environments by adding more diverse and complex terrains adaptive to the current policy. ADTG guides the diffusion model’s generation process through initial noise optimization, blending noise-corrupted terrains from existing training environments weighted by the policy’s performance in each corresponding environment. By manipulating the noise corruption level, ADTG seamlessly transitions between generating similar terrains for policy fine-tuning and novel ones to expand training diversity. Our experiments show that the policy trained by ADTG outperforms both procedural generated and natural environments, along with popular navigation methods.

arxiv情報

著者 Youwei Yu,Junhong Xu,Lantao Liu
発行日 2024-10-14 17:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク