Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following

要約

拡散モデルは、意思決定と制御のための複雑で多峰性の軌道分布のモデル化に優れています。
報酬勾配誘導ノイズ除去は、微分可能な報酬関数と拡散モデルによって捕捉されたデータ分布の下での尤度の両方を最大化する軌道を生成するために最近提案されています。
報酬勾配ガイドによるノイズ除去には、クリーンなサンプルとノイズのあるサンプルの両方に適合する微分可能な報酬関数が必要であり、一般的な軌道オプティマイザーとしての適用性が制限されます。
この論文では、勾配なしの最適化と軌道ノイズ除去を組み合わせて、データ多様体に留まりながらブラックボックスの微分不可能な目的を最適化する手法である DiffusionES を提案します。
Diffusion-ES は、進化探索中の軌跡を拡散モデルからサンプリングし、ブラックボックス報酬関数を使用してスコア付けします。
少数のノイズ除去およびノイズ除去ステップを適用する短縮拡散プロセスを使用して高スコアの軌跡を変更し、解空間のより効率的な探索を可能にします。
DiffusionES が自動運転用の確立された閉ループ計画ベンチマークである nuPlan 上で最先端のパフォーマンスを達成することを示します。
Diffusion-ES は、既存のサンプリングベースのプランナー、反応的な決定論的または拡散ベースのポリシー、報酬勾配ガイダンスよりも優れたパフォーマンスを発揮します。
さらに、以前のガイダンス方法とは異なり、私たちの方法は、少数のショットの LLM プロンプトによって生成される微分不可能な言語形状の報酬関数を最適化できることを示します。
従うべき指示を発する人間の教師の指導を受けると、私たちのメソッドは、トレーニング データには存在しない、攻撃的なレーン ウィービングなどの、斬新で非常に複雑な動作を生成できます。
これにより、既存の軌道最適化手法や駆動ポリシーの能力を超えた最も困難な nuPlan シナリオを解決できるようになります。

要約(オリジナル)

Diffusion models excel at modeling complex and multimodal trajectory distributions for decision-making and control. Reward-gradient guided denoising has been recently proposed to generate trajectories that maximize both a differentiable reward function and the likelihood under the data distribution captured by a diffusion model. Reward-gradient guided denoising requires a differentiable reward function fitted to both clean and noised samples, limiting its applicability as a general trajectory optimizer. In this paper, we propose DiffusionES, a method that combines gradient-free optimization with trajectory denoising to optimize black-box non-differentiable objectives while staying in the data manifold. Diffusion-ES samples trajectories during evolutionary search from a diffusion model and scores them using a black-box reward function. It mutates high-scoring trajectories using a truncated diffusion process that applies a small number of noising and denoising steps, allowing for much more efficient exploration of the solution space. We show that DiffusionES achieves state-of-the-art performance on nuPlan, an established closed-loop planning benchmark for autonomous driving. Diffusion-ES outperforms existing sampling-based planners, reactive deterministic or diffusion-based policies, and reward-gradient guidance. Additionally, we show that unlike prior guidance methods, our method can optimize non-differentiable language-shaped reward functions generated by few-shot LLM prompting. When guided by a human teacher that issues instructions to follow, our method can generate novel, highly complex behaviors, such as aggressive lane weaving, which are not present in the training data. This allows us to solve the hardest nuPlan scenarios which are beyond the capabilities of existing trajectory optimization methods and driving policies.

arxiv情報

著者 Brian Yang,Huangyuan Su,Nikolaos Gkanatsios,Tsung-Wei Ke,Ayush Jain,Jeff Schneider,Katerina Fragkiadaki
発行日 2024-02-09 17:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク