要約
強化学習をシーケンス モデリングの問題として捉えることで、最近の研究では計画に拡散モデルなどの生成モデルを使用できるようになりました。
これらのモデルは、決定論的な環境における長期的な状態の軌道を予測する場合には効果的ですが、移動する障害物がある動的設定では課題に直面します。
効果的な衝突回避には、継続的な監視と適応的な意思決定が必要です。
すべてのタイムステップで再計画することで安全性は確保できますが、重複する状態シーケンスを繰り返し予測するため、かなりの計算オーバーヘッドが発生します。このプロセスは、集中的な反復サンプリング手順で知られる拡散モデルでは特にコストがかかります。
我々は、行動予測の不確実性に基づいて再計画の頻度を動的に調整する適応生成計画アプローチを提案します。
私たちの方法は、堅牢な衝突回避パフォーマンスを維持しながら、頻繁で計算コストが高く冗長な再計画の必要性を最小限に抑えます。
実験では、長期計画に比べて平均軌道長が 13.5% 増加し、平均報酬が 12.7% 増加しました。これは、衝突率が減少し、環境を安全に移動する能力が向上したことを示しています。
要約(オリジナル)
By framing reinforcement learning as a sequence modeling problem, recent work has enabled the use of generative models, such as diffusion models, for planning. While these models are effective in predicting long-horizon state trajectories in deterministic environments, they face challenges in dynamic settings with moving obstacles. Effective collision avoidance demands continuous monitoring and adaptive decision-making. While replanning at every timestep could ensure safety, it introduces substantial computational overhead due to the repetitive prediction of overlapping state sequences — a process that is particularly costly with diffusion models, known for their intensive iterative sampling procedure. We propose an adaptive generative planning approach that dynamically adjusts replanning frequency based on the uncertainty of action predictions. Our method minimizes the need for frequent, computationally expensive, and redundant replanning while maintaining robust collision avoidance performance. In experiments, we obtain a 13.5% increase in the mean trajectory length and a 12.7% increase in mean reward over long-horizon planning, indicating a reduction in collision rates and an improved ability to navigate the environment safely.
arxiv情報
著者 | Vineet Punyamoorty,Pascal Jutras-Dubé,Ruqi Zhang,Vaneet Aggarwal,Damon Conover,Aniket Bera |
発行日 | 2024-09-25 14:03:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google