GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction


歩行者の軌跡を正確に予測することは、自律走行の安全性を向上させるために極めて重要である。しかし、このタスクは、人間の運動が持つ固有の確率性により、一般的に非自明であり、予測器は当然マルチモーダルな予測を生成する必要がある。これまでの研究では、歩行者の軌跡予測にGANやVAEのような様々な生成的手法を活用している。しかしながら、これらの手法は、モード崩壊や比較的低品質な結果に悩まされる可能性がある。最近、ノイズ除去拡散確率モデル(DDPM)が、その簡単な学習プロセスと強力な再構成能力により、軌跡予測に適用されている。しかし、現在の拡散に基づく手法は、入力情報を十分に活用できず、通常、推論時間が長くなる何度もノイズ除去を繰り返したり、初期化のためにネットワークを追加したりする必要がある。このような課題を解決し、マルチモーダル軌跡予測における拡散モデルの利用を促進するために、我々はマルチモーダル軌跡予測のための新しいゴール誘導拡散モデル(Goal-Guided Diffusion Model with Tree Sampling)であるGDTSを提案する。GDTSは、人間の運動の「目標駆動型」の特性を考慮し、拡散ネットワークの生成を導くために目標推定を活用する。2段階のツリーサンプリングアルゴリズムを提示し、推論時間を短縮し、マルチモーダル予測の精度を向上させるために、共通の特徴を活用する。実験結果は、我々の提案するフレームワークが、公共データセットにおいて、リアルタイム推論速度で同等の最先端性能を達成することを示す。


Accurate prediction of pedestrian trajectories is crucial for improving the safety of autonomous driving. However, this task is generally nontrivial due to the inherent stochasticity of human motion, which naturally requires the predictor to generate multi-modal prediction. Previous works leverage various generative methods, such as GAN and VAE, for pedestrian trajectory prediction. Nevertheless, these methods may suffer from mode collapse and relatively low-quality results. The denoising diffusion probabilistic model (DDPM) has recently been applied to trajectory prediction due to its simple training process and powerful reconstruction ability. However, current diffusion-based methods do not fully utilize input information and usually require many denoising iterations that lead to a long inference time or an additional network for initialization. To address these challenges and facilitate the use of diffusion models in multi-modal trajectory prediction, we propose GDTS, a novel Goal-Guided Diffusion Model with Tree Sampling for multi-modal trajectory prediction. Considering the ‘goal-driven’ characteristics of human motion, GDTS leverages goal estimation to guide the generation of the diffusion network. A two-stage tree sampling algorithm is presented, which leverages common features to reduce the inference time and improve accuracy for multi-modal prediction. Experimental results demonstrate that our proposed framework achieves comparable state-of-the-art performance with real-time inference speed in public datasets.


著者 Ge Sun,Sheng Wang,Lei Zhu,Ming Liu,Jun Ma
発行日 2025-03-03 07:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク