TrajPRed: Trajectory Prediction with Region-based Relation Learning

要約

交通現場における人の軌跡を予測することは、混合システムまたは完全自律システム内の安全性にとって非常に重要です。
人間の将来の軌道は、社会的相互作用と確率的目標という 2 つの主要な刺激によって動かされます。
したがって、信頼性の高い予測を行うには、これら 2 つの刺激を捉える必要があります。
エッジベースの関係モデリングは、正確な個々の状態からのペアごとの相関を使用して社会的相互作用を表します。
それにもかかわらず、エッジベースの関係は摂動の下では脆弱になる可能性があります。
これらの問題を軽減するために、我々は、共同状態の地域ごとのダイナミクス、つまり群衆の密度の変化を介して社会的相互作用をモデル化する、地域ベースの関係学習パラダイムを提案します。
特に、領域ごとのエージェント結合情報は、畳み込み特徴グリッド内でエンコードされます。
社会関係は、ローカルな共同情報の時間的変化をグローバルな視点から関連付けることによってモデル化されます。
地域ベースの関係は摂動の影響を受けにくいことを示します。
確率的な個々の目標を考慮するために、条件付き変分オートエンコーダを利用して、複数の目標の推定と多様な将来予測を実現します。
具体的には、潜在分布を介して変分推論を実行します。これは、入力状態と関連するターゲット目標の間の相関関係を条件とします。
潜在分布からのサンプリングにより、フレームワークはテスト データ内の確率的動作を確実にキャプチャできます。
私たちは、複数の目標の推定と領域ベースの関係学習を統合して、2 つの刺激、社会的相互作用、確率的目標を予測フレームワークでモデル化します。
ETH-UCY データセットとスタンフォード ドローン データセット (SDD) に基づいてフレームワークを評価します。
関係モジュールを組み込むと、多様な予測がグラウンドトゥルースによりよく適合することを示します。
私たちのフレームワークは、SDD 上の最先端のモデルよりも、ADE/FDE メトリクスの $27.61\%$/$18.20\%$ 優れています。

要約(オリジナル)

Forecasting human trajectories in traffic scenes is critical for safety within mixed or fully autonomous systems. Human future trajectories are driven by two major stimuli, social interactions, and stochastic goals. Thus, reliable forecasting needs to capture these two stimuli. Edge-based relation modeling represents social interactions using pairwise correlations from precise individual states. Nevertheless, edge-based relations can be vulnerable under perturbations. To alleviate these issues, we propose a region-based relation learning paradigm that models social interactions via region-wise dynamics of joint states, i.e., the changes in the density of crowds. In particular, region-wise agent joint information is encoded within convolutional feature grids. Social relations are modeled by relating the temporal changes of local joint information from a global perspective. We show that region-based relations are less susceptible to perturbations. In order to account for the stochastic individual goals, we exploit a conditional variational autoencoder to realize multi-goal estimation and diverse future prediction. Specifically, we perform variational inference via the latent distribution, which is conditioned on the correlation between input states and associated target goals. Sampling from the latent distribution enables the framework to reliably capture the stochastic behavior in test data. We integrate multi-goal estimation and region-based relation learning to model the two stimuli, social interactions, and stochastic goals, in a prediction framework. We evaluate our framework on the ETH-UCY dataset and Stanford Drone Dataset (SDD). We show that the diverse prediction better fits the ground truth when incorporating the relation module. Our framework outperforms the state-of-the-art models on SDD by $27.61\%$/$18.20\%$ of ADE/FDE metrics.

arxiv情報

著者 Chen Zhou,Ghassan AlRegib,Armin Parchami,Kunjan Singh
発行日 2024-04-10 12:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク