要約
歩行者の軌跡予測は、過去の経路に基づいて将来の動きを予測することを目的としている。空間-時間(ST)手法は、歩行者間の空間的相互作用と個人の時間的依存性を別々にモデル化することが多い。これらの手法は、様々な時間ステップにわたる異なる歩行者間の相互作用の直接的な影響(すなわち、高次の時間横断的相互作用)を見落としている。これは、STの相互依存性を捉える能力を制限し、予測性能を妨げる。これらの限界に対処するために、我々は3つの主要な設計を持つUniEdgeを提案する。第一に、高次の時間交差相互作用を一次の関係に単純化する統一的なSTグラフデータ構造を導入し、ST相互依存の学習を単一ステップで可能にする。これにより、多段階集約による情報損失を回避できる。第二に、従来のGNNは歩行者のノード特徴を集約することに重点を置いており、エッジ特徴に符号化された暗黙の相互作用パターンの伝播を無視している。我々は、歩行者間の明示的なN2N社会的相互作用と、これらの相互作用パターンにまたがる暗黙的なE2E影響伝播を共同でモデル化する、新しい二重グラフネットワークであるEdge-to-Edge-Node-to-Node Graph Convolution (E2E-N2N-GCN)を提案する。最後に、自己回帰アーキテクチャの限られた受容野と長距離依存性を捉える課題を克服するために、時間的相関の大域的モデリングを可能にする変換エンコーダベースの予測器を導入する。UniEdgeは、ETH、UCY、SDDを含む複数のデータセットにおいて、最先端の技術を凌駕している。
要約(オリジナル)
Pedestrian trajectory prediction aims to forecast future movements based on historical paths. Spatial-temporal (ST) methods often separately model spatial interactions among pedestrians and temporal dependencies of individuals. They overlook the direct impacts of interactions among different pedestrians across various time steps (i.e., high-order cross-time interactions). This limits their ability to capture ST inter-dependencies and hinders prediction performance. To address these limitations, we propose UniEdge with three major designs. Firstly, we introduce a unified ST graph data structure that simplifies high-order cross-time interactions into first-order relationships, enabling the learning of ST inter-dependencies in a single step. This avoids the information loss caused by multi-step aggregation. Secondly, traditional GNNs focus on aggregating pedestrian node features, neglecting the propagation of implicit interaction patterns encoded in edge features. We propose the Edge-to-Edge-Node-to-Node Graph Convolution (E2E-N2N-GCN), a novel dual-graph network that jointly models explicit N2N social interactions among pedestrians and implicit E2E influence propagation across these interaction patterns. Finally, to overcome the limited receptive fields and challenges in capturing long-range dependencies of auto-regressive architectures, we introduce a transformer encoder-based predictor that enables global modeling of temporal correlation. UniEdge outperforms state-of-the-arts on multiple datasets, including ETH, UCY, and SDD.
arxiv情報
著者 | Ruochen Li,Tanqiu Qiao,Stamos Katsigiannis,Zhanxing Zhu,Hubert P. H. Shum |
発行日 | 2025-02-04 17:18:54+00:00 |
arxivサイト | arxiv_id(pdf) |