Social-Transmotion: Promptable Human Trajectory Prediction

要約

正確な人間の軌跡予測は、自動運転車、ロボット工学、監視システムなどのアプリケーションにとって非常に重要です。
しかし、既存のモデルは、空間を移動するときに人間が無意識のうちに伝達する非言語的な社会的合図を十分に活用できていないことがよくあります。
これに対処するために、トランスフォーマーの力を利用して多様で多数の視覚的手がかりを処理し、人間の行動のマルチモーダルな性質を捉える汎用モデルである Social-Transmotion を導入します。
私たちは、自然言語処理 (NLP) からのプロンプトのアイデアを人間の軌跡予測のタスクに変換します。プロンプトは、地面、境界ボックス、または体のポーズ上の X-Y 座標のシーケンスにすることができます。
これにより、軌道データが強化され、人間の軌道予測が強化されます。
私たちのモデルは、ポーズ、境界ボックス、またはそれらの組み合わせなど、利用可能な視覚的手がかりに基づいて歩行者間の時空間的な相互作用をキャプチャすることにより、柔軟性と適応性を示します。
マスキング技術により、特定の視覚的手がかりが利用できない場合でもモデルの有効性が保証されますが、包括的な視覚データの存在によりパフォーマンスはさらに向上します。
2D ポーズと 3D ポーズ、および限られたポーズのセットを使用するメリットを詳しく掘り下げます。
さらに、空間的および時間的アテンション マップを調査して、人間の軌跡予測を最適化するために重要なポーズのキーポイントとフレームを特定します。
私たちのアプローチは、JTA、JRDB、道路交通における歩行者と自転車、ETH-UCY を含む複数のデータセットで検証されています。
コードは公開されています: https://github.com/vita-epfl/social-transmotion

要約(オリジナル)

Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic model that exploits the power of transformers to handle diverse and numerous visual cues, capturing the multi-modal nature of human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes or body poses. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between pedestrians based on the available visual cues, whether they are poses, bounding boxes, or a combination thereof. By the masking technique, we ensure our model’s effectiveness even when certain visual cues are unavailable, although performance is further boosted with the presence of comprehensive visual data. We delve into the merits of using 2d versus 3d poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and frames of poses are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion

arxiv情報

著者 Saeed Saadatnejad,Yang Gao,Kaouther Messaoud,Alexandre Alahi
発行日 2023-12-26 18:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク