Social-Transmotion: Promptable Human Trajectory Prediction

要約

正確な人間の軌跡予測は、自動運転車、ロボット工学、監視システムなどのアプリケーションにとって非常に重要です。
しかし、既存のモデルは、空間を移動するときに人間が無意識のうちに伝達する非言語的な社会的合図を十分に活用できていないことがよくあります。
これに対処するために、多様かつ多数の視覚的手がかりを利用して人間の行動を予測する、汎用の Transformer ベースのモデルである Social-Transmotion を導入します。
私たちは、自然言語処理 (NLP) からのプロンプトのアイデアを人間の軌跡予測のタスクに変換します。プロンプトは、地面上の X-Y 座標のシーケンス、画像平面内の境界ボックス、または 2D の身体ポーズのキーポイントになります。
または3D。
これにより、軌道データが強化され、人間の軌道予測が強化されます。
マスキング技術を使用することで、私たちのモデルは、利用可能な視覚的手がかりに基づいてエージェント間の時空間的な相互作用を捕捉することにより、柔軟性と適応性を示します。
2D ポーズと 3D ポーズ、および限られたポーズのセットを使用するメリットについて詳しく説明します。
さらに、空間的および時間的アテンション マップを調査して、シーケンス内のどのキーポイントとタイム ステップが人間の軌跡予測の最適化に重要であるかを特定します。
私たちのアプローチは、JTA、JRDB、道路交通における歩行者と自転車、ETH-UCY を含む複数のデータセットで検証されています。
コードは https://github.com/vita-epfl/social-transmotion から公開されています。

要約(オリジナル)

Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic Transformer-based model that exploits diverse and numerous visual cues to predict human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes in the image plane, or body pose keypoints in either 2D or 3D. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Using masking technique, our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between agents based on the available visual cues. We delve into the merits of using 2D versus 3D poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and time-steps in the sequence are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion.

arxiv情報

著者 Saeed Saadatnejad,Yang Gao,Kaouther Messaoud,Alexandre Alahi
発行日 2024-04-16 21:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク