Poly-Autoregressive Prediction for Modeling Interactions

要約

マルチエージェント設定でエージェントの動作を予測するための簡単なフレームワークを紹介します。
言語処理などの自己回帰(AR)タスクとは対照的に、私たちの焦点は、物理的な制約と内部動機によって相互作用が形成される複数のエージェントのシナリオに焦点を当てています。
この目的のために、私たちはポリオートレーフ(PAR)モデリングを提案します。これは、エゴエージェントの州の歴史と他の相互作用中のエージェントの過去と現在の状態について推論することにより、エゴエージェントの将来の行動を予測します。
そのコアでは、PARはすべてのエージェントの動作を一連のトークンとして表し、それぞれが特定のタイムステップでエージェントの状態を表します。
最小限のデータの前処理の変更により、PARは、社会的状況での人間のアクション予測、自律車両の軌跡予測、および手観察の相互作用中のオブジェクトポーズ予測の3つの異なる問題に適用できることを示します。
小さな概念変圧器のバックボーンを使用して、これら3つのシナリオ全体でARを上回ることができます。
プロジェクトのWebサイトは、https://neerja.me/par/にあります。

要約(オリジナル)

We introduce a simple framework for predicting the behavior of an agent in multi-agent settings. In contrast to autoregressive (AR) tasks, such as language processing, our focus is on scenarios with multiple agents whose interactions are shaped by physical constraints and internal motivations. To this end, we propose Poly-Autoregressive (PAR) modeling, which forecasts an ego agent’s future behavior by reasoning about the ego agent’s state history and the past and current states of other interacting agents. At its core, PAR represents the behavior of all agents as a sequence of tokens, each representing an agent’s state at a specific timestep. With minimal data pre-processing changes, we show that PAR can be applied to three different problems: human action forecasting in social situations, trajectory prediction for autonomous vehicles, and object pose forecasting during hand-object interaction. Using a small proof-of-concept transformer backbone, PAR outperforms AR across these three scenarios. The project website can be found at https://neerja.me/PAR/.

arxiv情報

著者 Neerja Thakkar,Tara Sadjadpour,Jathushan Rajasegaran,Shiry Ginosar,Jitendra Malik
発行日 2025-02-12 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク