TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

要約

人間の意図の予測は、ビデオ内のアクティビティを視覚ベースのシステムで予測する必要がある、研究の成長分野です。
この目的のために、モデルは過去の表現を作成し、その後、今後のシナリオに関する将来の仮説を作成します。
この作業では、都市シーンの現在の観察から、モデルが通りに近づく歩行者の将来の活動を予測する、歩行者の初期の意図予測に焦点を当てています。
私たちの方法は、過去の観測をエンコードし、異なる予測時間で複数の予測を生成するマルチモーダル トランスフォーマーに基づいています。
さらに、現在と過去の一時的な依存関係を異なる方法で重み付けするために、トランスフォーマーベースのモデル (Temporal Adaptive Mask Transformer) のアテンション マスクを学習することを提案します。
初期の意図予測のためのいくつかの公開ベンチマークで私たちの方法を調査し、以前の研究と比較してさまざまな予測時間での予測パフォーマンスを改善します。

要約(オリジナル)

Human intention prediction is a growing area of research where an activity in a video has to be anticipated by a vision-based system. To this end, the model creates a representation of the past, and subsequently, it produces future hypotheses about upcoming scenarios. In this work, we focus on pedestrians’ early intention prediction in which, from a current observation of an urban scene, the model predicts the future activity of pedestrians that approach the street. Our method is based on a multi-modal transformer that encodes past observations and produces multiple predictions at different anticipation times. Moreover, we propose to learn the attention masks of our transformer-based model (Temporal Adaptive Mask Transformer) in order to weigh differently present and past temporal dependencies. We investigate our method on several public benchmarks for early intention prediction, improving the prediction performances at different anticipation times compared to the previous works.

arxiv情報

著者 Nada Osman,Guglielmo Camporese,Lamberto Ballan
発行日 2022-10-26 13:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク