要約
チームスポーツや振り付けダンスなどの一部のグループ活動には、参加者間の密接に関連した相互作用が含まれます。
ここでは、そのような条件下でのモーションパスとアクションの観点から、参加者の行動を推測および予測するタスクを調査します。
問題を、設定されたターゲット参加者が他の観察された参加者の行動にどのように反応するかを推定する問題に絞り込みます。
私たちの重要なアイデアは、フレームごとの推論と予測中のエラーの蓄積に対してロバストな方法で、参加者間の時空間関係をモデル化することです。
空間領域と時間領域の両方で注意メカニズムによって参加者の関係をモデル化する、新しいEntry-Flipped Transformer(EF-Transformer)を提案します。
通常のトランスフォーマーとは異なり、クエリ、キー、値のエントリの順序を入れ替えることでエラーの蓄積の問題に取り組み、現在のフレームで観察される特徴の重要性と忠実度を高めます。
比較実験によると、EF-Transformerは、新しく収集されたテニスダブルデータセット、Ceilidhダンスデータセット、および2つの歩行者データセットで最高のパフォーマンスを達成します。
さらに、EF-Transformerは、累積エラーを制限し、誤った推定から回復するのに優れていることも示されています。
要約(オリジナル)
Some group activities, such as team sports and choreographed dances, involve closely coupled interaction between participants. Here we investigate the tasks of inferring and predicting participant behavior, in terms of motion paths and actions, under such conditions. We narrow the problem to that of estimating how a set target participants react to the behavior of other observed participants. Our key idea is to model the spatio-temporal relations among participants in a manner that is robust to error accumulation during frame-wise inference and prediction. We propose a novel Entry-Flipped Transformer (EF-Transformer), which models the relations of participants by attention mechanisms on both spatial and temporal domains. Unlike typical transformers, we tackle the problem of error accumulation by flipping the order of query, key, and value entries, to increase the importance and fidelity of observed features in the current frame. Comparative experiments show that our EF-Transformer achieves the best performance on a newly-collected tennis doubles dataset, a Ceilidh dance dataset, and two pedestrian datasets. Furthermore, it is also demonstrated that our EF-Transformer is better at limiting accumulated errors and recovering from wrong estimations.
arxiv情報
著者 | Bo Hu,Tat-Jen Cham |
発行日 | 2022-07-13 14:31:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google