Video-based Human-Object Interaction Detection from Tubelet Tokens

要約

ビデオベースの人間と物体の相互作用(V-HOI)検出のために、高度に抽象化された時空間表現として機能する、チューブレットトークンを学習できるTUTORという名前の新しいビジョンTransformerを紹介します。
チューブレットトークンは、空間ドメインと時間ドメインに沿って意味的に関連するパッチトークンを集約してリンクすることにより、ビデオを構造化します。これには、次の2つの利点があります。
2)表現力:各チューブレットトークンは、凝集とリンクのおかげで、フレーム全体でセマンティックインスタンス、つまりオブジェクトまたは人間と整列することができます。
TUTORの有効性と効率は、広範な実験によって検証されています。
結果は、VidHOIでの相対mAPゲインが$ 16.14 \%$、CAD-120で2ポイントのゲイン、および$ 4 \ times $の高速化により、既存の作業を大幅に上回っていることを示しています。

要約(オリジナル)

We present a novel vision Transformer, named TUTOR, which is able to learn tubelet tokens, served as highly-abstracted spatiotemporal representations, for video-based human-object interaction (V-HOI) detection. The tubelet tokens structurize videos by agglomerating and linking semantically-related patch tokens along spatial and temporal domains, which enjoy two benefits: 1) Compactness: each tubelet token is learned by a selective attention mechanism to reduce redundant spatial dependencies from others; 2) Expressiveness: each tubelet token is enabled to align with a semantic instance, i.e., an object or a human, across frames, thanks to agglomeration and linking. The effectiveness and efficiency of TUTOR are verified by extensive experiments. Results shows our method outperforms existing works by large margins, with a relative mAP gain of $16.14\%$ on VidHOI and a 2 points gain on CAD-120 as well as a $4 \times$ speedup.

arxiv情報

著者 Danyang Tu,Wei Sun,Xiongkuo Min,Guangtao Zhai,Wei Shen
発行日 2022-06-04 04:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク