Trajectory-aligned Space-time Tokens for Few-shot Action Recognition

要約

モーションと外観の表現のもつれを解くことに重点を置き、数ショットのアクション認識のためのシンプルかつ効果的なアプローチを提案します。
追跡における最近の進歩、特に点軌道と自己教師あり表現学習を利用することで、動きと外観の情報をキャプチャする軌道整合トークン (TAT) を構築します。
このアプローチにより、重要な情報を保持しながら、データ要件が大幅に軽減されます。
これらの表現を処理するために、数ショットのアクション認識を容易にするために情報を集約する方法を効果的に学習するマスクされた時空変換器を使用します。
複数のデータセットにわたる少数ショットのアクション認識に関する最先端の結果を実証します。
私たちのプロジェクト ページは https://www.cs.umd.edu/~pulkit/tats から入手できます。

要約(オリジナル)

We propose a simple yet effective approach for few-shot action recognition, emphasizing the disentanglement of motion and appearance representations. By harnessing recent progress in tracking, specifically point trajectories and self-supervised representation learning, we build trajectory-aligned tokens (TATs) that capture motion and appearance information. This approach significantly reduces the data requirements while retaining essential information. To process these representations, we use a Masked Space-time Transformer that effectively learns to aggregate information to facilitate few-shot action recognition. We demonstrate state-of-the-art results on few-shot action recognition across multiple datasets. Our project page is available at https://www.cs.umd.edu/~pulkit/tats

arxiv情報

著者 Pulkit Kumar,Namitha Padmanabhan,Luke Luo,Sai Saketh Rambhatla,Abhinav Shrivastava
発行日 2024-07-25 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク