Spatio-Temporal Context Prompting for Zero-Shot Action Detection

要約

時空間アクションの検出には、ビデオ内の個々のアクションの位置を特定し、分類するタスクが含まれます。
最近の研究では、人々と周囲のコンテキストとの関係を捉えるインタラクション モデリングを組み込むことで、このプロセスを強化することを目的としています。
ただし、これらのアプローチは主に完全教師あり学習に焦点を当てており、現在の制限は、目に見えないアクション カテゴリを認識する一般化機能が欠如していることにあります。
この論文では、事前トレーニングされた画像言語モデルを適応させて、目に見えないアクションを検出することを目的としています。
この目的を達成するために、私たちは、視覚言語モデルの豊富な知識を効果的に活用して、人物とコンテキストのインタラクションを実行できる方法を提案します。
一方、コンテキスト プロンプト モジュールは、コンテキスト情報を利用してラベルをプロンプトし、より代表的なテキスト特徴の生成を強化します。
さらに、同時に複数の人による個別のアクションを認識するという課題に対処するために、事前トレーニングされた視覚的知識を使用して各人の興味コンテキスト トークンを見つける興味トークン スポッティング メカニズムを設計します。その後、これらのトークンはテキストの生成を促すために使用されます。
一人ひとりに合わせた機能を。
目に見えないアクションを検出する能力を評価するために、J-HMDB、UCF101-24、および AVA データセットに関する包括的なベンチマークを提案します。
実験は、私たちの方法が以前のアプローチと比較して優れた結果を達成し、マルチアクションビデオにさらに拡張して現実世界のアプリケーションに近づけることができることを示しています。
コードとデータは https://webber2933.github.io/ST-CLIP-project-page にあります。

要約(オリジナル)

Spatio-temporal action detection encompasses the tasks of localizing and classifying individual actions within a video. Recent works aim to enhance this process by incorporating interaction modeling, which captures the relationship between people and their surrounding context. However, these approaches have primarily focused on fully-supervised learning, and the current limitation lies in the lack of generalization capability to recognize unseen action categories. In this paper, we aim to adapt the pretrained image-language models to detect unseen actions. To this end, we propose a method which can effectively leverage the rich knowledge of visual-language models to perform Person-Context Interaction. Meanwhile, our Context Prompting module will utilize contextual information to prompt labels, thereby enhancing the generation of more representative text features. Moreover, to address the challenge of recognizing distinct actions by multiple people at the same timestamp, we design the Interest Token Spotting mechanism which employs pretrained visual knowledge to find each person’s interest context tokens, and then these tokens will be used for prompting to generate text features tailored to each individual. To evaluate the ability to detect unseen actions, we propose a comprehensive benchmark on J-HMDB, UCF101-24, and AVA datasets. The experiments show that our method achieves superior results compared to previous approaches and can be further extended to multi-action videos, bringing it closer to real-world applications. The code and data can be found in https://webber2933.github.io/ST-CLIP-project-page.

arxiv情報

著者 Wei-Jhe Huang,Min-Hung Chen,Shang-Hong Lai
発行日 2024-08-29 06:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク