要約
タイトル:ゼロショットの時空間アクション検出のための相互作用に注意したプロンプティング
要約:
– 時空間アクション検出の目的は、ビデオ内で各人のアクションが発生する時間と場所を決定し、対応するアクションカテゴリーを分類することです。
– 既存の多くの方法は完全に監視された学習に頼っていますが、それには大量のトレーニングデータが必要であり、ゼロショット学習を達成するのが非常に難しいです。
– この論文では、事前にトレーニングされた視覚言語モデルを利用して代表的な画像とテキスト特徴を抽出し、これらの特徴間の関係を異なる相互作用モジュールを介してモデル化して相互作用特徴を取得することを提案します。
– さらに、この特徴を使用して、それぞれのラベルに対して適切なテキスト特徴を取得するためにプロンプティングを行います。
– 最後に、各ラベルの相互作用特徴とテキスト特徴の類似性を計算して、アクションカテゴリーを決定します。
– J-HMDBとUCF101-24のデータセットでの実験では、提案された相互作用モジュールとプロンプティングにより、ビジュアルランゲージ特徴がより整列し、ゼロショットの時空間アクション検出のための優れた精度が達成されました。コードは承認後にリリースされます。
要約(オリジナル)
The goal of spatial-temporal action detection is to determine the time and place where each person’s action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be released upon acceptance.
arxiv情報
著者 | Wei-Jhe Huang,Jheng-Hsien Yeh,Gueter Josmy Faure,Min-Hung Chen,Shang-Hong Lai |
発行日 | 2023-04-11 06:49:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI