要約
時空間アクション検出 (STAD) は、ビデオを詳細に理解する重要なタスクです。
現在の方法では、すべてのアクション クラスに対してボックスとラベルの監視を事前に行う必要があります。
ただし、実際のアプリケーションでは、アクション カテゴリの空間が大きく列挙するのが難しいため、トレーニングでは見られない新しいアクション クラスに遭遇する可能性が非常に高くなります。
また、詳細なボックス アノテーションを実行し、ネットワーク全体を最初から再トレーニングする必要があるため、従来の方法では、新しいクラスのデータ アノテーションとモデル トレーニングのコストが非常に高くなります。
この論文では、オープンワールドでのアクション検出の状況をよりよく模倣するために、オープンボキャブラリー STAD を実行することにより、新しい挑戦的な設定を提案します。
オープン語彙時空間アクション検出 (OV-STAD) では、ボックスとラベルの監視を使用して、限られた基本クラスのセットでモデルをトレーニングする必要があります。これにより、新しいアクション クラスで良好な汎化パフォーマンスが得られることが期待されます。
OV-STAD については、既存の STAD データセットに基づいて 2 つのベンチマークを構築し、事前トレーニングされたビデオ言語モデル (VLM) に基づいたシンプルだが効果的な方法を提案します。
全体的な VLM をきめ細かいアクション検出タスクにさらに適合させるために、ローカライズされたビデオ領域とテキストのペアで VLM を慎重に微調整します。
このカスタマイズされた微調整により、VLM のモーション理解が向上し、ビデオ領域とテキストの間のより正確な位置合わせに貢献します。
アライメント前のローカル領域特徴とグローバル ビデオ特徴の融合が採用され、グローバル コンテキストを提供することでアクション検出パフォーマンスがさらに向上します。
私たちの方法は、新しいクラスで有望なパフォーマンスを達成します。
要約(オリジナル)
Spatio-temporal action detection (STAD) is an important fine-grained video understanding task. Current methods require box and label supervision for all action classes in advance. However, in real-world applications, it is very likely to come across new action classes not seen in training because the action category space is large and hard to enumerate. Also, the cost of data annotation and model training for new classes is extremely high for traditional methods, as we need to perform detailed box annotations and re-train the whole network from scratch. In this paper, we propose a new challenging setting by performing open-vocabulary STAD to better mimic the situation of action detection in an open world. Open-vocabulary spatio-temporal action detection (OV-STAD) requires training a model on a limited set of base classes with box and label supervision, which is expected to yield good generalization performance on novel action classes. For OV-STAD, we build two benchmarks based on the existing STAD datasets and propose a simple but effective method based on pretrained video-language models (VLM). To better adapt the holistic VLM for the fine-grained action detection task, we carefully fine-tune it on the localized video region-text pairs. This customized fine-tuning endows the VLM with better motion understanding, thus contributing to a more accurate alignment between video regions and texts. Local region feature and global video feature fusion before alignment is adopted to further improve the action detection performance by providing global context. Our method achieves a promising performance on novel classes.
arxiv情報
著者 | Tao Wu,Shuqiu Ge,Jie Qin,Gangshan Wu,Limin Wang |
発行日 | 2024-05-17 14:52:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google