One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features

要約

オープン語彙時間アクション検出 (Open-vocab TAD) は、クローズド語彙時間アクション検出 (クローズド語彙 TAD) の機能を拡張する高度なビデオ分析アプローチです。
クローズド語彙 TAD は通常、事前定義されたカテゴリのセットに基づいてアクションをローカライズおよび分類することに限定されます。
対照的に、Open-vocab TAD はさらに進んでおり、これらの事前定義されたカテゴリに限定されません。
これは、ビデオ内のさまざまなアクションが膨大で、常に予測可能であるとは限らない現実のシナリオで特に役立ちます。
Open-vocab TAD で普及している手法は、通常、アクション提案の生成とそれらのアクションの特定を含む 2 段階のアプローチを採用しています。
ただし、最初の段階で発生したエラーは、その後のアクションの識別精度に悪影響を与える可能性があります。
さらに、既存の研究は、固定時間処理手法を使用しているため、さまざまな持続時間のアクションを処理するという課題に直面しています。
したがって、マルチスケール ビデオ分析 (MVA) とビデオ テキスト アライメント (VTA) という 2 つの主要モジュールで構成される 1 段階のアプローチを提案します。
MVA モジュールは、さまざまな時間解像度でアクションをキャプチャし、さまざまな継続時間のアクションを検出するという課題を克服します。
VTA モジュールは、ビジュアル モダリティとテキスト モダリティの間の相乗効果を活用して、ビデオ セグメントを対応するアクション ラベルと正確に位置合わせします。これは、Open-vocab シナリオでアクションを正確に識別するための重要なステップです。
広く認識されているデータセット THUMOS14 および ActivityNet-1.3 の評価では、提案された方法がオープン語彙設定とクローズド語彙設定の両方で他の方法と比較して優れた結果を達成したことが示されました。
これは、TAD タスクにおける提案手法の有効性を強力に実証するものとなります。

要約(オリジナル)

Open-vocabulary Temporal Action Detection (Open-vocab TAD) is an advanced video analysis approach that expands Closed-vocabulary Temporal Action Detection (Closed-vocab TAD) capabilities. Closed-vocab TAD is typically confined to localizing and classifying actions based on a predefined set of categories. In contrast, Open-vocab TAD goes further and is not limited to these predefined categories. This is particularly useful in real-world scenarios where the variety of actions in videos can be vast and not always predictable. The prevalent methods in Open-vocab TAD typically employ a 2-stage approach, which involves generating action proposals and then identifying those actions. However, errors made during the first stage can adversely affect the subsequent action identification accuracy. Additionally, existing studies face challenges in handling actions of different durations owing to the use of fixed temporal processing methods. Therefore, we propose a 1-stage approach consisting of two primary modules: Multi-scale Video Analysis (MVA) and Video-Text Alignment (VTA). The MVA module captures actions at varying temporal resolutions, overcoming the challenge of detecting actions with diverse durations. The VTA module leverages the synergy between visual and textual modalities to precisely align video segments with corresponding action labels, a critical step for accurate action identification in Open-vocab scenarios. Evaluations on widely recognized datasets THUMOS14 and ActivityNet-1.3, showed that the proposed method achieved superior results compared to the other methods in both Open-vocab and Closed-vocab settings. This serves as a strong demonstration of the effectiveness of the proposed method in the TAD task.

arxiv情報

著者 Trung Thanh Nguyen,Yasutomo Kawanishi,Takahiro Komamizu,Ichiro Ide
発行日 2024-04-30 13:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク