OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection

要約

時間的アクション検出(TAD)は、人間の行動を特定し、ビデオ内の時間的境界をローカライズすることを目的とする基本的なビデオ理解タスクです。
この分野は近年顕著な進歩を遂げていますが、さらなる進歩と現実世界のアプリケーションは、標準化されたフレームワークがないことによって妨げられています。
現在、さまざまな実装設定、評価プロトコルなどで異なる方法が比較されているため、特定の手法の実際の有効性を評価することが困難です。
この問題に対処するために、16の異なるTADメソッドと9つの標準データセットをモジュラーコードベースに統合する統合されたTADフレームワークである\ textbf {opentad}を提案します。
Opentadでは、1つのモジュールを異なる設計に置き換える、エンドツーエンドモードで機能ベースのTADモデルをトレーニングするか、2つの間に切り替えるために最小限の労力が必要です。
また、Opentadは、さまざまなデータセット全体で簡単なベンチマークを促進し、さまざまな方法で公正かつ詳細な比較を可能にします。
Opentadを使用すると、さまざまなネットワークコンポーネントの革新が検出パフォーマンスにどのように影響し、広範な実験を通じて最も効果的な設計の選択肢を特定するかを包括的に研究します。
この研究は、各コンポーネントの既存の手法に基づいて構築された新しい最先端のTADメソッドにつながりました。
https://github.com/sming256/opentadでコードとモデルを利用できるようにしました。

要約(オリジナル)

Temporal action detection (TAD) is a fundamental video understanding task that aims to identify human actions and localize their temporal boundaries in videos. Although this field has achieved remarkable progress in recent years, further progress and real-world applications are impeded by the absence of a standardized framework. Currently, different methods are compared under different implementation settings, evaluation protocols, etc., making it difficult to assess the real effectiveness of a specific technique. To address this issue, we propose \textbf{OpenTAD}, a unified TAD framework consolidating 16 different TAD methods and 9 standard datasets into a modular codebase. In OpenTAD, minimal effort is required to replace one module with a different design, train a feature-based TAD model in end-to-end mode, or switch between the two. OpenTAD also facilitates straightforward benchmarking across various datasets and enables fair and in-depth comparisons among different methods. With OpenTAD, we comprehensively study how innovations in different network components affect detection performance and identify the most effective design choices through extensive experiments. This study has led to a new state-of-the-art TAD method built upon existing techniques for each component. We have made our code and models available at https://github.com/sming256/OpenTAD.

arxiv情報

著者 Shuming Liu,Chen Zhao,Fatimah Zohra,Mattia Soldan,Alejandro Pardo,Mengmeng Xu,Lama Alssum,Merey Ramazanova,Juan León Alcázar,Anthony Cioppa,Silvio Giancola,Carlos Hinojosa,Bernard Ghanem
発行日 2025-02-27 18:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク