要約
既存のゼロショット時間的アクション検出(ZSTAD)メソッドは、目に見えない活動を認識するために、完全に監視されたまたは監視されていない戦略を主に使用します。
ただし、これらのトレーニングベースの方法は、ドメインシフトが発生しやすく、高い計算コストが必要であり、実際のシナリオでの実際的な適用性を妨げています。
このペーパーでは、以前の作品とは異なり、トレーニングフリーのゼロショット時間的アクション検出(Freezad)メソッドを提案し、既存のビジョン言語(VIL)モデルを活用して、追加の微調整なしで非トリム動画内の目に見えないアクティビティを直接分類およびローカライズします。
または適応。
対数減衰の加重外側関トラスティブスコア(ロゴイック)と周波数ベースのアクション性キャリブレーションを設計することにより、明示的な時間モデリングと擬似ラベル品質への依存の必要性を軽減します。
さらに、プロトタイプ中心のサンプリング(PCS)を使用してフリーザッドを拡大するテスト時間適応(TTA)戦略を導入し、VILモデルがZSTADにより効果的に適応できるようにします。
Thumos14およびActivityNet-1.3データセットに関する広範な実験は、トレーニングなしの方法が、ランタイムの1/13のみを必要とする一方で、最先端の監視なしの方法よりも優れていることを示しています。
TTAを装備すると、強化された方法は、完全に監視された方法でギャップをさらに狭めます。
要約(オリジナル)
Existing zero-shot temporal action detection (ZSTAD) methods predominantly use fully supervised or unsupervised strategies to recognize unseen activities. However, these training-based methods are prone to domain shifts and require high computational costs, which hinder their practical applicability in real-world scenarios. In this paper, unlike previous works, we propose a training-Free Zero-shot temporal Action Detection (FreeZAD) method, leveraging existing vision-language (ViL) models to directly classify and localize unseen activities within untrimmed videos without any additional fine-tuning or adaptation. We mitigate the need for explicit temporal modeling and reliance on pseudo-label quality by designing the LOGarithmic decay weighted Outer-Inner-Contrastive Score (LogOIC) and frequency-based Actionness Calibration. Furthermore, we introduce a test-time adaptation (TTA) strategy using Prototype-Centric Sampling (PCS) to expand FreeZAD, enabling ViL models to adapt more effectively for ZSTAD. Extensive experiments on the THUMOS14 and ActivityNet-1.3 datasets demonstrate that our training-free method outperforms state-of-the-art unsupervised methods while requiring only 1/13 of the runtime. When equipped with TTA, the enhanced method further narrows the gap with fully supervised methods.
arxiv情報
著者 | Chaolei Han,Hongsong Wang,Jidong Kuang,Lei Zhang,Jie Gui |
発行日 | 2025-01-23 16:13:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google