FROSTER: Frozen CLIP Is A Strong Teacher for Open-Vocabulary Action Recognition

要約

本稿では、オープンボキャブラリーアクション認識のための効果的なフレームワークであるFROSTERを紹介する。CLIPモデルは、膨大な画像とテキストのペアを事前学習することから生まれる強力な汎化能力の恩恵を受けて、画像ベースの様々なタスクにおいて目覚ましい成功を収めてきた。しかし、CLIPの事前学習には時間的情報がないため、CLIPをオープンボキャブラリーアクション認識タスクに直接適用することは困難である。さらに、行動認識データセット上でCLIPを微調整することは、オーバーフィッティングを引き起こし、その汎化性を阻害する可能性がある。 このような問題に対処するため、FROSTERは残差特徴抽出アプローチを採用し、CLIPがアクション認識タスクに効果的に適応しながら汎化能力を維持することを保証する。具体的には、残差特徴蒸留は、元のCLIPが示した汎化能力を維持するために、凍結されたCLIPモデルを教師として扱い、画像と動画の間のギャップを埋めるために、動画特有の特徴を抽出するための特徴学習を監督する。一方、特徴抽出のために残差サブネットワークを使用し、汎化可能な特徴とビデオ固有の特徴の学習という2つの異なる目的の間のバランスをとる。 我々はFROSTERをオープン語彙の行動認識ベンチマークにおいて、基本対新奇およびデータセット横断の両設定で広範に評価した。FROSTERは、全てのデータセットにおいて一貫して最先端の性能を達成しています。プロジェクトページ: https://visual-ai.github.io/froster.

要約(オリジナル)

In this paper, we introduce FROSTER, an effective framework for open-vocabulary action recognition. The CLIP model has achieved remarkable success in a range of image-based tasks, benefiting from its strong generalization capability stemming from pretaining on massive image-text pairs. However, applying CLIP directly to the open-vocabulary action recognition task is challenging due to the absence of temporal information in CLIP’s pretraining. Further, fine-tuning CLIP on action recognition datasets may lead to overfitting and hinder its generalizability, resulting in unsatisfactory results when dealing with unseen actions. To address these issues, FROSTER employs a residual feature distillation approach to ensure that CLIP retains its generalization capability while effectively adapting to the action recognition task. Specifically, the residual feature distillation treats the frozen CLIP model as a teacher to maintain the generalizability exhibited by the original CLIP and supervises the feature learning for the extraction of video-specific features to bridge the gap between images and videos. Meanwhile, it uses a residual sub-network for feature distillation to reach a balance between the two distinct objectives of learning generalizable and video-specific features. We extensively evaluate FROSTER on open-vocabulary action recognition benchmarks under both base-to-novel and cross-dataset settings. FROSTER consistently achieves state-of-the-art performance on all datasets across the board. Project page: https://visual-ai.github.io/froster.

arxiv情報

著者 Xiaohu Huang,Hao Zhou,Kun Yao,Kai Han
発行日 2024-02-05 17:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク