要約
数ショット行動認識(FSAR)を超えて、クロスドメインFSAR(CDFSAR)は、ソースからターゲットへの転送学習に潜むドメインギャップを解決することで、最近の研究関心を集めている。既存のCDFSAR手法は、ドメインギャップの副作用を軽減するために、主にソースデータとターゲットデータの共同学習に焦点を当てています。しかし、このような手法には2つの限界があります:第一に、ペアごとの共同学習は、1つのソースデータと複数のターゲットデータの場合、ディープモデルの再学習を必要とし、特にソースデータが大きくターゲットデータが小さい場合、大きな計算コストがかかります。第二に,共同学習後の事前学習済みモデルは,そのまま対象ドメインに採用されるため,事前学習済みモデルのポテンシャルが十分に発揮されず,認識性能が制限される.上記の限界を克服するために、本論文では、CDFSARのためのTAMT(Temporal-Aware Model Tuning)というシンプルで効果的なベースラインを提案する。具体的には、TAMTは、ソースデータに対して事前学習を行い、ターゲットデータに対して微調整を行うことで、単一のソースで複数のターゲットデータに対する再学習を回避する、非連成パラダイムを含む。事前学習されたモデルの可能性を効果的かつ効率的にターゲット領域へ移行させるために、我々のTAMTは階層的時間チューニングネットワーク(Hierarchical Temporal Tuning Network: HTTN)を提案し、そのコアには局所的時間認識アダプタ(Local temporal-aware adapters: TAA)と大域的時間認識モーメントチューニング(Global temporal-aware moment tuning: GTMT)が含まれる。特にTAAは、事前に学習された凍結モデルの中間的な特徴を再キャリブレーションするために、少数のパラメータを学習し、ターゲットドメインへの効率的な適応を可能にする。さらに、GTMTは強力なビデオ表現を生成するのに役立ち、ターゲットドメインでのマッチング性能を向上させる。広く使われているいくつかのビデオベンチマークで実験した結果、我々のTAMTは最近提案された同等モデルを13%$sim$31%上回り、最新のCDFSARの結果を達成した。
要約(オリジナル)
Going beyond few-shot action recognition (FSAR), cross-domain FSAR (CDFSAR) has attracted recent research interests by solving the domain gap lying in source-to-target transfer learning. Existing CDFSAR methods mainly focus on joint training of source and target data to mitigate the side effect of domain gap. However, such kind of methods suffer from two limitations: First, pair-wise joint training requires retraining deep models in case of one source data and multiple target ones, which incurs heavy computation cost, especially for large source and small target data. Second, pre-trained models after joint training are adopted to target domain in a straightforward manner, hardly taking full potential of pre-trained models and then limiting recognition performance. To overcome above limitations, this paper proposes a simple yet effective baseline, namely Temporal-Aware Model Tuning (TAMT) for CDFSAR. Specifically, our TAMT involves a decoupled paradigm by performing pre-training on source data and fine-tuning target data, which avoids retraining for multiple target data with single source. To effectively and efficiently explore the potential of pre-trained models in transferring to target domain, our TAMT proposes a Hierarchical Temporal Tuning Network (HTTN), whose core involves local temporal-aware adapters (TAA) and a global temporal-aware moment tuning (GTMT). Particularly, TAA learns few parameters to recalibrate the intermediate features of frozen pre-trained models, enabling efficient adaptation to target domains. Furthermore, GTMT helps to generate powerful video representations, improving match performance on the target domain. Experiments on several widely used video benchmarks show our TAMT outperforms the recently proposed counterparts by 13%$\sim$31%, achieving new state-of-the-art CDFSAR results.
arxiv情報
| 著者 | Yilong Wang,Zilin Gao,Qilong Wang,Zhaofeng Chen,Peihua Li,Qinghua Hu |
| 発行日 | 2025-04-03 14:10:13+00:00 |
| arxivサイト | arxiv_id(pdf) |