要約
長期アクション品質評価(AQA)は、長いビデオでのアクションの定量的パフォーマンスを評価することを目指しています。
ただし、既存の方法は、事前に訓練された大規模なアクション認識バックボーンと特定のAQAタスクとの間のドメインシフトにより、課題に直面しているため、パフォーマンスが妨げられます。
これは、小さなAQAデータセットの微調整リソース集約型バックボーンが非現実的であるために発生します。
これに対処します。ドメインシフトの2つのレベルを識別することで対処します。タスクレベル、タスク目標の違いに関するレベル、および重要な機能の違いに関する機能レベルです。
より有害な機能レベルのシフトについては、2つの戦略を備えたプログレッシブ階層命令(PHI)を提案します。
第一に、ギャップ最小化フロー(GMF)は、フローマッチングを活用して、浅い層から深い層の初期機能と望ましい機能の間のドメインギャップを削減する高速流パスを徐々に学習します。
さらに、一時的に強化された注意モジュールは、AQAに不可欠な長距離依存関係をキャプチャします。
第二に、リストごとの対照的な正規化(LCR)は、バッチペアを包括的に比較してドメインのシフトを緩和しながらきめ細かいキューを学習することにより、粗からファインのアラインメントを促進します。
これらのモジュールを統合すると、PHIは効果的なソリューションを提供します。
実験は、PHIが3つの代表的な長期AQAデータセットで最先端のパフォーマンスを達成し、長期AQAのドメインシフトに対処する際の優位性を証明することを示しています。
要約(オリジナル)
Long-term Action Quality Assessment (AQA) aims to evaluate the quantitative performance of actions in long videos. However, existing methods face challenges due to domain shifts between the pre-trained large-scale action recognition backbones and the specific AQA task, thereby hindering their performance. This arises since fine-tuning resource-intensive backbones on small AQA datasets is impractical. We address this by identifying two levels of domain shift: task-level, regarding differences in task objectives, and feature-level, regarding differences in important features. For feature-level shifts, which are more detrimental, we propose Progressive Hierarchical Instruction (PHI) with two strategies. First, Gap Minimization Flow (GMF) leverages flow matching to progressively learn a fast flow path that reduces the domain gap between initial and desired features across shallow to deep layers. Additionally, a temporally-enhanced attention module captures long-range dependencies essential for AQA. Second, List-wise Contrastive Regularization (LCR) facilitates coarse-to-fine alignment by comprehensively comparing batch pairs to learn fine-grained cues while mitigating domain shift. Integrating these modules, PHI offers an effective solution. Experiments demonstrate that PHI achieves state-of-the-art performance on three representative long-term AQA datasets, proving its superiority in addressing the domain shift for long-term AQA.
arxiv情報
著者 | Kanglei Zhou,Hubert P. H. Shum,Frederick W. B. Li,Xingxing Zhang,Xiaohui Liang |
発行日 | 2025-05-26 13:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google