要約
人間の行動理解は、マルチモーダルシステムの進歩にとって極めて重要である。強力な大規模言語モデル(LLM)に牽引された最近の開発は、幅広いカテゴリをカバーするのに十分な汎用性を目指しているが、より具体的な機能の必要性を見落としていることが多い。本研究では、より困難な課題である細粒度動作認識(FAR)に取り組む。FARは、より短い時間的持続時間(例えば、「1回転しながら後方へタックするサルト」)内の詳細な意味ラベルに焦点を当てる。きめ細かなラベルのアノテーションには高いコストがかかり、LLMの微調整には膨大なデータが必要となることから、我々は半教師あり学習(SSL)を採用することを提案する。我々のフレームワークであるSeFARは、これらの課題に取り組むためにいくつかの革新的な設計を取り入れている。具体的には、十分な視覚的詳細を捉えるために、より効果的な表現としてデュアルレベルの時間要素を構築し、それに基づいて、適度な時間的摂動を伴うことにより、教師-生徒学習パラダイムのための新しい強力な増強戦略を設計する。さらに、FARの教師モデルの予測における高い不確実性を処理するために、学習プロセスを安定化させる適応制御を提案する。実験の結果、SeFARは2つのFARデータセット、FineGymとFineDivingにおいて、様々なデータスコープで最先端の性能を達成した。また、2つの古典的な粗視化データセットであるUCF101とHMDB51においても、他の半教師付き手法を凌駕している。さらなる解析とアブレーション研究により、我々の設計の有効性が検証された。さらに、我々のSeFARによって抽出された特徴は、マルチモーダルな基礎モデルが、きめ細かくドメイン固有のセマンティクスを理解する能力を大きく促進する可能性があることを示す。
要約(オリジナル)
Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., ‘salto backward tucked with 1 turn’). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model’s predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.
arxiv情報
著者 | Yongle Huang,Haodong Chen,Zhenbang Xu,Zihan Jia,Haozhou Sun,Dian Shao |
発行日 | 2025-01-02 13:12:12+00:00 |
arxivサイト | arxiv_id(pdf) |