Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition

要約

スケルトンベースの行動認識は、簡潔で弾力性のあるスケルトンを利用するため、大きな注目を集めています。
それにもかかわらず、スケルトンに詳細な身体情報が存在しないためパフォーマンスが制限されますが、他のマルチモーダル手法では多量の推論リソースが必要であり、トレーニングと推論の両方の段階でマルチモーダル データを使用する場合は非効率的です。
これに対処し、相補的なマルチモーダル機能を完全に活用するために、効率的なスケルトンベースのアクション認識のための補助ネットワークとしてマルチモーダル大規模言語モデル (LLM) を活用することで、新しいマルチモーダル共学習 (MMCL) フレームワークを提案します。
-トレーニング段階でモダリティを共同学習し、推論に簡潔なスケルトンのみを使用することで効率を維持します。
私たちの MMCL フレームワークは主に 2 つのモジュールで構成されています。
まず、FAM (Feature Alignment Module) がビデオ フレームから豊富な RGB 特徴を抽出し、対照学習を通じてそれらをグローバル スケルトン特徴と位置合わせします。
2 番目に、特徴改良モジュール (FRM) は、時間情報とテキスト命令を含む RGB イメージを使用して、マルチモーダル LLM の強力な一般化に基づいて有益な特徴を生成します。
これらの有益なテキストの特徴により分類スコアがさらに改良され、改良されたスコアによってソフト ラベルと同様の方法でモデルの堅牢性と一般化が強化されます。
NTU RGB+D、NTU RGB+D 120、および Northwestern-UCLA ベンチマークに関する広範な実験により、既存のスケルトンベースのアクション認識方法を上回る MMCL の有効性が一貫して検証されています。
一方、UTD-MHAD および SYSU-Action データセットの実験では、ゼロショットおよびドメイン適応アクション認識における MMCL の賞賛に値する一般化が実証されています。
私たちのコードは https://github.com/liujf69/MMCL-Action で公開されています。

要約(オリジナル)

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model’s robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.

arxiv情報

著者 Jinfu Liu,Chen Chen,Mengyuan Liu
発行日 2024-08-15 12:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク