要約
アクション認識は、多くの分野にわたる幅広いアプリケーションのため、エゴセントリックビジョンにおいて重要なタスクです。
このタスクに対処するために深い学習方法が提案されていますが、ほとんどは単一のモダリティ、通常はビデオに依存しています。
ただし、追加のモダリティを含めることで、ぼかしや閉塞などのエゴセントリックビデオの一般的な問題へのアプローチの堅牢性を改善する場合があります。
マルチモーダルエゴセントリックアクション認識における最近の取り組みは、多くの場合、すべてのモダリティの可用性を想定しており、モダリティが欠落している場合に障害またはパフォーマンスが低下します。
これに対処するために、複数のモダリティが利用可能になったときに恩恵を受けながら、モダリティ(karmma)を欠いていることに堅牢なエゴセントリックアクション認識のための効率的なマルチモーダルナレッジ蒸留アプローチを紹介します。
私たちの方法は、教師モデルの単峰性特徴抽出器として事前に訓練されたモデルを活用することにより、リソース効率の高い開発に焦点を当てており、知識をはるかに小さく高速な学生モデルに蒸留します。
壮大なキッチンと何か検討データセットの実験は、学生モデルがこのシナリオでの精度低下を減らしながら、不足しているモダリティを効果的に処理することを示しています。
要約(オリジナル)
Action recognition is an essential task in egocentric vision due to its wide range of applications across many fields. While deep learning methods have been proposed to address this task, most rely on a single modality, typically video. However, including additional modalities may improve the robustness of the approaches to common issues in egocentric videos, such as blurriness and occlusions. Recent efforts in multimodal egocentric action recognition often assume the availability of all modalities, leading to failures or performance drops when any modality is missing. To address this, we introduce an efficient multimodal knowledge distillation approach for egocentric action recognition that is robust to missing modalities (KARMMA) while still benefiting when multiple modalities are available. Our method focuses on resource-efficient development by leveraging pre-trained models as unimodal feature extractors in our teacher model, which distills knowledge into a much smaller and faster student model. Experiments on the Epic-Kitchens and Something-Something datasets demonstrate that our student model effectively handles missing modalities while reducing its accuracy drop in this scenario.
arxiv情報
著者 | Maria Santos-Villafranca,Dustin Carrión-Ojeda,Alejandro Perez-Yus,Jesus Bermudez-Cameo,Jose J. Guerrero,Simone Schaub-Meyer |
発行日 | 2025-04-11 14:30:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google