要約
マルチモーダルビデオの理解は、自己中心的なビデオを分析するために非常に重要です。複数の感覚信号を統合することで、アクションの認識と瞬間の位置特定が大幅に強化されます。
ただし、実際のアプリケーションでは、プライバシーへの懸念、効率性の要求、ハードウェアの故障などの要因により、不完全な手段に取り組むことがよくあります。
これに対処するために、私たちの研究では、特にトランスフォーマーベースのモデル内で、欠落しているモダリティが自己中心的な行動認識に及ぼす影響を詳しく調べています。
モダリティが存在しない場合でもパフォーマンスを維持するための新しいコンセプトである Missing Modality Token (MMT) を導入します。これは、Ego4D、Epic-Kitchens、および Epic-Sounds データセットで効果的であることが証明されている戦略です。
私たちの方法はパフォーマンスの損失を軽減し、テスト セットの半分がモーダル不完全である場合に、元の $\sim 30\%$ の低下からわずか $\sim 10\%$ まで低下させます。
広範な実験を通じて、MMT のさまざまなトレーニング シナリオへの適応性と、現在の方法と比較して不足しているモダリティの処理における MMT の優位性を実証します。
私たちの研究は包括的な分析と革新的なアプローチに貢献し、現実世界の環境でより回復力のあるマルチモーダル システムへの道を開きます。
要約(オリジナル)
Multimodal video understanding is crucial for analyzing egocentric videos, where integrating multiple sensory signals significantly enhances action recognition and moment localization. However, practical applications often grapple with incomplete modalities due to factors like privacy concerns, efficiency demands, or hardware malfunctions. Addressing this, our study delves into the impact of missing modalities on egocentric action recognition, particularly within transformer-based models. We introduce a novel concept -Missing Modality Token (MMT)-to maintain performance even when modalities are absent, a strategy that proves effective in the Ego4D, Epic-Kitchens, and Epic-Sounds datasets. Our method mitigates the performance loss, reducing it from its original $\sim 30\%$ drop to only $\sim 10\%$ when half of the test set is modal-incomplete. Through extensive experimentation, we demonstrate the adaptability of MMT to different training scenarios and its superiority in handling missing modalities compared to current methods. Our research contributes a comprehensive analysis and an innovative approach, opening avenues for more resilient multimodal systems in real-world settings.
arxiv情報
著者 | Merey Ramazanova,Alejandro Pardo,Humam Alwassel,Bernard Ghanem |
発行日 | 2024-04-17 13:25:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google