Combating Missing Modalities in Egocentric Videos at Test Time

要約

複数のモダリティを含むビデオを理解することは、特に自己中心的なビデオの場合に重要です。さまざまな感覚入力を組み合わせることで、動作認識や瞬間位置特定などのタスクが大幅に改善されます。
ただし、現実のアプリケーションでは、プライバシーの問題、効率性の必要性、またはハードウェアの問題により、不完全なモダリティによる課題に直面することがよくあります。
現在の方法は効果的ではありますが、欠落しているモダリティを処理するためにモデル全体を再トレーニングする必要があることが多く、特に大規模なトレーニング データセットの場合、計算量が多くなります。
この研究では、再トレーニングを必要とせずにテスト時にこの問題に対処するための新しいアプローチを提案します。
この問題をテスト時の適応タスクとして組み立て、モデルがテスト時に利用可能なラベルのないデータに適応するようにします。
私たちの手法である MiDl(自己蒸留による相互情報) は、予測と利用可能なモダリティの間の相互情報を最小限に抑えることで、モデルがテスト中に存在する特定のモダリティ ソースの影響を受けないようにすることを促進します。
さらに、両方のモダリティが利用可能な場合にモデルの元のパフォーマンスを維持するために、自己蒸留を組み込みます。
MiDl は、欠落しているモダリティをテスト時にのみ処理するための、初の自己監視型オンライン ソリューションです。
さまざまな事前トレーニング済みのモデルとデータセットを使用した実験を通じて、MiDl は再トレーニングを必要とせずに大幅なパフォーマンスの向上を実証しました。

要約(オリジナル)

Understanding videos that contain multiple modalities is crucial, especially in egocentric videos, where combining various sensory inputs significantly improves tasks like action recognition and moment localization. However, real-world applications often face challenges with incomplete modalities due to privacy concerns, efficiency needs, or hardware issues. Current methods, while effective, often necessitate retraining the model entirely to handle missing modalities, making them computationally intensive, particularly with large training datasets. In this study, we propose a novel approach to address this issue at test time without requiring retraining. We frame the problem as a test-time adaptation task, where the model adjusts to the available unlabeled data at test time. Our method, MiDl~(Mutual information with self-Distillation), encourages the model to be insensitive to the specific modality source present during testing by minimizing the mutual information between the prediction and the available modality. Additionally, we incorporate self-distillation to maintain the model’s original performance when both modalities are available. MiDl represents the first self-supervised, online solution for handling missing modalities exclusively at test time. Through experiments with various pretrained models and datasets, MiDl demonstrates substantial performance improvement without the need for retraining.

arxiv情報

著者 Merey Ramazanova,Alejandro Pardo,Bernard Ghanem,Motasem Alfarra
発行日 2024-04-23 16:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク