要約
テスト時間適応(TTA)は、ソースデータにアクセスせずに、無ー化されたテストデータを使用して分布シフトに取り組むことを目指しています。
マルチモーダルデータのコンテキストでは、複数のモダリティやモダリティの欠落の同時腐敗など、単峰性データよりも複雑なノイズパターンがあります。
さらに、実際のアプリケーションでは、異なる分布シフトによる腐敗は常に混在しています。
既存のTTAメソッドは、急激な分布シフトがソースモデルからの事前知識を破壊し、パフォーマンスの低下につながるため、このようなマルチモーダルシナリオでは常に失敗します。
この目的のために、Multimodal Wild TTAという名前の新しい課題を明らかにします。
この挑戦的な問題に対処するために、2つの新しい戦略を提案します。四分位範囲のスムージングと単峰性の支援と相互情報共有(SUMI)を使用したサンプル識別です。
Sumiは、急激な分布シフトを回避する四分位範囲で適応プロセスを滑らかにします。
次に、SumiはUnimodal機能を完全に利用して、最適化のために豊富なマルチモーダル情報を使用して低エントロピーサンプルを選択します。
さらに、情報の共有が導入され、情報を調整し、矛盾を減らし、異なるモダリティにわたって情報の利用を強化します。
2つのパブリックデータセットでの広範な実験は、マルチモーダルデータの複雑なノイズパターンの下での既存の方法に対する有効性と優位性を示しています。
コードはhttps://github.com/zrguo/sumiで入手できます。
要約(オリジナル)
Test-Time Adaptation (TTA) aims to tackle distribution shifts using unlabeled test data without access to the source data. In the context of multimodal data, there are more complex noise patterns than unimodal data such as simultaneous corruptions for multiple modalities and missing modalities. Besides, in real-world applications, corruptions from different distribution shifts are always mixed. Existing TTA methods always fail in such multimodal scenario because the abrupt distribution shifts will destroy the prior knowledge from the source model, thus leading to performance degradation. To this end, we reveal a new challenge named multimodal wild TTA. To address this challenging problem, we propose two novel strategies: sample identification with interquartile range Smoothing and unimodal assistance, and Mutual information sharing (SuMi). SuMi smooths the adaptation process by interquartile range which avoids the abrupt distribution shifts. Then, SuMi fully utilizes the unimodal features to select low-entropy samples with rich multimodal information for optimization. Furthermore, mutual information sharing is introduced to align the information, reduce the discrepancies and enhance the information utilization across different modalities. Extensive experiments on two public datasets show the effectiveness and superiority over existing methods under the complex noise patterns in multimodal data. Code is available at https://github.com/zrguo/SuMi.
arxiv情報
著者 | Zirun Guo,Tao Jin |
発行日 | 2025-03-04 13:36:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google