Towards Stable Test-Time Adaptation in Dynamic Wild World

要約

テスト時間適応 (TTA) は、テスト サンプルで特定のモデルを適応させることにより、トレーニング データとテスト データの間の分布シフトへの取り組みに効果的であることが示されています。
ただし、TTA のオンライン モデル更新は不安定な場合があり、これは多くの場合、既存の TTA メソッドを現実の世界に展開することを妨げる重要な障害です。
具体的には、テスト データに 1) 分布シフトが混在している、2) バッチ サイズが小さい、3) オンラインで不均衡なラベル分布シフトがある場合、TTA はモデルのパフォーマンスを改善できないか、さらには害を及ぼす可能性があります。これらは実際には非常に一般的です。
この論文では、不安定な理由を調査し、バッチノルムレイヤーがTTAの安定性を妨げる重要な要因であることを発見しました。
逆に、TTA は、バッチに依存しないノルム レイヤー、つまりグループまたはレイヤー ノルムを使用すると、より安定して実行できます。
ただし、グループとレイヤーのノルムを使用した TTA は常に成功するとは限らず、多くの失敗ケースに悩まされていることがわかります。
失敗事例を掘り下げることにより、大きな勾配を持つ特定のノイズの多いテスト サンプルがモデルの適応を妨害し、崩壊した自明な解、つまり、すべてのサンプルに同じクラス ラベルを割り当てる可能性があることがわかりました。
上記の崩壊の問題に対処するために、2 つの側面から TTA をさらに安定させるために、SAR と呼ばれるシャープネスを認識した信頼性の高いエントロピー最小化方法を提案します。
モデルが残りのノイズの多いサンプルに対してロバストになるように最小にします。
有望な結果は、SAR が以前の方法よりも安定して実行され、上記のワイルド テスト シナリオの下で計算効率が高いことを示しています。

要約(オリジナル)

Test-time adaptation (TTA) has shown to be effective at tackling distribution shifts between training and testing data by adapting a given model on test samples. However, the online model updating of TTA may be unstable and this is often a key obstacle preventing existing TTA methods from being deployed in the real world. Specifically, TTA may fail to improve or even harm the model performance when test data have: 1) mixed distribution shifts, 2) small batch sizes, and 3) online imbalanced label distribution shifts, which are quite common in practice. In this paper, we investigate the unstable reasons and find that the batch norm layer is a crucial factor hindering TTA stability. Conversely, TTA can perform more stably with batch-agnostic norm layers, \ie, group or layer norm. However, we observe that TTA with group and layer norms does not always succeed and still suffers many failure cases. By digging into the failure cases, we find that certain noisy test samples with large gradients may disturb the model adaption and result in collapsed trivial solutions, \ie, assigning the same class label for all samples. To address the above collapse issue, we propose a sharpness-aware and reliable entropy minimization method, called SAR, for further stabilizing TTA from two aspects: 1) remove partial noisy samples with large gradients, 2) encourage model weights to go to a flat minimum so that the model is robust to the remaining noisy samples. Promising results demonstrate that SAR performs more stably over prior methods and is computationally efficient under the above wild test scenarios.

arxiv情報

著者 Shuaicheng Niu,Jiaxiang Wu,Yifan Zhang,Zhiquan Wen,Yaofo Chen,Peilin Zhao,Mingkui Tan
発行日 2023-02-24 02:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク