Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation

要約

完全なテスト時適応は、ディープ ニューラル ネットワークのクロスドメインのパフォーマンス低下問題に対処するために、推論段階での入力サンプルの逐次分析に基づいてネットワーク モデルを適応させることを目的としています。
この研究は、次の興味深い発見に基づいています。トランスフォーマーベースの画像分類では、最初のトランスフォーマーエンコーダー層のクラストークンを学習して、テスト時の適応中にターゲットサンプルのドメイン固有の特性を捕捉できます。
この学習されたトークンは、入力画像パッチの埋め込みと組み合わせると、トランスフォーマーのエンコード プロセス中に入力サンプルの特徴表現からドメイン固有の情報を徐々に削除できるため、さまざまなソース モデルのテスト時の適応パフォーマンスが大幅に向上します。
ドメイン。
このクラス トークンをビジュアル コンディショニング トークン (VCT) と呼びます。
VCT を適切に学習するために、インスタンス固有の特性の局所的な変動に対応しながら、ドメイン固有の特性の長期変動を捕捉するバイレベル学習アプローチを提案します。
ベンチマーク データセットの実験結果は、私たちが提案する 2 レベルの視覚的調整トークン学習方法が、テスト時の適応パフォーマンスを最大 1.9% 大幅に向上させることができることを示しています。

要約(オリジナル)

Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. This work is based on the following interesting finding: in transformer-based image classification, the class token at the first transformer encoder layer can be learned to capture the domain-specific characteristics of target samples during test-time adaptation. This learned token, when combined with input image patch embeddings, is able to gradually remove the domain-specific information from the feature representations of input samples during the transformer encoding process, thereby significantly improving the test-time adaptation performance of the source model across different domains. We refer to this class token as visual conditioning token (VCT). To successfully learn the VCT, we propose a bi-level learning approach to capture the long-term variations of domain-specific characteristics while accommodating local variations of instance-specific characteristics. Experimental results on the benchmark datasets demonstrate that our proposed bi-level visual conditioning token learning method is able to achieve significantly improved test-time adaptation performance by up to 1.9%.

arxiv情報

著者 Yushun Tang,Shuoshuo Chen,Zhehan Kan,Yi Zhang,Qinghai Guo,Zhihai He
発行日 2024-06-27 17:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク