Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

要約

ほとんどのドメイン アダプテーション (DA) 手法は、畳み込みニューラル ネットワーク (CNN) またはビジョン トランスフォーマー (ViT) に基づいています。
彼らは、独自の特性を考慮せずに、エンコーダとしてのドメイン間の分布の違いを調整します。
たとえば、ViT はグローバルな表現をキャプチャする優れた能力により精度に優れていますが、CNN はローカルな表現をキャプチャすることに利点があります。
この事実により、ViT と CNN の両方を最大限に活用する、明示的クラス固有境界 (ECB) と呼ばれるハイブリッド手法を設計することができました。
ECB は ViT で CNN を学習し、それぞれの特有の強みを組み合わせています。
特に、ViT のプロパティを活用して、2 つの分類器の出力間の不一致を最大化することでクラス固有の決定境界を明示的に見つけ、ソース サポートから遠く離れたターゲット サンプルを検出します。
対照的に、CNN エンコーダーは、2 つの分類器の確率間の不一致を最小限に抑えることにより、事前に定義されたクラス固有の境界に基づいてターゲット特徴をクラスター化します。
最後に、ViT と CNN は相互に知識を交換して、擬似ラベルの品質を向上させ、これらのモデルの知識の不一致を減らします。
従来の DA 方式と比較して、当社の ECB は優れたパフォーマンスを実現しており、このハイブリッド モデルでもその有効性が実証されています。
プロジェクトの Web サイトは https://dotrannhattuong.github.io/ECB/website にあります。

要約(オリジナル)

Most domain adaptation (DA) methods are based on either a convolutional neural networks (CNNs) or a vision transformers (ViTs). They align the distribution differences between domains as encoders without considering their unique characteristics. For instance, ViT excels in accuracy due to its superior ability to capture global representations, while CNN has an advantage in capturing local representations. This fact has led us to design a hybrid method to fully take advantage of both ViT and CNN, called Explicitly Class-specific Boundaries (ECB). ECB learns CNN on ViT to combine their distinct strengths. In particular, we leverage ViT’s properties to explicitly find class-specific decision boundaries by maximizing the discrepancy between the outputs of the two classifiers to detect target samples far from the source support. In contrast, the CNN encoder clusters target features based on the previously defined class-specific boundaries by minimizing the discrepancy between the probabilities of the two classifiers. Finally, ViT and CNN mutually exchange knowledge to improve the quality of pseudo labels and reduce the knowledge discrepancies of these models. Compared to conventional DA methods, our ECB achieves superior performance, which verifies its effectiveness in this hybrid model. The project website can be found https://dotrannhattuong.github.io/ECB/website.

arxiv情報

著者 Ba Hung Ngo,Nhat-Tuong Do-Tran,Tuan-Ngoc Nguyen,Hae-Gon Jeon,Tae Jong Choi
発行日 2024-04-26 15:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク