Modeling Hierarchical Structural Distance for Unsupervised Domain Adaptation


教師なしドメイン アダプテーション (UDA) は、ラベル付きソース データを活用して、ラベルなしターゲット ドメインの転送可能なモデルを推定することを目的としています。
Optimal Transport (OT) ベースの手法は、確固たる理論的基盤と競争力のあるパフォーマンスを備えた UDA にとって有望なソリューションであることが最近証明されました。
ただし、これらの方法のほとんどは、画像のグローバルな埋め込みに基づいてドメイン不変の特徴のドメインのジオメトリを活用することによって、ドメインレベルの OT アライメントのみに焦点を当てています。
この研究は、エンドツーエンドの Deep Hierarchical Optimal Transport 手法 (DeepHOT) を提案します。この手法は、ドメイン間の階層構造関係をマイニングすることで、ドメイン不変表現とカテゴリ識別表現の両方を学習することを目的としています。
主なアイデアは、ドメイン レベルの OT とイメージ レベルの OT を統合 OT フレームワークである階層的最適トランスポートに組み込み、ドメイン空間とイメージ空間の両方で基礎となるジオメトリをモデル化することです。
DeepHOT フレームワークでは、画像レベルの OT がドメインレベルの OT の地上距離メトリックとして機能し、階層構造の距離につながります。
従来のドメインレベル OT の地上距離と比較して、画像レベル OT は、分類に有益な画像の局所領域間の構造的関連性を捕捉します。
さらに、高い計算複雑性の制限を克服するために、画像レベルの OT でスライスされたワッサーシュタイン距離で原点 OT を近似し、ミニバッチの不均衡なドメインレベルの OT を達成することにより、DeepHOT の堅牢で効率的な実装を提案します。


Unsupervised domain adaptation (UDA) aims to estimate a transferable model for unlabeled target domains by exploiting labeled source data. Optimal Transport (OT) based methods have recently been proven to be a promising solution for UDA with a solid theoretical foundation and competitive performance. However, most of these methods solely focus on domain-level OT alignment by leveraging the geometry of domains for domain-invariant features based on the global embeddings of images. However, global representations of images may destroy image structure, leading to the loss of local details that offer category-discriminative information. This study proposes an end-to-end Deep Hierarchical Optimal Transport method (DeepHOT), which aims to learn both domain-invariant and category-discriminative representations by mining hierarchical structural relations among domains. The main idea is to incorporate a domain-level OT and image-level OT into a unified OT framework, hierarchical optimal transport, to model the underlying geometry in both domain space and image space. In DeepHOT framework, an image-level OT serves as the ground distance metric for the domain-level OT, leading to the hierarchical structural distance. Compared with the ground distance of the conventional domain-level OT, the image-level OT captures structural associations among local regions of images that are beneficial to classification. In this way, DeepHOT, a unified OT framework, not only aligns domains by domain-level OT, but also enhances the discriminative power through image-level OT. Moreover, to overcome the limitation of high computational complexity, we propose a robust and efficient implementation of DeepHOT by approximating origin OT with sliced Wasserstein distance in image-level OT and accomplishing the mini-batch unbalanced domain-level OT.


著者 Yingxue Xu,Guihua Wen,Yang Hu,Pei Yang
発行日 2024-04-19 13:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク