SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation

要約

教師なしドメイン適応 (DA) は、ラベルの付いたソース ドメインでトレーニングされたモデルを、データ分布が多少変化したラベルのないターゲット ドメインで適切に動作するように適応させることで構成されます。
文献では多くの方法が提案されていますが、特に教師なし設定でハイパーパラメータを選択する際の方法論的な困難のため、公正で現実的な評価は未解決の疑問のままです。
SKADA-Bench を使用して、DA 手法を評価するフレームワークを提案し、再重み付け、マッピング、部分空間アライメントを含む既存の浅いアルゴリズムの公正な評価を提示します。
現実的なハイパーパラメータ選択は、シフトを制御したシミュレートされたデータセットと、画像、テキスト、生物医学データ、特定の特徴が抽出された表形式データなど、多様なモダリティにわたる現実世界のデータセットの両方で、ネストされた相互検証とさまざまな教師なしモデル選択スコアを使用して実行されます。
私たちのベンチマークは、現実的な検証の重要性を強調し、モデル選択アプローチの選択とその影響についての重要な洞察とともに、現実のアプリケーションに対する実践的なガイダンスを提供します。
SKADA-Bench はオープンソースで再現可能であり、競合他社を再評価することなく、新しい DA メソッド、データセット、モデル選択基準を使用して簡単に拡張できます。
SKADA-Bench は、GitHub (https://github.com/scikit-adaptation/skada-bench) で入手できます。

要約(オリジナル)

Unsupervised Domain Adaptation (DA) consists of adapting a model trained on a labeled source domain to perform well on an unlabeled target domain with some data distribution shift. While many methods have been proposed in the literature, fair and realistic evaluation remains an open question, particularly due to methodological difficulties in selecting hyperparameters in the unsupervised setting. With SKADA-Bench, we propose a framework to evaluate DA methods and present a fair evaluation of existing shallow algorithms, including reweighting, mapping, and subspace alignment. Realistic hyperparameter selection is performed with nested cross-validation and various unsupervised model selection scores, on both simulated datasets with controlled shifts and real-world datasets across diverse modalities, such as images, text, biomedical, and tabular data with specific feature extraction. Our benchmark highlights the importance of realistic validation and provides practical guidance for real-life applications, with key insights into the choice and impact of model selection approaches. SKADA-Bench is open-source, reproducible, and can be easily extended with novel DA methods, datasets, and model selection criteria without requiring re-evaluating competitors. SKADA-Bench is available on GitHub at https://github.com/scikit-adaptation/skada-bench.

arxiv情報

著者 Yanis Lalou,Théo Gnassounou,Antoine Collas,Antoine de Mathelin,Oleksii Kachaiev,Ambroise Odonnat,Alexandre Gramfort,Thomas Moreau,Rémi Flamary
発行日 2024-07-16 12:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME, stat.ML パーマリンク