Better Practices for Domain Adaptation

要約

分布の変化は、機械学習の現実世界のアプリケーションでは非常に一般的です。
ドメイン アダプテーション (DA) は、ラベルを使用せずにモデルを展開データに適応させるためのさまざまなフレームワークを提供することで、この問題に対処することを目的としています。
ただし、ドメイン シフト シナリオでは、さらに微妙な 2 番目の課題が生じます。それは、ラベル付き検証セットにアクセスせずに、これらの適応アルゴリズムのハイパーパラメータ最適化 (HPO) を実行することの難しさです。
DA の検証プロトコルが不明確なため、実際のシナリオではターゲット テスト ラベルが利用できない場合にターゲット テスト ラベルを使用して HPO を実行するなど、文献での悪い慣行が発生しています。
このため、DA 研究の進歩について現実と比較して過度に楽観的な見方がなされています。
このペーパーでは、一連の候補検証基準をベンチマークし、それらを使用して一般的な適応アルゴリズムを評価することにより、適切な評価手法を使用した場合の DA の状態を分析します。
教師なしドメイン適応 (UDA)、ソースフリー ドメイン適応 (SFDA)、およびテスト時間適応 (TTA) を含む、ドメイン適応方法論の 3 つの分野すべてに課題があることを示します。
この結果は、現実的に達成可能なパフォーマンスが予想よりも悪い場合が多いことを示していますが、適切な検証分割を使用することが有益であること、また、これまでに調査されていない検証メトリクスがこれまでで最良のオプションを提供することも示しています。
データ、トレーニング、検証、ハイパーパラメーターの最適化をカバーする改善されたプラクティスは全体として、ベンチマークを改善し、ひいてはこの重要な分野における今後の研究の進歩を改善するための新しい厳密なパイプラインを形成します。

要約(オリジナル)

Distribution shifts are all too common in real-world applications of machine learning. Domain adaptation (DA) aims to address this by providing various frameworks for adapting models to the deployment data without using labels. However, the domain shift scenario raises a second more subtle challenge: the difficulty of performing hyperparameter optimisation (HPO) for these adaptation algorithms without access to a labelled validation set. The unclear validation protocol for DA has led to bad practices in the literature, such as performing HPO using the target test labels when, in real-world scenarios, they are not available. This has resulted in over-optimism about DA research progress compared to reality. In this paper, we analyse the state of DA when using good evaluation practice, by benchmarking a suite of candidate validation criteria and using them to assess popular adaptation algorithms. We show that there are challenges across all three branches of domain adaptation methodology including Unsupervised Domain Adaptation (UDA), Source-Free Domain Adaptation (SFDA), and Test Time Adaptation (TTA). While the results show that realistically achievable performance is often worse than expected, they also show that using proper validation splits is beneficial, as well as showing that some previously unexplored validation metrics provide the best options to date. Altogether, our improved practices covering data, training, validation and hyperparameter optimisation form a new rigorous pipeline to improve benchmarking, and hence research progress, within this important field going forward.

arxiv情報

著者 Linus Ericsson,Da Li,Timothy M. Hospedales
発行日 2023-09-07 17:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク