要約
テスト時に目に見えないドメインからのデータに対する ML モデルのパフォーマンスを測定することは不可欠ですが、この設定にはラベルがないため、困難な問題になります。
さらに、分布内データに対するこれらのモデルのパフォーマンスは、目に見えないドメインからのデータに対するモデルのパフォーマンスを示す指標としては不十分です。
したがって、テスト時にモデルのパフォーマンスに関する洞察を提供し、テスト時に利用可能な情報 (モデル パラメーター、トレーニング データまたはその統計、ラベルのないテスト データなど) を使用してのみ計算できるメトリクスを開発することが不可欠です。
)。
この目的を達成するために、目に見えないドメインでのモデルのパフォーマンスと高い相関があり、テスト時に利用可能な情報のみを使用して効率的に計算できる、最適なトランスポートに基づくメトリックを提案します。
具体的には、私たちのメトリクスは、これらのドメインからの少量のラベルなしデータとトレーニング (ソース) ドメインからのデータまたは統計のみを使用して、目に見えないドメインでのモデルのパフォーマンスを特徴付けます。
標準ベンチマーク データセットとその破損を使用した広範な経験的評価を通じて、さまざまな実際のアプリケーションにおけるモデルのパフォーマンスを推定する際のメトリクスの有用性を実証します。
これらには、目に見えないドメインからのデータで最高のパフォーマンスをもたらすソース データとアーキテクチャを選択する問題や、目に見えないドメインでのテスト時にデプロイされたモデルのパフォーマンスを予測する問題が含まれます。
私たちの経験的結果は、ソースと目に見えないドメインの両方からの情報を使用する私たちのメトリクスがモデルのパフォーマンスと高い相関関係があり、単に使用して計算される一般的な予測エントロピーベースのメトリクスによって得られるものよりも大幅に優れた相関関係を達成していることを示しています。
目に見えないドメインからのデータ。
要約(オリジナル)
Gauging the performance of ML models on data from unseen domains at test-time is essential yet a challenging problem due to the lack of labels in this setting. Moreover, the performance of these models on in-distribution data is a poor indicator of their performance on data from unseen domains. Thus, it is essential to develop metrics that can provide insights into the model’s performance at test time and can be computed only with the information available at test time (such as their model parameters, the training data or its statistics, and the unlabeled test data). To this end, we propose a metric based on Optimal Transport that is highly correlated with the model’s performance on unseen domains and is efficiently computable only using information available at test time. Concretely, our metric characterizes the model’s performance on unseen domains using only a small amount of unlabeled data from these domains and data or statistics from the training (source) domain(s). Through extensive empirical evaluation using standard benchmark datasets, and their corruptions, we demonstrate the utility of our metric in estimating the model’s performance in various practical applications. These include the problems of selecting the source data and architecture that leads to the best performance on data from an unseen domain and the problem of predicting a deployed model’s performance at test time on unseen domains. Our empirical results show that our metric, which uses information from both the source and the unseen domain, is highly correlated with the model’s performance, achieving a significantly better correlation than that obtained via the popular prediction entropy-based metric, which is computed solely using the data from the unseen domain.
arxiv情報
著者 | Akshay Mehra,Yunbei Zhang,Jihun Hamm |
発行日 | 2024-05-02 16:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google