要約
様々なテスト環境下において、真正テストラベルにアクセスすることなくテスト精度を推定することは、機械学習アルゴリズムの安全な展開において、困難でありながら非常に重要な問題である。既存の研究では、グラウンドトゥルースのテスト精度と相関する推定スコアを定式化するために、ニューラルネットワークの出力または抽出された特徴のどちらかからの情報に依存している。本論文では、勾配から得られる情報が、分布シフトの下でも、どのように真偽判定精度を予測できるかを、経験的、理論的に調査する。具体的には、分類層の勾配のノルムを利用し、テストデータに対して1回だけ勾配ステップを行った後、クロスエントロピー損失からバックプロパゲートする。我々の重要なアイデアは、分布のシフトによりテストデータセットに汎化しない場合、モデルをより大きな勾配で調整すべきであるということである。我々は、このようなアプローチが経験的に成功するための主な要素を強調する理論的洞察を提供する。多様な分布シフトとモデル構造に対して行った広範な実験により、我々の手法が最先端のアルゴリズムを大幅に上回ることを実証する。
要約(オリジナル)
Estimating test accuracy without access to the ground-truth test labels under varying test environments is a challenging, yet extremely important problem in the safe deployment of machine learning algorithms. Existing works rely on the information from either the outputs or the extracted features of neural networks to formulate an estimation score correlating with the ground-truth test accuracy. In this paper, we investigate–both empirically and theoretically–how the information provided by the gradients can be predictive of the ground-truth test accuracy even under a distribution shift. Specifically, we use the norm of classification-layer gradients, backpropagated from the cross-entropy loss after only one gradient step over test data. Our key idea is that the model should be adjusted with a higher magnitude of gradients when it does not generalize to the test dataset with a distribution shift. We provide theoretical insights highlighting the main ingredients of such an approach ensuring its empirical success. Extensive experiments conducted on diverse distribution shifts and model structures demonstrate that our method significantly outperforms state-of-the-art algorithms.
arxiv情報
著者 | Renchunzi Xie,Ambroise Odonnat,Vasilii Feofanov,Ievgen Redko,Jianfeng Zhang,Bo An |
発行日 | 2024-03-01 10:21:42+00:00 |
arxivサイト | arxiv_id(pdf) |