要約
機械学習では,従来,単一のモデルの性能をテスト入力の集合に対して平均して評価する.本研究では、$textit{single input}$で評価したときのモデルの性能を測定するという新しいアプローチを提案する。具体的には、点の$textit{profile}$を研究する。これは、テスト分布におけるモデルの平均性能と、この個々の点における点ごとの性能の関係である。プロファイルは、分布内と分布外におけるモデルとデータの構造に関する新しい洞察をもたらすことができることを発見した。例えば、我々は、実際のデータ分布が、質的に異なるプロファイルを持つ点から構成されていることを経験的に示した。一方では、ポイントワイズと平均性能の間に強い相関を持つ「互換性のある」ポイントが存在する。一方、相関が弱く、$textit{negative}$さえある点が存在する:モデル全体の精度を向上させると、これらの入力に対する性能が実際に$textit{hurts}$になるケース。これらの実験結果は、先行研究で提案されたいくつかの単純化された学習モデルの予測と矛盾していることを証明する。応用例として、プロファイルを用いてCIFAR-10-NEGと呼ぶデータセットを構築する。CIFAR-10-NEGはCINIC-10の部分集合で、標準モデルにおいて、CIFAR-10 testの精度と$textit{negatively correlated}$となるようなデータセットである。これは、初めて「accuracy-on-the-line」を完全に反転させたOODデータセットを示している (Miller, Taori, Raghunathan, Sagawa, Koh, Shankar, Liang, Carmon, and Schmidt 2021)。
要約(オリジナル)
In machine learning, we traditionally evaluate the performance of a single model, averaged over a collection of test inputs. In this work, we propose a new approach: we measure the performance of a collection of models when evaluated on a $\textit{single input point}$. Specifically, we study a point’s $\textit{profile}$: the relationship between models’ average performance on the test distribution and their pointwise performance on this individual point. We find that profiles can yield new insights into the structure of both models and data — in and out-of-distribution. For example, we empirically show that real data distributions consist of points with qualitatively different profiles. On one hand, there are ‘compatible’ points with strong correlation between the pointwise and average performance. On the other hand, there are points with weak and even $\textit{negative}$ correlation: cases where improving overall model accuracy actually $\textit{hurts}$ performance on these inputs. We prove that these experimental observations are inconsistent with the predictions of several simplified models of learning proposed in prior work. As an application, we use profiles to construct a dataset we call CIFAR-10-NEG: a subset of CINIC-10 such that for standard models, accuracy on CIFAR-10-NEG is $\textit{negatively correlated}$ with accuracy on CIFAR-10 test. This illustrates, for the first time, an OOD dataset that completely inverts ‘accuracy-on-the-line’ (Miller, Taori, Raghunathan, Sagawa, Koh, Shankar, Liang, Carmon, and Schmidt 2021)
arxiv情報
著者 | Gal Kaplun,Nikhil Ghosh,Saurabh Garg,Boaz Barak,Preetum Nakkiran |
発行日 | 2022-06-07 06:32:29+00:00 |
arxivサイト | arxiv_id(pdf) |