要約
データセットの刈り込みと欠陥同定という目標に動機付けられ、データセット内の個々の事例をスコアリングする手法が開発されつつある。我々が「例困難度スコア」と呼ぶこれらの手法は、通常、例をランク付けまたは分類するために使用されるが、異なるトレーニング実行、スコアリング手法、モデルアーキテクチャ間のランキングの一貫性は一般的に不明である。このようなランダム効果や制御された効果によって、例の順位がどのように変化するのかを明らかにするために、我々は、様々な訓練やモデルアーキテクチャにおけるスコアの様々な定式化を系統的に比較した。その結果、スコアは、モデルの個々の実行に対してノイズが多いこと、難易度の単一の概念と強い相関があること、特定のモデルアーキテクチャの帰納的バイアスに非常に敏感な例から鈍感な例まであることを明らかにした。統計遺伝学からヒントを得て、少数の感度の高い例を用いてモデルアーキテクチャをフィンガープリントする簡単な方法を開発する。これらの知見は、スコアの一貫性を最大化する(例えば、適切なスコアリング方法、実行回数、例のサブセットを選択することにより)ための実践者の指針となり、将来的にスコアを評価するための包括的なベースラインを確立する。
要約(オリジナル)
Motivated by the goals of dataset pruning and defect identification, a growing body of methods have been developed to score individual examples within a dataset. These methods, which we call ‘example difficulty scores’, are typically used to rank or categorize examples, but the consistency of rankings between different training runs, scoring methods, and model architectures is generally unknown. To determine how example rankings vary due to these random and controlled effects, we systematically compare different formulations of scores over a range of runs and model architectures. We find that scores largely share the following traits: they are noisy over individual runs of a model, strongly correlated with a single notion of difficulty, and reveal examples that range from being highly sensitive to insensitive to the inductive biases of certain model architectures. Drawing from statistical genetics, we develop a simple method for fingerprinting model architectures using a few sensitive examples. These findings guide practitioners in maximizing the consistency of their scores (e.g. by choosing appropriate scoring methods, number of runs, and subsets of examples), and establishes comprehensive baselines for evaluating scores in the future.
arxiv情報
著者 | Devin Kwok,Nikhil Anand,Jonathan Frankle,Gintare Karolina Dziugaite,David Rolnick |
発行日 | 2024-01-03 18:19:51+00:00 |
arxivサイト | arxiv_id(pdf) |