A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation

要約

モデルのパフォーマンス評価は、機械学習とコンピューター ビジョンにおいて重要かつ高価なタスクです。
明確なガイドラインがない場合、専門家は、データの 1 回限りの完全にランダムな選択を使用してモデルの精度を推定することがよくあります。
ただし、カスタマイズされたサンプリングおよび推定戦略を採用することで、より正確な推定値を取得し、アノテーションのコストを削減できます。
この論文では、層別化、サンプリング、推定コンポーネントを含むモデル評価のための統計的フレームワークを提案します。
各コンポーネントの統計的特性を調べ、その効率 (精度) を評価します。
私たちの研究の重要な結果の 1 つは、モデルのパフォーマンスの正確な予測に基づく K 平均法クラスタリングによる層別化により、効率的な推定量が得られることです。
コンピューター ビジョン データセットに関する私たちの実験では、この方法が 10 倍の大幅な効率向上を伴う場合でも、従来の単純なランダム サンプリングよりも一貫して正確な精度の推定値が得られることが示されています。
また、データセットのラベルのない部分でのモデル精度の予測を利用するモデル支援推定器は、一般に、ラベル付きデータのみに基づく従来の推定よりも効率的であることもわかりました。

要約(オリジナル)

Model performance evaluation is a critical and expensive task in machine learning and computer vision. Without clear guidelines, practitioners often estimate model accuracy using a one-time completely random selection of the data. However, by employing tailored sampling and estimation strategies, one can obtain more precise estimates and reduce annotation costs. In this paper, we propose a statistical framework for model evaluation that includes stratification, sampling, and estimation components. We examine the statistical properties of each component and evaluate their efficiency (precision). One key result of our work is that stratification via k-means clustering based on accurate predictions of model performance yields efficient estimators. Our experiments on computer vision datasets show that this method consistently provides more precise accuracy estimates than the traditional simple random sampling, even with substantial efficiency gains of 10x. We also find that model-assisted estimators, which leverage predictions of model accuracy on the unlabeled portion of the dataset, are generally more efficient than the traditional estimates based solely on the labeled data.

arxiv情報

著者 Riccardo Fogliato,Pratik Patil,Mathew Monfort,Pietro Perona
発行日 2024-07-18 17:43:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.AP パーマリンク