Auto-Evaluation with Few Labels through Post-hoc Regression

要約

大規模な生成モデルを継続的に評価することには、特有の課題が伴います。
多くの場合、これらのモデル (テキストや画像など) の高レベルのプロパティを評価するには、人間による注釈が必要です。
ただし、人によるサンプルのアノテーションの収集にはリソースが大量に消費される可能性があり、他の機械学習システムを使用してアノテーションを提供したり、自動評価を行ったりすると、評価に系統的なエラーが発生する可能性があります。
Prediction Powered Inference (PPI) フレームワークは、自動評価の統計力とラベル付きデータの小さなプールの両方を活用して、評価対象の数量の分散が低く不偏な推定値を生成する方法を提供します。
ただし、PPI に関するほとんどの研究では、比較的大規模なラベル付きサンプルのセットが考慮されており、これを入手するのが必ずしも現実的であるとは限りません。
この目的を達成するために、我々は、堅牢な回帰変数を利用して少数ラベル領域でさらに低い分散推定量を生成する 2 つの新しい PPI ベースの手法を紹介します。

要約(オリジナル)

Continually evaluating large generative models provides a unique challenge. Often, human annotations are necessary to evaluate high-level properties of these models (e.g. in text or images). However, collecting human annotations of samples can be resource intensive, and using other machine learning systems to provide the annotations, or automatic evaluation, can introduce systematic errors into the evaluation. The Prediction Powered Inference (PPI) framework provides a way of leveraging both the statistical power of automatic evaluation and a small pool of labelled data to produce a low-variance, unbiased estimate of the quantity being evaluated for. However, most work on PPI considers a relatively sizable set of labelled samples, which is not always practical to obtain. To this end, we present two new PPI-based techniques that leverage robust regressors to produce even lower variance estimators in the few-label regime.

arxiv情報

著者 Benjamin Eyre,David Madras
発行日 2024-11-19 17:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク