Cost-Optimal Active AI Model Evaluation

要約

生成AIシステムの開発ライフサイクルには、継続的な評価、データ収集、および注釈が必要です。これは、リソースと時間の両方で費用がかかります。
実際には、迅速な反復により、実質的なバイアスの可能性があるにもかかわらず、低コストのために合成注釈データに依存する必要があることがよくあります。
このホワイトペーパーでは、生成されたコンテンツの品質を自動的に評価するように設計されたモデルベースの自動車など、安価ではあるがしばしば不正確で弱い評価者の使用と積極的にバランスをとるための新しいコスト認識方法を開発します。
より具体的には、私たちのアプローチの目標は、ターゲットの「強い」格付けの平均の公平な推定値を生成することです。
アクティブおよび予測駆動の統計的推論における最近の作業に基づいて、統計効率を最大化するために、弱い評価者と強い評価者の間に特定の注釈予算を割り当てるためのコスト最適なポリシーのファミリーを導き出します。
合成および実世界のデータを使用して、これらのポリシーが以前の方法よりも改善をもたらす条件を経験的に特徴付けます。
特に、例の難易度に高いばらつきがあるタスクでは、我々のポリシーは、標準的な評価方法よりもはるかに低い総注釈予算で同じ推定精度を達成できることがわかります。

要約(オリジナル)

The development lifecycle of generative AI systems requires continual evaluation, data acquisition, and annotation, which is costly in both resources and time. In practice, rapid iteration often makes it necessary to rely on synthetic annotation data because of the low cost, despite the potential for substantial bias. In this paper, we develop novel, cost-aware methods for actively balancing the use of a cheap, but often inaccurate, weak rater — such as a model-based autorater that is designed to automatically assess the quality of generated content — with a more expensive, but also more accurate, strong rater alternative such as a human. More specifically, the goal of our approach is to produce a low variance, unbiased estimate of the mean of the target ‘strong’ rating, subject to some total annotation budget. Building on recent work in active and prediction-powered statistical inference, we derive a family of cost-optimal policies for allocating a given annotation budget between weak and strong raters so as to maximize statistical efficiency. Using synthetic and real-world data, we empirically characterize the conditions under which these policies yield improvements over prior methods. We find that, especially in tasks where there is high variability in the difficulty of examples, our policies can achieve the same estimation precision at a far lower total annotation budget than standard evaluation methods.

arxiv情報

著者 Anastasios N. Angelopoulos,Jacob Eisenstein,Jonathan Berant,Alekh Agarwal,Adam Fisch
発行日 2025-06-09 17:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク