要約
人間の評価は、テキスト生成モデルを評価するための金標準です。
また、高価であり、予算の制約に合わせて、テストデータのランダムサブセットが実際に選択されることがよくあります。
ランダムに選択されたデータは、テストのパフォーマンスを正確に表すことができない場合があり、このアプローチはモデル比較に対して経済的に非効率的になります。
したがって、この作業では、評価コストを考慮しながら、人間の評価のための最も有益なデータポイントを取得するために、一連のセレクターを開発します。
自動化されたメトリックスコアの分散、モデル出力の多様性、またはアイテム応答理論がランダム選択を上回ることを示しています。
さらに、これらのセレクターをモデル出力がまだ利用できないシナリオに蒸留するアプローチを開発します。
特に、ソーステキストに基づいて人間の評価にアイテムの有用性を予測するソースベースの推定器を紹介します。
2つの一般的なNLGタスク、機械の翻訳と要約でセレクターの有効性を示し、データ全体と同じ評価結果を生成するためにテストデータの最大最大50%のみが必要であることを示します。
実装は、Subset2Evaluateパッケージに公開されています。
要約(オリジナル)
Human evaluation is the gold-standard for evaluating text generation models. It is also expensive, and to fit budgetary constraints, a random subset of the test data is often chosen in practice. The randomly selected data may not accurately represent test performance, making this approach economically inefficient for model comparison. Thus, in this work, we develop a suite of selectors to get the most informative datapoints for human evaluation while taking the evaluation costs into account. We show that selectors based on variance in automated metric scores, diversity in model outputs, or Item Response Theory outperform random selection. We further develop an approach to distill these selectors to the scenario where the model outputs are not yet available. In particular, we introduce source-based estimators, which predict item usefulness for human evaluation just based on the source texts. We demonstrate the efficacy of our selectors in two common NLG tasks, machine translation and summarization, and show that up to only ~50% of the test data is needed to produce the same evaluation result as the entire data. Our implementations are published in the subset2evaluate package.
arxiv情報
著者 | Vilém Zouhar,Peng Cui,Mrinmaya Sachan |
発行日 | 2025-01-30 10:33:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google