要約
敵対的なデータセットは、人間のパフォーマンスに匹敵するAIの頑健性を保証するはずだ。しかし、モデルの進化に伴い、データセットが陳腐化する可能性がある。したがって、敵対的データセットは、敵対性の劣化に基づいて定期的に更新されるべきである。敵対性を測定するための標準化された指標がないことから、我々は人間に基づいた評価指標であるAdvScoreを提案する。AdvScoreは、モデルや人間の様々な能力を捉えることで、データセットの真の敵対性を評価すると同時に、劣悪な事例を特定する。AdvScoreは、現実的で高品質な敵対的サンプルのための新しいデータセット作成パイプラインを動機付け、敵対的質問応答(QA)データセットAdvQAを収集することを可能にする。9,347の人間の回答と10の言語モデルの予測を用いてAdvScoreを適用し、5年間(2020年から2024年まで)のモデルの改善を追跡する。AdvScoreは、敵対的なデータセットがモデル評価に適しているかどうかを評価し、モデルの改善を測定し、人間の能力とのより良い整合性のためのガイダンスを提供します。
要約(オリジナル)
Adversarial datasets should ensure AI robustness that matches human performance. However, as models evolve, datasets can become obsolete. Thus, adversarial datasets should be periodically updated based on their degradation in adversarialness. Given the lack of a standardized metric for measuring adversarialness, we propose AdvScore, a human-grounded evaluation metric. AdvScore assesses a dataset’s true adversarialness by capturing models’ and humans’ varying abilities, while also identifying poor examples. AdvScore then motivates a new dataset creation pipeline for realistic and high-quality adversarial samples, enabling us to collect an adversarial question answering (QA) dataset, AdvQA. We apply AdvScore using 9,347 human responses and ten language model predictions to track the models’ improvement over five years (from 2020 to 2024). AdvScore assesses whether adversarial datasets remain suitable for model evaluation, measures model improvements, and provides guidance for better alignment with human capabilities.
arxiv情報
著者 | Yoo Yeon Sung,Maharshi Gor,Eve Fleisig,Ishani Mondal,Jordan Lee Boyd-Graber |
発行日 | 2024-11-01 01:16:28+00:00 |
arxivサイト | arxiv_id(pdf) |