要約
AlpacaEval 2.0、Arena-Hard-Auto、MT-Bench などの自動 LLM ベンチマークは、人間による評価と比較した費用対効果とスケーラビリティにより、言語モデルの評価に人気が高まっています。
これらのベンチマークで高い勝率を達成すると、新しくリリースされた言語モデルのプロモーション効果を大幅に高めることができます。
ゲーム性を低下させるために長さやスタイルのもつれを解くためにいくつかのメカニズムが開発されているにもかかわらず、このプロモーション上の利点は、モデルの出力の長さやスタイルをゲームの勝率に合わせて操作するなどのトリックを動機付ける可能性があります。
それにもかかわらず、常に一定の応答 (入力命令とは無関係) を出力する「ヌル モデル」であっても、自動ベンチマークを欺き、トップランクの勝率を達成できることを示しました。AlpacaEval 2.0 では 86.5% の LC 勝率。
Arena-Hard-Auto のスコアは 83.0。
MT-Bench のスコアは 9.55 でした。
さらに、これらのベンチマークの命令 (AlpacaEval 2.0 の 805 サンプルなど) はプライベートであり、アクセスできないと想定しているため、細工された不正行為の出力は転送可能です。
私たちの実験は主に概念実証ですが、敵は LLM を使用して、より知覚できない不正行為の応答を生成し、高い勝率とプロモーション効果から非倫理的な利益を得る可能性があります。
私たちの調査結果では、信頼性の高い自動ベンチマークのための不正行為防止メカニズムの開発が必要です。
コードは https://github.com/sail-sg/Cheating-LLM-Benchmarks で入手できます。
要約(オリジナル)
Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a ‘null model’ that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.
arxiv情報
| 著者 | Xiaosen Zheng,Tianyu Pang,Chao Du,Qian Liu,Jing Jiang,Min Lin |
| 発行日 | 2024-10-09 17:53:06+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google