要約
Cloze テストは、多数のベンチマーク タスクで大規模な言語モデルの動作を測定するための一般的な方法です。
MMLU データセットを使用して、応答トークン間の基本レート確率 (BRP) の差が大きく、タスクのパフォーマンスに影響を与えることを示します。
不明な場合は A と推測します。
私たちは、反事実的なプロンプトが BRP 効果を十分に軽減することを発見しました。
BRP 効果は、人間が採用する受験戦略と同様の効果があり、タスクのパフォーマンスと受験能力を結びつけることがわかっています。
我々は、MMLU のバリエーションである Nvr-X-MMLU タスクを提案します。これは、テスト受験能力とタスクのパフォーマンスを区別し、後者を報告するのに役立ちます。
要約(オリジナル)
Cloze testing is a common method for measuring the behavior of large language models on a number of benchmark tasks. Using the MMLU dataset, we show that the base-rate probability (BRP) differences across answer tokens are significant and affect task performance ie. guess A if uncertain. We find that counterfactual prompting does sufficiently mitigate the BRP effect. The BRP effect is found to have a similar effect to test taking strategies employed by humans leading to the conflation of task performance and test-taking ability. We propose the Nvr-X-MMLU task, a variation of MMLU, which helps to disambiguate test-taking ability from task performance and reports the latter.
arxiv情報
著者 | Kyle Moore,Jesse Roberts,Thao Pham,Oseremhen Ewaleifoh,Doug Fisher |
発行日 | 2024-09-30 17:51:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google