要約
Wickedを紹介します。これは、選択を教育テストでよく使用する方法である「上記のいずれでもない」にランダムに置き換えることにより、既存の多肢選択ベンチマークの複雑さを高める簡単な方法です。
Wickedが既存のベンチマークに自動的に適用できることを示し、より挑戦的にします。
6つの人気のあるベンチマークにWickedを適用し、それを使用して18のオープンウェイトLLMを評価します。
モデルのパフォーマンスは、データセットの元のバージョンに関して平均で12.1ポイント低下します。
3 MMLUデータセットでチェーンオブしか考えられている場合、邪悪なバリアントのパフォーマンス低下は、LLMSを直接使用するときに観察されたものと似ており、邪悪なものが推論能力が強化されたモデルにも挑戦的であることを示しています。
Wickedはまた、一部のモデルが必要な余分な推論に対してより敏感であることを明らかにし、元のベンチマークに関して追加情報を提供します。
https://github.com/ahmedselhady/wicked-benchmarksでコードとデータをリラーズします。
要約(オリジナル)
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with ‘None of the above’, a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.
arxiv情報
著者 | Ahmed Elhady,Eneko Agirre,Mikel Artetxe |
発行日 | 2025-02-25 16:09:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google