要約
ARC チャレンジは、現代の LLM にとって ARC Easy よりも難しいように見えますが、これは主に、固有の複雑さではなく、回答選択肢の直接比較を妨げる評価設定が原因です。
一部の研究者は昨年、密かにより適切な計画に移行しましたが、この変更の影響はまだ広く認識されていません。
私たちはこの見落とされている変化に焦点を当て、同様の評価手法がどのようにして他のベンチマークの推論の欠陥を誤って暗示しているかを示し、より公正な方法によりパフォーマンスのギャップが劇的に減少し(SIQA などで)、さらには超人的な結果(OpenBookQA)が得られることを実証します。
そうすることで、評価がどのように困難を認識するかを明らかにし、多肢選択評価が実際のモデルの能力を正確に反映していることを確認するためのガイドラインを提供します。
要約(オリジナル)
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily due to an evaluation setup that prevents direct comparison of answer choices rather than inherent complexity. Although some researchers have quietly shifted to a more appropriate scheme over the last year, the implications of this change have yet to be widely acknowledged. We highlight this overlooked shift, show how similar evaluation practices falsely imply reasoning deficits in other benchmarks, and demonstrate that fairer methods dramatically reduce performance gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing so, we reveal how evaluation shapes perceived difficulty and offer guidelines to ensure that multiple-choice evaluations accurately reflect actual model capabilities.
arxiv情報
著者 | Łukasz Borchmann |
発行日 | 2024-12-23 18:14:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google