Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena

要約

多肢選択質問 (MCQ) は、大規模言語モデル (LLM) を評価するためによく使用されます。
通常、LLM には質問が与えられ、長さなどの要素を調整した後、最も可能性が高いと思われる回答が選択されます。
残念ながら、LLM は先験的不均衡確率の固有のバイアスにより、A/B/C/D などの特定の回答選択肢 ID を本質的に好む可能性があり、これらの ID に基づく回答の予測に影響を与えます。
これまでの研究では、いくつかのテストサンプルのオプションを単純に並べ替えて新しいサンプルに適用することで、この「選択バイアス」を軽減する方法が導入されていました。
MCQ のもう 1 つの問題は、「ランダムな推測」による宝くじの選択です。
LLM は特定の知識を学習しませんが、オプションは正しく推測されます。
この状況は、小規模 LLM にとって特に深刻です。
これらに対処するためのより徹底的なアプローチには、MCQ から自由形式の質問への移行が含まれます。これにより、選択バイアスとランダムな推測の問題を根本的に排除できます。
ただし、移行によって、(1) 適切な公開形式の質問を特定する、(2) 人間が注釈を付けたグラウンドトゥルースに対して LLM 公開形式の応答の正しさを検証する、という独自の一連の課題が生じます。
この研究は、これらの重大な問題に取り組み、完全に自由形式の質問を通じて新しい LLM 評価ベンチマークを確立することを目的としています。
その結果、GPT-4o/4/3.5、Claude 3、Gemini など、さまざまな LLM のパフォーマンスを追跡し、それらの真の機能を反映するために Open-LLM-Leaderboard を導入しました。私たちのコードとデータセットは https:/ で入手できます。
/github.com/VILA-Lab/Open-LLM-Leaderboard。

要約(オリジナル)

Multiple-choice questions (MCQ) are frequently used to assess large language models (LLMs). Typically, an LLM is given a question and selects the answer deemed most probable after adjustments for factors like length. Unfortunately, LLMs may inherently favor certain answer choice IDs, such as A/B/C/D, due to inherent biases of priori unbalanced probabilities, influencing the prediction of answers based on these IDs. Previous research has introduced methods to reduce this ”selection bias” by simply permutating options on a few test samples and applying to new ones. Another problem of MCQ is the lottery ticket choice by ”random guessing”. The LLM does not learn particular knowledge, but the option is guessed correctly. This situation is especially serious for those small-scale LLMs. To address them, a more thorough approach involves shifting from MCQ to open-style questions, which can fundamentally eliminate selection bias and random guessing issues. However, transitioning causes its own set of challenges in (1) identifying suitable open-style questions and (2) validating the correctness of LLM open-style responses against human-annotated ground-truths. This work aims to tackle these significant difficulties, and establish a new LLM evaluation benchmark through entirely open-style questions. Consequently, we introduce the Open-LLM-Leaderboard to track various LLMs’ performance and reflect true capability of them, such as GPT-4o/4/3.5, Claude 3, Gemini, etc. Our code and dataset are available at https://github.com/VILA-Lab/Open-LLM-Leaderboard.

arxiv情報

著者 Aidar Myrzakhan,Sondos Mahmoud Bsharat,Zhiqiang Shen
発行日 2024-06-11 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク