Option-ID Based Elimination For Multiple Choice Questions

要約

複数選択の質問(MCQ)は、大規模な言語モデル(LLM)を評価するための一般的で重要なタスクです。
MCQに答える際に使用する一般的な戦略に基づいて、効果的な問題解決方法として排除のプロセス(POE)が提案されています。
既存のPOEメソッドには、通常、LLMが誤ったオプションまたはスコアオプションを直接識別し、[マスク]に低いスコアのオプションを置き換えます。
ただし、どちらの方法でも、アプリケーション性または最適ではないパフォーマンスに悩まされています。
これらの問題に対処するために、このペーパーでは、新しいオプションとIDベースのPOE($ \ Text {POE} _ {\ text {id}} $)を提案します。
$ \ text {poe} _ {\ text {id}} $は、LLMSトークンバイアスに対抗するための衰弱技術を批判的に組み込み、素朴なIDベースの除去よりも堅牢性を高めます。
2つの戦略が特徴です:$ \ text {poe} _ {\ text {id}}^{\ text {Log}} $。
最低ID確率。
4つの多様なデータセットで6つの異なるLLMを使用して広範な実験を行います。
結果は、$ \ text {poe} _ {\ text {id}} $、特に$ \ text {poe} _ {\ text {\ text}^{\ text {log}} $を、特にオプションのデータセットでゼロショットと少数のshot mcqsパフォーマンスを大幅に改善することを示しています。
私たちの分析は、$ \ text {poe} _ {\ text {id}}^{\ text {log}} $が正しいオプションを選択する際のLLMSの信頼度を高めることを示しており、オプション除去戦略は[マスク]の交換に依存するメソッドを上回ることを示しています。
さらに、固有の欠陥に起因する誤ったオプションを直接識別するLLMの制限を調査します。

要約(オリジナル)

Multiple choice questions (MCQs) are a popular and important task for evaluating large language models (LLMs). Based on common strategies people use when answering MCQs, the process of elimination (PoE) has been proposed as an effective problem-solving method. Existing PoE methods typically either have LLMs directly identify incorrect options or score options and replace lower-scoring ones with [MASK]. However, both methods suffer from inapplicability or suboptimal performance. To address these issues, this paper proposes a novel option-ID based PoE ($\text{PoE}_{\text{ID}}$). $\text{PoE}_{\text{ID}}$ critically incorporates a debiasing technique to counteract LLMs token bias, enhancing robustness over naive ID-based elimination. It features two strategies: $\text{PoE}_{\text{ID}}^{\text{log}}$, which eliminates options whose IDs have log probabilities below the average threshold, and $\text{PoE}_{\text{ID}}^{\text{seq}}$, which iteratively removes the option with the lowest ID probability. We conduct extensive experiments with 6 different LLMs on 4 diverse datasets. The results demonstrate that $\text{PoE}_{\text{ID}}$, especially $\text{PoE}_{\text{ID}}^{\text{log}}$, significantly improves zero-shot and few-shot MCQs performance, particularly in datasets with more options. Our analyses demonstrate that $\text{PoE}_{\text{ID}}^{\text{log}}$ enhances the LLMs’ confidence in selecting the correct option, and the option elimination strategy outperforms methods relying on [MASK] replacement. We further investigate the limitations of LLMs in directly identifying incorrect options, which stem from their inherent deficiencies.

arxiv情報

著者 Zhenhao Zhu,Bulou Liu,Qingyao Ai,Yiqun Liu
発行日 2025-05-19 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク