要約
大規模言語モデル (LLM) は、さまざまなアプリケーションにわたって優れた機能を実証し、自然言語処理 (NLP) 研究の状況を根本的に再構築しました。
ただし、最近の評価フレームワークは、主に計算上の制約により、予測のために LLM の出力確率に依存することが多く、実際の LLM 使用シナリオから逸脱しています。
これらの確率に基づく評価戦略の有効性は広く採用されていますが、依然として未解決の研究課題です。
この研究は、多肢選択質問 (MCQ) に LLM を使用するという文脈の中で、そのような確率ベースの評価方法の妥当性を精査し、その固有の限界を強調することを目的としています。
私たちの実証的調査により、一般的な確率ベースの評価方法が世代ベースの予測と不適切に一致していることが明らかになりました。
さらに、現在の評価フレームワークは、計算上の制限により、応答を直接生成するのではなく、出力確率に基づく予測タスクを通じて LLM を評価するのが一般的です。
これらの確率ベースのアプローチは生成予測と効果的に対応していないことを示します。
私たちの研究の結果は、LLM 評価方法論の理解を深め、この分野の将来の研究に洞察を与えることができます。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities across various applications, fundamentally reshaping the landscape of natural language processing (NLP) research. However, recent evaluation frameworks often rely on the output probabilities of LLMs for predictions, primarily due to computational constraints, diverging from real-world LLM usage scenarios. While widely employed, the efficacy of these probability-based evaluation strategies remains an open research question. This study aims to scrutinize the validity of such probability-based evaluation methods within the context of using LLMs for Multiple Choice Questions (MCQs), highlighting their inherent limitations. Our empirical investigation reveals that the prevalent probability-based evaluation method inadequately aligns with generation-based prediction. Furthermore, current evaluation frameworks typically assess LLMs through predictive tasks based on output probabilities rather than directly generating responses, owing to computational limitations. We illustrate that these probability-based approaches do not effectively correspond with generative predictions. The outcomes of our study can enhance the understanding of LLM evaluation methodologies and provide insights for future research in this domain.
arxiv情報
著者 | Chenyang Lyu,Minghao Wu,Alham Fikri Aji |
発行日 | 2024-02-21 15:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google