要約
大規模言語モデル (LLM) の現在の評価は、主に、本質的に自動評価に適した形式である多肢選択質問 (MCQ) を通じてテストすることにより、組み込まれた知識に焦点を当てたベンチマークに依存しています。
私たちの研究は、この評価を拡張して、特に韓国語の文脈において、洗練された LLM の出現前に以前は十分に検討されていなかった LLM の実用的能力を探求します。
当社では、自動評価に適応した従来の MCQ 形式と、人間の専門家によって評価される自由回答形式の質問 (OEQ) という 2 つの異なる評価設定を採用し、事前定義されたオプションなしで LLM のナラティブ応答能力を検査します。
私たちの調査結果では、GPT-4 が優れており、MCQ セットアップと OEQ セットアップでそれぞれ 81.11 と 85.69 のスコアを獲得し、韓国語に最適化された LLM である HyperCLOVA X が、特に OEQ セットアップで僅差で 81.56 のスコアを示し、それに続いています。
GPT-4と比較して4.13ポイント。
さらに、少数ショット学習戦略は一般に LLM パフォーマンスを向上させますが、思考連鎖 (CoT) プロンプトは文字通りの解釈へのバイアスを導入し、正確な実用的な推論を妨げます。
人間のコミュニケーション規範に沿った言語を理解して生成するというLLMへの期待が高まっていることを考慮すると、私たちの調査結果は、単なる文字通りの解釈を超えて、高度な意味を把握し伝達するLLMの能力を向上させることの重要性を強調しています。
要約(オリジナル)
The current evaluation of Large Language Models (LLMs) predominantly relies on benchmarks focusing on their embedded knowledge by testing through multiple-choice questions (MCQs), a format inherently suited for automated evaluation. Our study extends this evaluation to explore LLMs’ pragmatic competence–a facet previously underexamined before the advent of sophisticated LLMs, specifically in the context of Korean. We employ two distinct evaluation setups: the conventional MCQ format, adapted for automatic evaluation, and Open-Ended Questions (OEQs), assessed by human experts, to examine LLMs’ narrative response capabilities without predefined options. Our findings reveal that GPT-4 excels, scoring 81.11 and 85.69 in the MCQ and OEQ setups, respectively, with HyperCLOVA X, an LLM optimized for Korean, closely following, especially in the OEQ setup, demonstrating a score of 81.56 with a marginal difference of 4.13 points compared to GPT-4. Furthermore, while few-shot learning strategies generally enhance LLM performance, Chain-of-Thought (CoT) prompting introduces a bias toward literal interpretations, hindering accurate pragmatic inference. Considering the growing expectation for LLMs to understand and produce language that aligns with human communicative norms, our findings emphasize the importance for advancing LLMs’ abilities to grasp and convey sophisticated meanings beyond mere literal interpretations.
arxiv情報
著者 | Dojun Park,Jiwoo Lee,Hyeyun Jeong,Seohyun Park,Sungeun Lee |
発行日 | 2024-03-19 12:21:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google