要約
大規模言語モデル (LLM) の機能が拡大するにつれて、基本的な知識の評価を超えて、高レベルの言語理解に焦点を当てて LLM を評価することがますます重要になっています。
この研究では、英語、ドイツ語、韓国語、中国語向けに設計された、LLM の初の多言語プラグマティック評価である MultiPragEval を紹介します。
グライスの協力原理とその 4 つの会話格率に従って分類された 1200 の質問ユニットで構成される MultiPragEval は、LLM の文脈認識と暗黙の意味を推測する能力の詳細な評価を可能にします。
私たちの調査結果は、Claude3-Opus がテストされたすべての言語で他のモデルを大幅に上回り、この分野で最先端の技術を確立していることを示しています。
オープンソース モデルの中で、Solar-10.7B と Qwen1.5-14B が強力な競合相手として浮上します。
語用論的な推論を分析することで、AI システムにおける高度な言語理解に不可欠な機能についての貴重な洞察が得られます。
要約(オリジナル)
As the capabilities of Large Language Models (LLMs) expand, it becomes increasingly important to evaluate them beyond basic knowledge assessment, focusing on higher-level language understanding. This study introduces MultiPragEval, the first multilingual pragmatic evaluation of LLMs, designed for English, German, Korean, and Chinese. Comprising 1200 question units categorized according to Grice’s Cooperative Principle and its four conversational maxims, MultiPragEval enables an in-depth assessment of LLMs’ contextual awareness and their ability to infer implied meanings. Our findings demonstrate that Claude3-Opus significantly outperforms other models in all tested languages, establishing a state-of-the-art in the field. Among open-source models, Solar-10.7B and Qwen1.5-14B emerge as strong competitors. By analyzing pragmatic inference, we provide valuable insights into the capabilities essential for advanced language comprehension in AI systems.
arxiv情報
著者 | Dojun Park,Jiwoo Lee,Seohyun Park,Hyeyun Jeong,Youngeun Koo,Soonha Hwang,Seonwoo Park,Sungeun Lee |
発行日 | 2024-09-30 09:49:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google