要約
大規模言語モデル (LLM) は主に、さまざまなテキストの理解および生成タスクにおける全体的なパフォーマンスによって評価されます。
しかし、そのようなパラダイムでは、きめの細かい言語と認知スキルを包括的に区別することができず、LLM の能力に対する十分な解釈が不足します。
この論文では、きめ細かく認知に基づいた LLM の能力評価のためのフレームワークである FAC$^2$E を紹介します。
具体的には、言語関連能力と認知関連能力を分離することにより、LLM の評価を多次元かつ説明可能な方法で定式化します。
さらに、LLM から中間推論を抽出することで、特定の機能を適用するプロセスを、関連する知識の想起、知識の利用、問題の解決という 3 つのサブステップにさらに分割します。
最後に、FAC$^2$E は、各詳細な機能の各サブステップを評価し、LLM の 2 つの側面からの診断を提供します。
FAC$^2$E を利用して、モデル間の知識利用における共通の不足を特定し、この問題を軽減するための簡単で知識を強化した方法を提案します。
私たちの結果は、有望なパフォーマンス向上を示すだけでなく、将来の LLM の進歩の方向性も強調しています。
要約(オリジナル)
Large language models (LLMs) are primarily evaluated by overall performance on various text understanding and generation tasks. However, such a paradigm fails to comprehensively differentiate the fine-grained language and cognitive skills, rendering the lack of sufficient interpretation to LLMs’ capabilities. In this paper, we present FAC$^2$E, a framework for Fine-grAined and Cognition-grounded LLMs’ Capability Evaluation. Specifically, we formulate LLMs’ evaluation in a multi-dimensional and explainable manner by dissociating the language-related capabilities and the cognition-related ones. Besides, through extracting the intermediate reasoning from LLMs, we further break down the process of applying a specific capability into three sub-steps: recalling relevant knowledge, utilizing knowledge, and solving problems. Finally, FAC$^2$E evaluates each sub-step of each fine-grained capability, providing a two-faceted diagnosis for LLMs. Utilizing FAC$^2$E, we identify a common shortfall in knowledge utilization among models and propose a straightforward, knowledge-enhanced method to mitigate this issue. Our results not only showcase promising performance enhancements but also highlight a direction for future LLM advancements.
arxiv情報
著者 | Xiaoqiang Wang,Lingfei Wu,Tengfei Ma,Bang Liu |
発行日 | 2024-10-07 15:44:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google