要約
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を達成しており、より幅広い応用のためにツールによって増強されている。しかし、LLMのツール利用能力をどのように評価・分析するかは、まだ十分に研究されていない。モデルを総合的に評価する先行研究とは対照的に、我々は、ツールの利用を、命令追従、計画、推論、検索、理解、レビューを含む複数のサブプロセスに包括的に分解する。それに基づいて、さらにT-Evalを導入し、ツールの利用能力を段階的に評価する。T-Evalは、ツール利用評価をモデル能力に沿った複数のサブドメインに分離し、LLMの全体的な能力と孤立した能力の両方の内部理解を容易にする。我々は、T-Evalの広範な実験と様々なLLMの詳細な分析を行った。T-Evalは、結果指向の評価との整合性を示すだけでなく、LLMの能力をよりきめ細かく分析し、ツールの利用能力に関するLLM評価の新たな視点を提供する。ベンチマークはhttps://github.com/open-compass/T-Eval。
要約(オリジナル)
Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce T-Eval to evaluate the tool utilization capability step by step. T-Eval disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on T-Eval and in-depth analysis of various LLMs. T-Eval not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at https://github.com/open-compass/T-Eval.
arxiv情報
著者 | Zehui Chen,Weihua Du,Wenwei Zhang,Kuikun Liu,Jiangning Liu,Miao Zheng,Jingming Zhuo,Songyang Zhang,Dahua Lin,Kai Chen,Feng Zhao |
発行日 | 2024-01-04 05:11:22+00:00 |
arxivサイト | arxiv_id(pdf) |