T-Eval: Evaluating the Tool Utilization Capability Step by Step

要約

大規模言語モデル (LLM) は、さまざまな NLP タスクで顕著なパフォーマンスを達成しており、より広範なアプリケーション向けのツールによって強化されています。
しかし、LLM のツール利用能力を評価および分析する方法はまだ研究されていません。
モデルを総合的に評価する以前の研究とは対照的に、私たちはツールの利用を、指示への従う、計画、推論、検索、理解、レビューを含む複数のサブプロセスに包括的に分解します。
それに基づいて、ツールの利用能力を段階的に評価する \shortname~ をさらに導入します。
\shortname~ は、ツールの使用状況の評価をモデルの機能に沿っていくつかのサブドメインに分解し、LLM の全体的なコンピテンシーと個別のコンピテンシーの両方についての内部理解を容易にします。
私たちは \shortname~ に関する広範な実験と、さまざまな LLM の詳細な分析を行っています。
\shortname~ は、結果指向の評価との一貫性を示すだけでなく、LLM の能力のより詳細な分析も提供し、ツール利用能力に関する LLM 評価に新しい視点を提供します。
ベンチマークは \href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval} で入手できます。

要約(オリジナル)

Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce \shortname~to evaluate the tool utilization capability step by step. \shortname~disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on \shortname~and in-depth analysis of various LLMs. \shortname~ not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at \href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval}.

arxiv情報

著者 Zehui Chen,Weihua Du,Wenwei Zhang,Kuikun Liu,Jiangning Liu,Miao Zheng,Jingming Zhuo,Songyang Zhang,Dahua Lin,Kai Chen,Feng Zhao
発行日 2023-12-21 17:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク