ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

要約

リアルタイム API を使用して大規模言語モデル (LLM) を強化すると、より正確で最新の応答を生成できます。
ただし、現実世界のシナリオにおける LLM の関数呼び出し能力の評価は、データ収集と評価の複雑さのため、依然として研究が進んでいません。
この作業では、5 つの実際のシナリオにわたる複雑な関数呼び出しのベンチマークである ComplexFuncBench を紹介します。
既存のベンチマークと比較すると、ComplexFuncBench はマルチステップおよび制約付きの関数呼び出しを包含しており、これには長いパラメーター ファイリング、パラメーター値の推論、および 128k の長いコンテキストが必要です。
さらに、複雑な関数呼び出しタスクを定量的に評価するための自動フレームワーク ComplexEval を提案します。
包括的な実験を通じて、関数呼び出しにおける最先端の LLM の欠陥を実証し、これらの機能を最適化するための将来の方向性を提案します。
データとコードは \url{https://github.com/THUDM/ComplexFuncBench} で入手できます。

要約(オリジナル)

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at \url{https://github.com/THUDM/ComplexFuncBench}.

arxiv情報

著者 Lucen Zhong,Zhengxiao Du,Xiaohan Zhang,Haiyi Hu,Jie Tang
発行日 2025-01-17 11:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク