ACEBench: Who Wins the Match Point in Tool Learning?

要約

大規模言語モデル (LLM) は、特に複雑な問題を効果的に解決するさまざまなツールと組み合わせた場合に、意思決定と推論において大きな可能性を示しています。
ただし、LLM 関数呼び出し機能を評価するための既存の評価システムには、いくつかの制限があります。(1) 評価シナリオが限られており、実際のマルチターン対話コンテキストでの評価が不足しています。
(2) 評価の次元が狭く、きめの細かい関数呼び出しの詳細な評価が不足している。
(3) 結果の評価に LLM または実際の API の実行に依存するため、大幅なオーバーヘッドが発生します。
これらの課題に対処するために、私たちはACEBenchという総合評価システムを提案します。
このシステムは、幅広い関数呼び出しシナリオを包含するように細心の注意を払って設計されています。
さらに、これらのシナリオを評価方法に従って、通常、特別、およびエージェントの 3 つの主要なタイプに分類します。
Normal は、基本的なシナリオで関数呼び出しを評価します。
Special は、曖昧または不完全な命令を含むシナリオでの関数呼び出しを評価します。
エージェントは、現実世界のマルチターンインタラクションにおける関数呼び出しの評価をシミュレートするために、マルチエージェントインタラクションを導入します。
私たちは ACEBench で広範な実験を実施し、さまざまな LLM を詳細に分析し、さまざまなデータタイプにわたるエラー原因のより詳細な分析を実行しました。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant potential in decision-making and reasoning, especially when combined with various tools to effectively solve complex problems. However, existing evaluation systems for assessing LLM function calling capabilities have several limitations: (1) limited evaluation scenarios, lacking assessments in real multi-turn dialogue contexts; (2) narrow evaluation dimensions, lacking detailed assessments for fine-grained function calls; (3) relying on LLMs or real API executions for result evaluation, which introduces significant overhead. To address these issues, we propose a comprehensive evaluation system named ACEBench. This system is meticulously designed to encompass a wide spectrum of function calling scenarios. Moreover, it categorizes these scenarios into three primary types according to the evaluation methodology: Normal, Special, and Agent. Normal evaluates function calls in basic scenarios; Special evaluates function calls in scenarios with vague or incomplete instructions; Agent introduces multi-agent interactions to simulate function calling evaluation in real-world multi-turn interactions. We conducted extensive experiments on ACEBench, analyzing various LLMs in-depth and performing a more granular analysis of error causes across different data types.

arxiv情報

著者	Chen Chen,Xinlong Hao,Weiwen Liu,Xu Huang,Xingshan Zeng,Shuai Yu,Dexun Li,Shuai Wang,Weinan Gan,Yuefeng Huang,Xinzhi Wang,Defu Lian,Baoqun Yin,Yasheng Wang,Wu Liu
発行日	2025-01-22 12:59:08+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

ACEBench: Who Wins the Match Point in Tool Learning?

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー