要約
大規模な言語モデル(LLM)は、特に複雑な問題を効果的に解決するためにさまざまなツールと組み合わせると、意思決定と推論に大きな可能性を示しています。
ただし、LLM関数呼び出し機能を評価するための既存の評価システムには、いくつかの制限があります。(1)限られた評価シナリオ、実際のマルチターンダイアログコンテキストの評価がありません。
(2)狭い評価の寸法、細かい関数呼び出しの詳細な評価がない。
(3)結果評価のためにLLMSまたは実際のAPI実行に依存して、重要なオーバーヘッドを導入します。
これらの問題に対処するために、Acebenchという包括的な評価システムを提案します。
このシステムは、幅広い関数呼び出しシナリオを含むように細心の注意を払って設計されています。
さらに、これらのシナリオを、評価方法に従って、通常、特別、およびエージェントの3つの主要なタイプに分類します。
通常の基本シナリオでの関数呼び出しを評価します。
曖昧な指示または不完全な命令を使用して、シナリオの関数呼び出しを特別に評価します。
エージェントはマルチエージェント相互作用を導入して、実際のマルチターン相互作用における関数呼び出し評価をシミュレートします。
Acebenchで広範な実験を実施し、さまざまなLLMを詳細に分析し、異なるデータ型にわたってエラー原因のより詳細な分析を実行しました。
要約(オリジナル)
Large language models (LLMs) have demonstrated significant potential in decision-making and reasoning, especially when combined with various tools to effectively solve complex problems. However, existing evaluation systems for assessing LLM function calling capabilities have several limitations: (1) limited evaluation scenarios, lacking assessments in real multi-turn dialogue contexts; (2) narrow evaluation dimensions, lacking detailed assessments for fine-grained function calls; (3) relying on LLMs or real API executions for result evaluation, which introduces significant overhead. To address these issues, we propose a comprehensive evaluation system named ACEBench. This system is meticulously designed to encompass a wide spectrum of function calling scenarios. Moreover, it categorizes these scenarios into three primary types according to the evaluation methodology: Normal, Special, and Agent. Normal evaluates function calls in basic scenarios; Special evaluates function calls in scenarios with vague or incomplete instructions; Agent introduces multi-agent interactions to simulate function calling evaluation in real-world multi-turn interactions. We conducted extensive experiments on ACEBench, analyzing various LLMs in-depth and performing a more granular analysis of error causes across different data types.
arxiv情報
著者 | Chen Chen,Xinlong Hao,Weiwen Liu,Xu Huang,Xingshan Zeng,Shuai Yu,Dexun Li,Shuai Wang,Weinan Gan,Yuefeng Huang,Wulong Liu,Xinzhi Wang,Defu Lian,Baoqun Yin,Yasheng Wang,Wu Liu |
発行日 | 2025-01-30 14:36:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google