StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

要約

大規模言語モデル (LLM) は近年目覚ましい進歩を遂げており、LLM と外部ツールを統合して現実世界のさまざまな課題に対処するツール学習の探求が促されています。
LLM のツール利用能力を評価するには、大規模で安定したベンチマークが必要です。
しかし、これまでの作品は、規模が限られた手作りのオンライン ツールか、API ステータスの不安定性に悩まされる大規模な実際のオンライン API に依存していました。
この問題を解決するために、ToolBench を進化させた仮想 API サーバーと安定した評価システムを提案するベンチマークである StableToolBench を紹介します。
仮想 API サーバーには、API ステータスの変化を軽減するために補完的なキャッシュ システムと API シミュレーターが含まれています。
一方、安定評価システムは、自動評価器として GPT-4 を使用して、評価時のランダム性を排除し、解決可能な合格率と勝率を設計します。
実験結果は StableToolBench の安定性を実証し、API シミュレーター、キャッシュ システム、および評価システムの有効性についてさらに説明します。

要約(オリジナル)

Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system.

arxiv情報

著者 Zhicheng Guo,Sijie Cheng,Hao Wang,Shihao Liang,Yujia Qin,Peng Li,Zhiyuan Liu,Maosong Sun,Yang Liu
発行日 2024-03-13 14:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク