StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs

要約

大規模な言語モデル(LLMS)の急速な進歩は、LLMが複雑なタスクに取り組むために外部ツールで増強されているツール学習に大きな関心を抱いています。
ただし、既存のツール環境は、特にベンチマークの目的で、安定性、スケーラビリティ、および現実のバランスをとる上で課題に直面しています。
この問題に対処するために、Mirrorapiを提案します。Mirrorapiは、実際のAPI応答を正確にシミュレートし、ツール環境に「ミラー」として機能するように特殊なLLMSを訓練する新しいフレームワークであることを提案します。
7,000以上のAPIからのリクエスト応答ペアの包括的なデータセットを使用して、シミュレーションの忠実度を高めるために、監視された微調整とチェーンの推論を採用しています。
Mirrorapiは、新しく構築されたMirrorapi-BenchでのパフォーマンスとStabletoolbenchへの統合によって示されるように、最先端の方法と比較して優れた精度と安定性を実現します。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has spurred significant interest in tool learning, where LLMs are augmented with external tools to tackle complex tasks. However, existing tool environments face challenges in balancing stability, scalability, and realness, particularly for benchmarking purposes. To address this problem, we propose MirrorAPI, a novel framework that trains specialized LLMs to accurately simulate real API responses, effectively acting as ‘mirrors’ to tool environments. Using a comprehensive dataset of request-response pairs from 7,000+ APIs, we employ supervised fine-tuning and chain-of-thought reasoning to enhance simulation fidelity. MirrorAPI achieves superior accuracy and stability compared to state-of-the-art methods, as demonstrated by its performance on the newly constructed MirrorAPI-Bench and its integration into StableToolBench.

arxiv情報

著者 Zhicheng Guo,Sijie Cheng,Yuchen Niu,Hao Wang,Sicheng Zhou,Wenbing Huang,Yang Liu
発行日 2025-03-26 13:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク