要約
大規模な言語モデル(LLM)エージェントは、実際のアプリケーションでLLMの高度な推論機能を活用しています。
環境とインターフェイスするために、これらのエージェントは、多くの場合、Web検索やデータベースAPIなどのツールに依存しています。
エージェントは、ユーザークエリに沿ったツールドキュメントをLLMに提供するため、このドキュメントの完全性と正確性が重要です。
ただし、ツールのドキュメントは、多くの場合、エージェントの正確性を妨げて、過剰、下、または不法化されています。
標準的なソフトウェアテストアプローチは、これらのエラーが自然言語で表現されているため、これらのエラーを特定するのに苦労しています。
したがって、その重要性にもかかわらず、現在、エージェントのツールドキュメントをテストする自動化された方法はありません。
この問題に対処するために、ツールドキュメントの自動テストの最初の方法であるToolfuzzを提示します。
Toolfuzzは、2つのタイプのエラーを発見するように設計されています。(1)ツールランタイムエラーにつながるユーザークエリと、(2)エージェントの応答が誤っていないユーザークエリ。
ツールフーズは、大きくて多様な自然入力セットを生成し、低い誤った陽性レートでツールの説明エラーを効果的に見つけることができます。
さらに、2つの簡単なプロンプトエンジニアリングアプローチを提示します。
評価をさらに強化するために、32の一般的なラングチェーンツールと35の新しく作成されたカスタムツールと2つの新しいベンチマークに関する3つのツールテストアプローチすべてを評価します。
多くの公開されているツールは、不足していることに苦しんでいることがわかります。
具体的には、Toolfuzzがプロンプトエンジニアリングアプローチと比較して20倍の誤った入力を識別し、信頼できるAIエージェントを構築するための重要なコンポーネントになることを示します。
要約(オリジナル)
Large Language Model (LLM) Agents leverage the advanced reasoning capabilities of LLMs in real-world applications. To interface with an environment, these agents often rely on tools, such as web search or database APIs. As the agent provides the LLM with tool documentation along the user query, the completeness and correctness of this documentation is critical. However, tool documentation is often over-, under-, or ill-specified, impeding the agent’s accuracy. Standard software testing approaches struggle to identify these errors as they are expressed in natural language. Thus, despite its importance, there currently exists no automated method to test the tool documentation for agents. To address this issue, we present ToolFuzz, the first method for automated testing of tool documentations. ToolFuzz is designed to discover two types of errors: (1) user queries leading to tool runtime errors and (2) user queries that lead to incorrect agent responses. ToolFuzz can generate a large and diverse set of natural inputs, effectively finding tool description errors at a low false positive rate. Further, we present two straightforward prompt-engineering approaches. We evaluate all three tool testing approaches on 32 common LangChain tools and 35 newly created custom tools and 2 novel benchmarks to further strengthen the assessment. We find that many publicly available tools suffer from underspecification. Specifically, we show that ToolFuzz identifies 20x more erroneous inputs compared to the prompt-engineering approaches, making it a key component for building reliable AI agents.
arxiv情報
著者 | Ivan Milev,Mislav Balunović,Maximilian Baader,Martin Vechev |
発行日 | 2025-03-11 14:28:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google