GTA: A Benchmark for General Tool Agents

要約

汎用エージェントの開発では、大規模言語モデル (LLM) とさまざまなツールを統合することに重点が置かれています。
これは、LLM のツール使用能力に課題をもたらします。
ただし、既存のツール使用評価と現実世界のシナリオの間には明らかなギャップがあります。
現在の評価では、AI が生成したクエリ、シングルステップ タスク、ダミー ツール、テキストのみの対話が使用されることが多く、エージェントの現実世界の問題解決能力を効果的に明らかにすることはできません。
これに対処するために、私たちは、汎用ツール エージェントのベンチマークである GTA を提案します。これは、次の 3 つの主要な側面を備えています。 (i) 実際のユーザー クエリ: 単純な現実世界の目的を持つ人間が作成したクエリですが、暗黙的なツールの使用があり、LLM が適切なクエリを推論する必要があります。
ツールを使用して解決手順を計画します。
(ii) 実際に導入されたツール: エージェントの実際のタスク実行パフォーマンスを評価するための、認識、操作、ロジック、および創造性のカテゴリにわたるツールを備えた評価プラットフォーム。
(iii) 実際のマルチモーダル入力: 空間シーン、Web ページのスクリーンショット、表、コード スニペット、印刷物/手書き資料などの本物の画像ファイル。現実世界のシナリオと厳密に一致させるためのクエリ コンテキストとして使用されます。
私たちは、主流の LLM を評価するために 229 の現実世界のタスクと実行可能なツール チェーンを設計します。
私たちの調査結果では、実際のユーザー クエリは既存の LLM にとって困難であり、GPT-4 が完了するタスクの割合は 50% 未満であり、ほとんどの LLM の達成率は 25% 未満であることがわかりました。
この評価により、現実世界のシナリオにおける現在の LLM のツール使用機能のボトルネックが明らかになり、汎用ツール エージェントを進歩させるための将来の方向性が示されます。
コードとデータセットは https://github.com/open-compass/GTA で入手できます。

要約(オリジナル)

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs’ tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents’ real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents’ actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

arxiv情報

著者 Jize Wang,Zerun Ma,Yining Li,Songyang Zhang,Cailian Chen,Kai Chen,Xinyi Le
発行日 2024-07-11 17:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク