要約
タイトル:API-Bank:ツール補完型LLMのベンチマーク
要約:
– LLM(Large Language Models)は、外部ツールを利用して文脈処理能力を向上させ、人工知能一般(AGI)に向けて展開しています。
– しかし、LLMがツールを使用して人間の指示に応える効果を示すための体系的な評価には不足があります。
– 本論文では、ツール補完型LLM向けに最初のベンチマークであるAPI-Bankを提示しています。
– API-Bankには、53種類の一般的に使用されるAPIツール、完全なツール補完型LLMワークフロー、および合計568のAPI呼び出しを含む264の注釈付き対話が含まれています。
– これらのリソースは、LLMsのAPI呼び出しのステップバイステップの計画能力、関連するAPIの取得能力、および人間のニーズを満たすための正しいAPI呼び出しの実行能力を徹底的に評価するために設計されています。
– 実験結果は、GPT3に比べてGPT-3.5がツールを使用する能力が出現し、GPT-4はより強い計画能力を持つことを示しています。
– ただし、人間の能力と比較して、大きな改善の余地が残っています。
– 加えて、詳細なエラー分析と事例研究により、ツール補完型LLMを日常的に使用することの可能性、および将来の研究が取り組む必要がある主要な課題が示されています。
要約(オリジナル)
Recent research has shown that Large Language Models (LLMs) can utilize external tools to improve their contextual processing abilities, moving away from the pure language modeling paradigm and paving the way for Artificial General Intelligence. Despite this, there has been a lack of systematic evaluation to demonstrate the efficacy of LLMs using tools to respond to human instructions. This paper presents API-Bank, the first benchmark tailored for Tool-Augmented LLMs. API-Bank includes 53 commonly used API tools, a complete Tool-Augmented LLM workflow, and 264 annotated dialogues that encompass a total of 568 API calls. These resources have been designed to thoroughly evaluate LLMs’ ability to plan step-by-step API calls, retrieve relevant APIs, and correctly execute API calls to meet human needs. The experimental results show that GPT-3.5 emerges the ability to use the tools relative to GPT3, while GPT-4 has stronger planning performance. Nevertheless, there remains considerable scope for further improvement when compared to human performance. Additionally, detailed error analysis and case studies demonstrate the feasibility of Tool-Augmented LLMs for daily use, as well as the primary challenges that future research needs to address.
arxiv情報
著者 | Minghao Li,Feifan Song,Bowen Yu,Haiyang Yu,Zhoujun Li,Fei Huang,Yongbin Li |
発行日 | 2023-04-14 14:05:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI