TaskBench: Benchmarking Large Language Models for Task Automation

要約

近年、大規模言語モデル(LLM)の目覚ましい発展により、ユーザの指示により記述された複雑なタスクをサブタスクに分解し、外部ツールを呼び出して実行するタスク自動化への関心が高まっており、自律型エージェントの中心的な役割を担っている。しかし、タスク自動化におけるLLMの開発を促進するための体系的で標準化されたベンチマークが不足している。これに対処するため、タスク自動化におけるLLMの能力を評価する包括的なフレームワークであるTaskBenchを紹介する。具体的には、タスク自動化は、タスク分解、ツール選択、パラメータ予測の3つの重要な段階に分けられる。これらの段階に内在する複雑さに対処するために、分解されたタスクを表現するためのツールグラフの概念を導入し、高品質なユーザ命令を生成するためのバックインストラクト法を採用する。これらの3つの段階にわたってLLMの性能を評価する多面的な評価手法であるTaskEvalを提案する。我々のアプローチは、自動構築と厳格な人間による検証を組み合わせ、人間による評価との高い整合性を保証する。実験結果は、TaskBenchがタスク自動化における様々なLLMの能力を効果的に反映することを示している。TaskBenchは、さまざまなタスクの複雑性とドメインにわたるモデルの性能に関する洞察を提供し、現在のモデルが達成できることの限界を押し広げる。TaskBenchは、LLMベースの自律型エージェントを発展させるための、スケーラブルで適応性が高く、信頼性の高いベンチマークを提供する。

要約(オリジナル)

In recent years, the remarkable progress of large language models (LLMs) has sparked interest in task automation, which involves decomposing complex tasks described by user instructions into sub-tasks and invoking external tools to execute them, playing a central role in autonomous agents. However, there is a lack of systematic and standardized benchmarks to promote the development of LLMs in task automation. To address this, we introduce TaskBench, a comprehensive framework to evaluate the capability of LLMs in task automation. Specifically, task automation can be divided into three critical stages: task decomposition, tool selection, and parameter prediction. To tackle the complexities inherent in these stages, we introduce the concept of Tool Graph to represent decomposed tasks and adopt a back-instruct method to generate high-quality user instructions. We propose TaskEval, a multi-faceted evaluation methodology that assesses LLM performance across these three stages. Our approach combines automated construction with rigorous human verification, ensuring high consistency with human evaluation. Experimental results demonstrate that TaskBench effectively reflects the capabilities of various LLMs in task automation. It provides insights into model performance across different task complexities and domains, pushing the boundaries of what current models can achieve. TaskBench offers a scalable, adaptable, and reliable benchmark for advancing LLM-based autonomous agents.

arxiv情報

著者 Yongliang Shen,Kaitao Song,Xu Tan,Wenqi Zhang,Kan Ren,Siyu Yuan,Weiming Lu,Dongsheng Li,Yueting Zhuang
発行日 2024-11-01 14:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク