要約
近年、ラージ言語モデル(LLM)の目覚ましい進歩により、ユーザーの指示で記述された複雑なタスクをサブタスクに分解し、外部ツールを呼び出して実行するタスク自動化への関心が高まっており、自律エージェントの中心的な役割を果たしています。
しかし、タスク自動化における LLM の開発を促進するための体系的で標準化されたベンチマークが不足しています。
これに対処するために、タスク自動化における LLM の機能を評価するための包括的なフレームワークである TaskBench を導入します。
具体的には、タスクの自動化は、タスクの分解、ツールの選択、パラメーターの予測という 3 つの重要な段階に分けることができます。
これらの段階に固有の複雑さに対処するために、分解されたタスクを表すツール グラフの概念を導入し、高品質のユーザー指示を生成するための逆指示メソッドを採用します。
私たちは、これら 3 つの段階にわたって LLM のパフォーマンスを評価する多面的な評価方法である TaskEval を提案します。
当社のアプローチは、自動化された構築と人間による厳密な検証を組み合わせたもので、人間による評価との高い一貫性を保証します。
実験結果は、TaskBench がタスク自動化におけるさまざまな LLM の機能を効果的に反映していることを示しています。
これは、さまざまなタスクの複雑さとドメインにわたるモデルのパフォーマンスに関する洞察を提供し、現在のモデルが達成できる限界を押し広げます。
TaskBench は、LLM ベースの自律エージェントを進化させるための、スケーラブルで適応性があり、信頼性の高いベンチマークを提供します。
要約(オリジナル)
In recent years, the remarkable progress of large language models (LLMs) has sparked interest in task automation, which involves decomposing complex tasks described by user instructions into sub-tasks and invoking external tools to execute them, playing a central role in autonomous agents. However, there is a lack of systematic and standardized benchmarks to promote the development of LLMs in task automation. To address this, we introduce TaskBench, a comprehensive framework to evaluate the capability of LLMs in task automation. Specifically, task automation can be divided into three critical stages: task decomposition, tool selection, and parameter prediction. To tackle the complexities inherent in these stages, we introduce the concept of Tool Graph to represent decomposed tasks and adopt a back-instruct method to generate high-quality user instructions. We propose TaskEval, a multi-faceted evaluation methodology that assesses LLM performance across these three stages. Our approach combines automated construction with rigorous human verification, ensuring high consistency with human evaluation. Experimental results demonstrate that TaskBench effectively reflects the capabilities of various LLMs in task automation. It provides insights into model performance across different task complexities and domains, pushing the boundaries of what current models can achieve. TaskBench offers a scalable, adaptable, and reliable benchmark for advancing LLM-based autonomous agents.
arxiv情報
著者 | Yongliang Shen,Kaitao Song,Xu Tan,Wenqi Zhang,Kan Ren,Siyu Yuan,Weiming Lu,Dongsheng Li,Yueting Zhuang |
発行日 | 2024-10-31 16:12:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google