要約
最近、大規模言語モデル (LLM) の驚異的な進歩により、ユーザーの指示によって記述された複雑なタスクをサブタスクに分解し、外部ツールを呼び出して実行するタスク自動化の火付け役となり、自律エージェントの中心的な役割を果たします。
。
しかし、タスク自動化における LLM の開発を促進するための体系的で標準化されたベンチマークが不足しています。
この目的を達成するために、タスク自動化における LLM の機能を評価する TaskBench を導入します。
具体的には、タスクの自動化は、ユーザーの意図を満たすためのタスクの分解、ツールの呼び出し、パラメーターの予測という 3 つの重要な段階に定式化できます。
この複雑さにより、一般的な NLP タスクに比べてデータの収集と評価がより困難になります。
高品質な評価データセットを生成するために、ユーザーの意図に応じてタスクを分解して表現するツール グラフの概念を導入し、ユーザーの指示とアノテーションをシミュレートするバック指示手法を採用します。
さらに、タスクの分解、ツールの呼び出し、パラメーターの予測など、さまざまな側面から LLM の機能を評価する TaskEval を提案します。
実験結果は、TaskBench がタスク自動化における LLM の機能を効果的に反映できることを示しています。
TaskBench は、自動化されたデータ構築と人間による検証を組み合わせることで、人間による評価と比較して高い一貫性を実現し、LLM ベースの自律エージェントの包括的かつ忠実なベンチマークとして利用できます。
要約(オリジナル)
Recently, the incredible progress of large language models (LLMs) has ignited the spark of task automation, which decomposes the complex tasks described by user instructions into sub-tasks, and invokes external tools to execute them, and plays a central role in autonomous agents. However, there lacks a systematic and standardized benchmark to foster the development of LLMs in task automation. To this end, we introduce TaskBench to evaluate the capability of LLMs in task automation. Specifically, task automation can be formulated into three critical stages: task decomposition, tool invocation, and parameter prediction to fulfill user intent. This complexity makes data collection and evaluation more challenging compared to common NLP tasks. To generate high-quality evaluation datasets, we introduce the concept of Tool Graph to represent the decomposed tasks in user intent, and adopt a back-instruct method to simulate user instruction and annotations. Furthermore, we propose TaskEval to evaluate the capability of LLMs from different aspects, including task decomposition, tool invocation, and parameter prediction. Experimental results demonstrate that TaskBench can effectively reflects the capability of LLMs in task automation. Benefiting from the mixture of automated data construction and human verification, TaskBench achieves a high consistency compared to the human evaluation, which can be utilized as a comprehensive and faithful benchmark for LLM-based autonomous agents.
arxiv情報
著者 | Yongliang Shen,Kaitao Song,Xu Tan,Wenqi Zhang,Kan Ren,Siyu Yuan,Weiming Lu,Dongsheng Li,Yueting Zhuang |
発行日 | 2023-11-30 18:02:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google