AgentBench: Evaluating LLMs as Agents

要約

大規模言語モデル (LLM) はますますスマートかつ自律的になり、従来の NLP タスクを超えた現実世界の実用的なミッションをターゲットにしています。
その結果、対話型環境における困難なタスクのエージェントとして LLM を評価することが緊急に必要となっています。
我々は、多次元で進化するベンチマークである AgentBench を紹介します。これは現在 8 つの異なる環境で構成されており、マルチターンのオープンエンド生成設定におけるエージェントとしての LLM の推論と意思決定の能力を評価します。
25 の LLM (API およびオープンソース モデルを含む) にわたる広範なテストでは、トップの商用 LLM は複雑な環境でエージェントとして機能する強力な能力を示しますが、オープンソースの競合他社との間にはパフォーマンスに大きな差があることがわかりました。
また、体系的な LLM 評価に向けてより広範囲に適用され、より深い検討が行われる進行中のプロジェクトのコンポーネントとしても機能します。
AgentBench のデータセット、環境、および統合評価パッケージは、https://github.com/THUDM/AgentBench でリリースされています。

要約(オリジナル)

Large Language Models (LLMs) are becoming increasingly smart and autonomous, targeting real-world pragmatic missions beyond traditional NLP tasks. As a result, there has been an urgent need to evaluate LLMs as agents on challenging tasks in interactive environments. We present AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent’s reasoning and decision-making abilities in a multi-turn open-ended generation setting. Our extensive test over 25 LLMs (including APIs and open-sourced models) shows that, while top commercial LLMs present a strong ability of acting as agents in complex environments, there is a significant disparity in performance between them and open-sourced competitors. It also serves as a component of an ongoing project with wider coverage and deeper consideration towards systematic LLM evaluation. Datasets, environments, and an integrated evaluation package for AgentBench are released at https://github.com/THUDM/AgentBench

arxiv情報

著者 Xiao Liu,Hao Yu,Hanchen Zhang,Yifan Xu,Xuanyu Lei,Hanyu Lai,Yu Gu,Hangliang Ding,Kaiwen Men,Kejuan Yang,Shudan Zhang,Xiang Deng,Aohan Zeng,Zhengxiao Du,Chenhui Zhang,Sheng Shen,Tianjun Zhang,Yu Su,Huan Sun,Minlie Huang,Yuxiao Dong,Jie Tang
発行日 2023-08-07 16:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク