要約
大規模言語モデル(LLM)の急速な発展により、複数のエージェント間のコラボレーションを促進し、人間の日常業務を支援するアプリケーションが急増している。しかし、LLMを利用したアプリケーションが、どの程度ユーザーエクスペリエンスとタスク実行効率を純粋に向上させるかを評価するには、大きな隔たりが残っています。このことは、LLMを利用したアプリケーションの有用性を検証する必要性、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保する必要性を浮き彫りにしています。我々は、AgentEvalを紹介します。AgentEvalは、与えられたアプリケーションのユニークな目的に合わせた基準のセットを自動的に提案することにより、実用性の検証プロセスを簡素化するように設計された新しいフレームワークです。これにより、提案された基準に照らしてアプリケーションの有用性を定量化し、包括的な評価を行うことができます。我々は、数学の問題解決とALFWorldの家事関連タスクを含む2つのオープンソースデータセットに対するAgentEvalの有効性と頑健性の包括的な分析を提示する。再現性を目的として、データ、コード、すべてのログを https://bit.ly/3w3yKcS で公開しています。
要約(オリジナル)
The rapid development of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents, assisting humans in their daily tasks. However, a significant gap remains in assessing to what extent LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the need to verify utility of LLM-powered applications, particularly by ensuring alignment between the application’s functionality and end-user needs. We introduce AgentEval, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the effectiveness and robustness of AgentEval for two open source datasets including Math Problem solving and ALFWorld House-hold related tasks. For reproducibility purposes, we make the data, code and all the logs publicly available at https://bit.ly/3w3yKcS .
arxiv情報
著者 | Negar Arabzadeh,Siging Huo,Nikhil Mehta,Qinqyun Wu,Chi Wang,Ahmed Awadallah,Charles L. A. Clarke,Julia Kiseleva |
発行日 | 2024-05-03 15:26:27+00:00 |
arxivサイト | arxiv_id(pdf) |