要約
大規模言語モデル (LLM) の分野の急速な発展により、人間の日常業務を支援するために複数のエージェント間のコラボレーションを促進するアプリケーションが急増しています。
ただし、LLM を利用したアプリケーションがユーザー エクスペリエンスとタスクの実行効率を本当に向上させるかどうかを評価するには、依然として大きなギャップが残っています。
これは、特にアプリケーションの機能とエンドユーザーのニーズとの整合性を確保することによって、LLM を利用したアプリケーションの有用性を検証する方法の緊急の必要性を浮き彫りにしています。
AgentEval は、特定のアプリケーション固有の目的に合わせた一連の基準を自動的に提案することで、ユーティリティ検証プロセスを簡素化するように設計された新しいフレームワークです。
これにより、提案された基準に照らしてアプリケーションの有用性を定量化する、包括的な評価が可能になります。
量化子の動作の堅牢性の包括的な分析を示します。
要約(オリジナル)
The rapid development in the field of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents to assist humans in their daily tasks. However, a significant gap remains in assessing whether LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the pressing need for methods to verify utility of LLM-powered applications, particularly by ensuring alignment between the application’s functionality and end-user needs. We introduce AgentEval provides an implementation for the math problems}, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the robustness of quantifier’s work.
arxiv情報
著者 | Negar Arabzadeh,Julia Kiseleva,Qingyun Wu,Chi Wang,Ahmed Awadallah,Victor Dibia,Adam Fourney,Charles Clarke |
発行日 | 2024-02-15 18:24:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google