AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents

要約

大規模言語モデル (LLM) による進歩により、複雑な複数ステップの推論タスクを解決できる LLM エージェントの追求が行われています。
他の研究の追求と同様、ベンチマークと評価は、効率的かつ確実に進歩するための重要な基礎となります。
ただし、既存のベンチマークは多くの場合、範囲が狭く、全体的なタスクの成功を単純に計算します。
これらの問題に対処するために、私たちは AgentQuest を提案します。このフレームワークでは、(i) ベンチマークとメトリクスの両方がモジュール式であり、十分に文書化された使いやすい API を通じて簡単に拡張できます。
(ii) タスクを解決する際に LLM エージェントの進行状況を確実に追跡できる 2 つの新しい評価指標を提供します。
ここでは、一般的な障害点を特定し、エージェント アーキテクチャを改良してパフォーマンスを大幅に向上させる 2 つの使用例でメトリクスの有用性を例示します。
研究コミュニティと協力して、AgentQuest をさらに拡張したいと考えており、https://github.com/nec-research/agentquest で利用できるようにしています。

要約(オリジナル)

The advances made by Large Language Models (LLMs) have led to the pursuit of LLM agents that can solve intricate, multi-step reasoning tasks. As with any research pursuit, benchmarking and evaluation are key corner stones to efficient and reliable progress. However, existing benchmarks are often narrow and simply compute overall task success. To face these issues, we propose AgentQuest — a framework where (i) both benchmarks and metrics are modular and easily extensible through well documented and easy-to-use APIs; (ii) we offer two new evaluation metrics that can reliably track LLM agent progress while solving a task. We exemplify the utility of the metrics on two use cases wherein we identify common failure points and refine the agent architecture to obtain a significant performance increase. Together with the research community, we hope to extend AgentQuest further and therefore we make it available under https://github.com/nec-research/agentquest.

arxiv情報

著者 Luca Gioacchini,Giuseppe Siracusano,Davide Sanvito,Kiril Gashteovski,David Friede,Roberto Bifulco,Carolin Lawrence
発行日 2024-04-09 16:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク