要約
大規模言語モデル (LLM) の出力を評価することは、パフォーマンスの高い複合 AI システムを構築する上で最も重要な側面の 1 つです。
LLM からの出力は下流のステップに伝播するため、LLM エラーを特定することはシステムのパフォーマンスにとって非常に重要です。
AI システムにおける LLM の一般的なタスクは、ツールの使用です。
このタスクに関して LLM を評価するためのベンチマーク環境はいくつかありますが、通常は成功率のみが示され、失敗ケースの説明はありません。
この問題を解決するために、ツール使用タスクの LLM 出力のエラー パターンを特定する新しいベンチマークである SpecTool を導入します。
当社のベンチマーク データ セットは、新たに特徴付けられた 7 つのエラー パターンの存在をテストするために使用できる、さまざまな環境からのクエリで構成されています。
SPECTOOL を使用すると、最も著名な LLM でも出力にこれらのエラー パターンが見られることがわかります。
研究者は、SPECTOOL からの分析と洞察を使用して、エラー軽減戦略をガイドできます。
要約(オリジナル)
Evaluating the output of Large Language Models (LLMs) is one of the most critical aspects of building a performant compound AI system. Since the output from LLMs propagate to downstream steps, identifying LLM errors is crucial to system performance. A common task for LLMs in AI systems is tool use. While there are several benchmark environments for evaluating LLMs on this task, they typically only give a success rate without any explanation of the failure cases. To solve this problem, we introduce SpecTool, a new benchmark to identify error patterns in LLM output on tool-use tasks. Our benchmark data set comprises of queries from diverse environments that can be used to test for the presence of seven newly characterized error patterns. Using SPECTOOL , we show that even the most prominent LLMs exhibit these error patterns in their outputs. Researchers can use the analysis and insights from SPECTOOL to guide their error mitigation strategies.
arxiv情報
| 著者 | Shirley Kokane,Ming Zhu,Tulika Awalgaonkar,Jianguo Zhang,Thai Hoang,Akshara Prabhakar,Zuxin Liu,Tian Lan,Liangwei Yang,Juntao Tan,Rithesh Murthy,Weiran Yao,Zhiwei Liu,Juan Carlos Niebles,Huan Wang,Shelby Heinecke,Caiming Xiong,Silivo Savarese |
| 発行日 | 2024-11-20 18:56:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google