要約
大規模言語モデル (LLM) の出力を評価することは、パフォーマンスの高い複合 AI システムを構築する上で最も重要な側面の 1 つです。
LLM からの出力は下流のステップに伝播するため、LLM エラーを特定することはシステムのパフォーマンスにとって非常に重要です。
AI システムにおける LLM の一般的なタスクは、ツールの使用です。
このタスクに関して LLM を評価するためのベンチマーク環境はいくつかありますが、通常は成功率のみが示され、失敗ケースの説明はありません。
この問題を解決するために、ツール使用タスクの LLM 出力のエラー パターンを特定する新しいベンチマークである SpecTool を導入します。
当社のベンチマーク データ セットは、新たに特徴付けられた 7 つのエラー パターンの存在をテストするために使用できる、さまざまな環境からのクエリで構成されています。
SPECTOOL を使用すると、最も著名な LLM でも出力にこれらのエラー パターンが見られることがわかります。
研究者は、SPECTOOL からの分析と洞察を使用して、エラー軽減戦略をガイドできます。
要約(オリジナル)
Evaluating the output of Large Language Models (LLMs) is one of the most critical aspects of building a performant compound AI system. Since the output from LLMs propagate to downstream steps, identifying LLM errors is crucial to system performance. A common task for LLMs in AI systems is tool use. While there are several benchmark environments for evaluating LLMs on this task, they typically only give a success rate without any explanation of the failure cases. To solve this problem, we introduce SpecTool, a new benchmark to identify error patterns in LLM output on tool-use tasks. Our benchmark data set comprises of queries from diverse environments that can be used to test for the presence of seven newly characterized error patterns. Using SPECTOOL , we show that even the most prominent LLMs exhibit these error patterns in their outputs. Researchers can use the analysis and insights from SPECTOOL to guide their error mitigation strategies.
arxiv情報
著者 | Shirley Kokane,Ming Zhu,Tulika Awalgaonkar,Jianguo Zhang,Thai Hoang,Akshara Prabhakar,Zuxin Liu,Tian Lan,Liangwei Yang,Juntao Tan,Rithesh Murthy,Weiran Yao,Zhiwei Liu,Juan Carlos Niebles,Huan Wang,Shelby Heinecke,Caiming Xiong,Silivo Savarese |
発行日 | 2024-11-20 18:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google