ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions

要約

大規模な言語モデル(LLMS)は、外部ツールを使用してユーザーの問い合わせに対処するための強力な機能を実証しています。
ただし、ほとんどの既存の評価は、短いコンテキストでツールの使用を想定しており、現実的な長期的な相互作用中のモデル行動に関する限られた洞察を提供します。
このギャップを埋めるために、ToolhayStackを紹介します。これは、長期的な相互作用でツール使用機能をテストするためのベンチマークです。
ToolhayStackの各テストインスタンスには、継続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズが含まれており、モデルがコンテキストを維持し、さまざまな混乱を処理する方法の評価を可能にします。
このベンチマークを14の最先端のLLMに適用することにより、現在のモデルは標準的なマルチターン設定でうまく機能しますが、ツールヘイスタックで大幅に苦労し、以前のツールベンチマークでは明らかにされていない長期的な堅牢性の重要なギャップを強調することがよくあります。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong capabilities in using external tools to address user inquiries. However, most existing evaluations assume tool use in short contexts, offering limited insight into model behavior during realistic long-term interactions. To fill this gap, we introduce ToolHaystack, a benchmark for testing the tool use capabilities in long-term interactions. Each test instance in ToolHaystack includes multiple tasks execution contexts and realistic noise within a continuous conversation, enabling assessment of how well models maintain context and handle various disruptions. By applying this benchmark to 14 state-of-the-art LLMs, we find that while current models perform well in standard multi-turn settings, they often significantly struggle in ToolHaystack, highlighting critical gaps in their long-term robustness not revealed by previous tool benchmarks.

arxiv情報

著者 Beong-woo Kwak,Minju Kim,Dongha Lim,Hyungjoo Chae,Dongjin Kang,Sunghwan Kim,Dongil Yang,Jinyoung Yeo
発行日 2025-05-29 17:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク