AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

要約

大規模な言語モデル(LLMS)は、実際のエージェントアプリケーションで高度な機能を実証しています。
成長する研究の取り組みは、LLMベースのエージェントを開発して実用的な要求に対処し、新しい課題を導入することを目的としています。エージェントシナリオには、多くの場合、拡張システムプロンプトや詳細なツール仕様などの複雑な制約を伴う長い指示が含まれます。
そのような指示の順守はエージェントアプリケーションにとって重要ですが、LLMが確実にそれらに従うことができるかどうかは、既知のままです。
この論文では、エージェントシナリオの能力に従ってLLM命令を体系的に評価するための最初のベンチマークであるAgeentifを紹介します。
agentifは、3つの重要な特性を備えています。(1)50の現実世界のエージェントアプリケーションから構築された現実的です。
(2)長い、平均1,723語で最大15,630語。
(3)複雑な、命令あたり平均11.9の制約、ツール仕様や条件の制約などの多様な制約タイプをカバーします。
AgeTERIFを構築するために、産業用アプリケーションエージェントとオープンソースエージェントシステムからの50のエージェントタスクにわたって707のヒトが感染した命令を収集します。
各命令について、コードベースの評価、LLMベースの評価、ハイブリッドコード-LLM評価など、関連する制約と対応する評価メトリックに注釈を付けます。
AgeTedifを使用して、既存の高度なLLMを体系的に評価します。
特に複雑な制約構造とツール仕様の処理において、現在のモデルは一般にパフォーマンスが低いことを観察します。
さらに、命令の長さとメタの制約に関するエラー分析と分析実験を行い、既存のLLMの障害モードに関するいくつかの調査結果を提供します。
将来の研究を促進するために、コードとデータをリリースしました。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated advanced capabilities in real-world agentic applications. Growing research efforts aim to develop LLM-based agents to address practical demands, introducing a new challenge: agentic scenarios often involve lengthy instructions with complex constraints, such as extended system prompts and detailed tool specifications. While adherence to such instructions is crucial for agentic applications, whether LLMs can reliably follow them remains underexplored. In this paper, we introduce AgentIF, the first benchmark for systematically evaluating LLM instruction following ability in agentic scenarios. AgentIF features three key characteristics: (1) Realistic, constructed from 50 real-world agentic applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words. (3) Complex, averaging 11.9 constraints per instruction, covering diverse constraint types, such as tool specifications and condition constraints. To construct AgentIF, we collect 707 human-annotated instructions across 50 agentic tasks from industrial application agents and open-source agentic systems. For each instruction, we annotate the associated constraints and corresponding evaluation metrics, including code-based evaluation, LLM-based evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically evaluate existing advanced LLMs. We observe that current models generally perform poorly, especially in handling complex constraint structures and tool specifications. We further conduct error analysis and analytical experiments on instruction length and meta constraints, providing some findings about the failure modes of existing LLMs. We have released the code and data to facilitate future research.

arxiv情報

著者 Yunjia Qi,Hao Peng,Xiaozhi Wang,Amy Xin,Youfeng Liu,Bin Xu,Lei Hou,Juanzi Li
発行日 2025-05-22 17:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク