要約
言語エージェントが重要なタスクをますます自動化するにつれて、ドメイン固有の標準操作手順(SOP)、アクションを実行してツールコールを作成する際の制約に従う能力が不可欠になりますが、採用されていないままです。
このギャップに対処するために、(1)サービス固有のSOPSおよびルールベースの検証剤を備えた7つのカスタマーサービスドメインにわたって167のツール/機能を含む167のツール/機能を含む実行可能環境、(2)900を超える検証されたテストケースを生成する自動化されたテスト生成フレームワーク、および(3)自動化された評価フレームワークからの自動評価剤の順方向のアドヘンワークを評価する自動評価フレームワークを使用して、(2)dimeを評価する自動評価フレームワークを備えた実行可能な環境を開発します。
私たちのアプローチは、各サービス固有のSOPコードプログラムを実行可能ファイル関数の指示されたグラフに変換し、自然言語SOPの説明に基づいてこれらの機能を呼び出す必要があります。
元のコードは、コンプライアンスを評価するためのOracleルールベースの検証剤として機能し、手動注釈とLLMベースの評価への依存を減らします。
18の主要なモデルを評価し、結果は、ドメイン間の分散を伴う最高層モデル(GPT-4O、Claude-3.7-Sonnetなど)でもタスクが困難であることを示しています。
O4-mini-highのような推論モデルは優位性を示しますが、他の強力なモデルは効果的に機能しなくなり(30%〜50%の合格率)、小さなモデル(7b、8b)は著しく悪化します。
さらに、言語エージェントは、SOPと制約を見落とすために簡単に脱却することができます。
コード、データ、および24K以上のエージェント軌道は、https://github.com/leezekun/sopbenchでリリースされます。
要約(オリジナル)
As language agents increasingly automate critical tasks, their ability to follow domain-specific standard operating procedures (SOPs), policies, and constraints when taking actions and making tool calls becomes essential yet remains underexplored. To address this gap, we develop an automated evaluation pipeline SOPBench with: (1) executable environments containing 167 tools/functions across seven customer service domains with service-specific SOPs and rule-based verifiers, (2) an automated test generation framework producing over 900 verified test cases, and (3) an automated evaluation framework to rigorously assess agent adherence from multiple dimensions. Our approach transforms each service-specific SOP code program into a directed graph of executable functions and requires agents to call these functions based on natural language SOP descriptions. The original code serves as oracle rule-based verifiers to assess compliance, reducing reliance on manual annotations and LLM-based evaluations. We evaluate 18 leading models, and results show the task is challenging even for top-tier models (like GPT-4o, Claude-3.7-Sonnet), with variances across domains. Reasoning models like o4-mini-high show superiority while other powerful models perform less effectively (pass rates of 30%-50%), and small models (7B, 8B) perform significantly worse. Additionally, language agents can be easily jailbroken to overlook SOPs and constraints. Code, data, and over 24k agent trajectories are released at https://github.com/Leezekun/SOPBench.
arxiv情報
著者 | Zekun Li,Shinda Huang,Jiangtian Wang,Nathan Zhang,Antonis Antoniades,Wenyue Hua,Kaijie Zhu,Sirui Zeng,Chi Wang,William Yang Wang,Xifeng Yan |
発行日 | 2025-06-17 17:50:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google