要約
言語エージェントがドメイン全体で重要なタスクを徐々に自動化するにつれて、運用上の制約と安全プロトコル内で動作する能力が不可欠になります。
広範な研究により、これらのエージェントのダウンストリームタスクの完了における有効性が実証されていますが、運用手順と制約に従うことでの信頼性は、ほとんど未開拓のままです。
この目的のために、言語エージェントの運用上の制約とルーチンへのコンプライアンスを評価するためのデュアルシステムフレームワークであるAgentorcaを提示します。
当社のフレームワークは、自然言語プロンプトの両方を介してアクションの制約とルーチンと、自動化された検証のための基本真理として機能する対応する実行可能可能性コードの両方をエンコードします。
5つの現実世界ドメインにわたるテストケースの生成と評価の自動パイプラインを通じて、現在の言語エージェントの運用上の制約への遵守を定量的に評価します。
私たちの調査結果は、最先端のモデル間の顕著なパフォーマンスギャップを明らかにしており、O1のような大きな推論モデルが優れたコンプライアンスを示し、特に複雑な制約やユーザー説得の試みに遭遇した場合、パフォーマンスが大幅に低いことを示しています。
要約(オリジナル)
As language agents progressively automate critical tasks across domains, their ability to operate within operational constraints and safety protocols becomes essential. While extensive research has demonstrated these agents’ effectiveness in downstream task completion, their reliability in following operational procedures and constraints remains largely unexplored. To this end, we present AgentOrca, a dual-system framework for evaluating language agents’ compliance with operational constraints and routines. Our framework encodes action constraints and routines through both natural language prompts for agents and corresponding executable code serving as ground truth for automated verification. Through an automated pipeline of test case generation and evaluation across five real-world domains, we quantitatively assess current language agents’ adherence to operational constraints. Our findings reveal notable performance gaps among state-of-the-art models, with large reasoning models like o1 demonstrating superior compliance while others show significantly lower performance, particularly when encountering complex constraints or user persuasion attempts.
arxiv情報
著者 | Zekun Li,Shinda Huang,Jiangtian Wang,Nathan Zhang,Antonis Antoniades,Wenyue Hua,Kaijie Zhu,Sirui Zeng,William Yang Wang,Xifeng Yan |
発行日 | 2025-03-11 17:53:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google