OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs

要約

ロールベースのアクセス制御(RBAC)と階層構造は、事実上すべての組織内で情報の流れと決定がどのように行われるかについて基本的です。
大規模な言語モデル(LLM)が統一された知識リポジトリとして機能し、エンタープライズ設定のインテリジェントアシスタントとして機能する可能性がますます明らかになります。
実際の企業データとアクセス制御ポリシーの性質。
さまざまな組織の役割とレベルで一般的に関連する40の異なるタイプのアクセス許可で構成される合成でありながら代表的な\ textBf {orgaccess}ベンチマークを紹介します。
さらに、40,000のEasy(1許可)、10,000培地(3容量のタプル)、および20,000のハード(5節のタプル)の3つのタイプのアクセス許可を作成し、これらの許可を正確に評価し、特定の階層的ルールに厳密に付着する応答を生成するLLMSの能力をテストします。
私たちの調査結果は、最先端のLLMでさえ、2つ以上の競合する権限を含む相互作用をナビゲートするときに、明示的な指示を伴う役割ベースの構造へのコンプライアンスを維持するのに大いに苦労していることを明らかにしています。
具体的には、vet \ textbf {gpt-4.1は、最も硬いベンチマークで0.27のF1スコアのみを達成します}。
これは、LLMSの複雑な規則における標準的な事実上のベンチマークまたはSTEMベースのベンチマークを超えた構成の推論機能における重要な制限を示しており、実用的で構造化された環境への適合性を評価するための新しいパラダイムを開きます。

要約(オリジナル)

Role-based access control (RBAC) and hierarchical structures are foundational to how information flows and decisions are made within virtually all organizations. As the potential of Large Language Models (LLMs) to serve as unified knowledge repositories and intelligent assistants in enterprise settings becomes increasingly apparent, a critical, yet under explored, challenge emerges: \textit{can these models reliably understand and operate within the complex, often nuanced, constraints imposed by organizational hierarchies and associated permissions?} Evaluating this crucial capability is inherently difficult due to the proprietary and sensitive nature of real-world corporate data and access control policies. We introduce a synthetic yet representative \textbf{OrgAccess} benchmark consisting of 40 distinct types of permissions commonly relevant across different organizational roles and levels. We further create three types of permissions: 40,000 easy (1 permission), 10,000 medium (3-permissions tuple), and 20,000 hard (5-permissions tuple) to test LLMs’ ability to accurately assess these permissions and generate responses that strictly adhere to the specified hierarchical rules, particularly in scenarios involving users with overlapping or conflicting permissions. Our findings reveal that even state-of-the-art LLMs struggle significantly to maintain compliance with role-based structures, even with explicit instructions, with their performance degrades further when navigating interactions involving two or more conflicting permissions. Specifically, even \textbf{GPT-4.1 only achieves an F1-Score of 0.27 on our hardest benchmark}. This demonstrates a critical limitation in LLMs’ complex rule following and compositional reasoning capabilities beyond standard factual or STEM-based benchmarks, opening up a new paradigm for evaluating their fitness for practical, structured environments.

arxiv情報

著者 Debdeep Sanyal,Umakanta Maharana,Yash Sinha,Hong Ming Tan,Shirish Karande,Mohan Kankanhalli,Murari Mandal
発行日 2025-06-17 16:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク