MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

要約

モデルコンテキストプロトコル(MCP)は、ユーザーと開発者に使いやすいエコシステムを導入するため、露出していない安全リスクももたらします。
クライアントとサーバーを分離する分散アーキテクチャは、体系的な安全分析に独自の課題をもたらします。
このペーパーでは、MCPの安全性を高めるための新しいフレームワークを提案しています。
Maestroフレームワークに導かれ、まずMCPの欠落安全メカニズムを分析し、この分析に基づいて、これらのギャップに対処するMCPの洗練されたバージョンであるモデルコンテキスト整合性プロトコル(MCIP)を提案します。
次に、MCPシナリオで観察される多様な危険な動作をキャプチャする細粒の分類法を開発します。
この分類法に基づいて、MCP相互作用内の安全リスクを特定するためのLLMSの能力の評価と改善をサポートするベンチマークとトレーニングデータを開発します。
提案されたベンチマークとトレーニングデータを活用して、最先端のLLMに関する広範な実験を実施します。
結果は、MCP相互作用のLLMSの脆弱性を強調し、私たちのアプローチが安全性能を大幅に改善することを示しています。

要約(オリジナル)

As Model Context Protocol (MCP) introduces an easy-to-use ecosystem for users and developers, it also brings underexplored safety risks. Its decentralized architecture, which separates clients and servers, poses unique challenges for systematic safety analysis. This paper proposes a novel framework to enhance MCP safety. Guided by the MAESTRO framework, we first analyze the missing safety mechanisms in MCP, and based on this analysis, we propose the Model Contextual Integrity Protocol (MCIP), a refined version of MCP that addresses these gaps. Next, we develop a fine-grained taxonomy that captures a diverse range of unsafe behaviors observed in MCP scenarios. Building on this taxonomy, we develop benchmark and training data that support the evaluation and improvement of LLMs’ capabilities in identifying safety risks within MCP interactions. Leveraging the proposed benchmark and training data, we conduct extensive experiments on state-of-the-art LLMs. The results highlight LLMs’ vulnerabilities in MCP interactions and demonstrate that our approach substantially improves their safety performance.

arxiv情報

著者 Huihao Jing,Haoran Li,Wenbin Hu,Qi Hu,Heli Xu,Tianshu Chu,Peizhao Hu,Yangqiu Song
発行日 2025-05-21 14:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク