SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems

要約

大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の進歩により、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントが可能になりました。
能力が高まっているにもかかわらず、今日のエージェントフレームワークは壊れやすいままであり、安全な情報の流れ、信頼性、およびマルチエージェント調整のための原則的なメカニズムがありません。
この作業では、信頼できるLLM/VLMベースのエージェントを構築するための新しいプロトコルレベルのフレームワークであるSafeflowを紹介します。
Safeflowは、エージェント、ツール、ユーザー、および環境間で交換されるすべてのデータの起源、完全性、および機密性を正確に追跡し、微調整された情報フロー制御(IFC)を実施します。
これらのセキュリティラベルを尊重するためにLLMの推論を制約することにより、Safeflowは、信頼できないまたは敵対的なインプットが高統合の決定を汚染することを防ぎます。
同時マルチエージェント設定の堅牢性を確保するために、Safeflowは、共有状態よりもトランザクション実行、競合解決、および安全なスケジューリングを導入し、エージェント間のグローバルな一貫性を維持します。
さらに、書き込みログ、ロールバック、安全なキャッシュなどのメカニズムを導入し、ランタイムエラーやポリシー違反に対する回復力をさらに高めます。
パフォーマンスを検証するために、敵対的、騒々しい、および同時運用条件の下でエージェントの信頼性を評価するために設計された包括的なベンチマークスイートであるSafeflowBenchを構築しました。
大規模な実験は、Safeflowで構築されたエージェントが、敵対的な環境でさえも印象的なタスクのパフォーマンスとセキュリティ保証を維持し、最先端を大幅に上回ることを示しています。
SafeflowとSafeflowbenchを合わせて、原則的で堅牢で安全なエージェントエコシステムの基礎を築き、信頼できる自律性のフロンティアを前進させます。

要約(オリジナル)

Recent advances in large language models (LLMs) and vision-language models (VLMs) have enabled powerful autonomous agents capable of complex reasoning and multi-modal tool use. Despite their growing capabilities, today’s agent frameworks remain fragile, lacking principled mechanisms for secure information flow, reliability, and multi-agent coordination. In this work, we introduce SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based agents. SAFEFLOW enforces fine-grained information flow control (IFC), precisely tracking provenance, integrity, and confidentiality of all the data exchanged between agents, tools, users, and environments. By constraining LLM reasoning to respect these security labels, SAFEFLOW prevents untrusted or adversarial inputs from contaminating high-integrity decisions. To ensure robustness in concurrent multi-agent settings, SAFEFLOW introduces transactional execution, conflict resolution, and secure scheduling over shared state, preserving global consistency across agents. We further introduce mechanisms, including write-ahead logging, rollback, and secure caches, that further enhance resilience against runtime errors and policy violations. To validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark suite designed to evaluate agent reliability under adversarial, noisy, and concurrent operational conditions. Extensive experiments demonstrate that agents built with SAFEFLOW maintain impressive task performance and security guarantees even in hostile environments, substantially outperforming state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for principled, robust, and secure agent ecosystems, advancing the frontier of reliable autonomy.

arxiv情報

著者 Peiran Li,Xinkai Zou,Zhuohang Wu,Ruifeng Li,Shuo Xing,Hanwen Zheng,Zhikai Hu,Yuping Wang,Haoxi Li,Qin Yuan,Yingmo Zhang,Zhengzhong Tu
発行日 2025-06-11 03:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク