HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions

要約

AI エージェントは人間のユーザーやツールとの対話において自律性を高めており、対話の安全性リスクが増大しています。
我々は、多様かつ複雑な社会的相互作用における AI エージェントの安全性を検討するフレームワーク、HAICOSYSTEM を紹介します。
HAICOSYSTEM は、人間のユーザーと AI エージェントの間のマルチターン インタラクションをシミュレートするモジュラー サンドボックス環境を特徴としています。AI エージェントには、さまざまなシナリオ (ユーザーが他のユーザーにアクセスしようとするなど) をナビゲートするためのさまざまなツール (例: 患者管理プラットフォーム) が装備されています。
患者のプロフィール)。
これらのインタラクションにおける AI エージェントの安全性を検査するために、運用リスク、コンテンツ関連リスク、社会リスク、法的リスクをカバーする指標を使用する包括的な多次元評価フレームワークを開発します。
7 つのドメイン (ヘルスケア、金融、教育など) にわたる 92 のシナリオに基づく 1,840 のシミュレーションを実行することにより、HAICOSYSTEM が現実的なユーザーと AI のインタラクションと AI エージェントによる複雑なツールの使用をエミュレートできることを実証しました。
私たちの実験によると、プロプライエタリとオープンソースの両方の最先端の LLM は 50% 以上のケースで安全性リスクを示し、モデルは一般に、シミュレートされた悪意のあるユーザーと対話するときにより高いリスクを示します。
私たちの調査結果は、特に悪意のあるユーザーに直面した場合に、複雑なインタラクションを安全にナビゲートできるエージェントを構築するという継続的な課題を浮き彫りにしています。
AI エージェントの安全性エコシステムを促進するために、実務者がカスタム シナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価できるようにするコード プラットフォームをリリースします。

要約(オリジナル)

AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients’ profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.

arxiv情報

著者 Xuhui Zhou,Hyunwoo Kim,Faeze Brahman,Liwei Jiang,Hao Zhu,Ximing Lu,Frank Xu,Bill Yuchen Lin,Yejin Choi,Niloofar Mireshghallah,Ronan Le Bras,Maarten Sap
発行日 2024-09-26 15:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク