Testing Language Model Agents Safely in the Wild

要約

実地での安全な自律性の前提条件は、実地での安全なテストです。
しかし、現実世界の自律テストは、テスト中に危害を引き起こす可能性と、現実世界の潜在的な悪意のあるアクターとのやり取りを通じてエージェントの新たな危険な動作に遭遇するリスクの両方により、いくつかの特有の安全性の課題に直面しています。
私たちは、オープンなインターネット上で安全な自律エージェント テストを実施するためのフレームワークを提案します。エージェントのアクションは、危険なテストを停止するために厳格な安全境界を強制するコンテキスト依存モニターによって監査され、疑わしい動作はランク付けされ、人間によって検査されるように記録されます。
私たちは、既存の LLM エージェントを監視するのに十分な柔軟性を備えた基本的な安全モニターを設計し、敵対的なシミュレートされたエージェントを使用して、危険な状況を特定して阻止するその能力を測定します。
次に、AutoGPT の一連の実世界テストに安全性モニターを適用し、自律エージェントの能力が向上するにつれて安全な実地テストを作成する際に直面するいくつかの制限と課題を特定します。

要約(オリジナル)

A prerequisite for safe autonomy-in-the-wild is safe testing-in-the-wild. Yet real-world autonomous tests face several unique safety challenges, both due to the possibility of causing harm during a test, as well as the risk of encountering new unsafe agent behavior through interactions with real-world and potentially malicious actors. We propose a framework for conducting safe autonomous agent tests on the open internet: agent actions are audited by a context-sensitive monitor that enforces a stringent safety boundary to stop an unsafe test, with suspect behavior ranked and logged to be examined by humans. We a design a basic safety monitor that is flexible enough to monitor existing LLM agents, and, using an adversarial simulated agent, we measure its ability to identify and stop unsafe situations. Then we apply the safety monitor on a battery of real-world tests of AutoGPT, and we identify several limitations and challenges that will face the creation of safe in-the-wild tests as autonomous agents grow more capable.

arxiv情報

著者 Silen Naihin,David Atkinson,Marc Green,Merwane Hamadi,Craig Swift,Douglas Schonholtz,Adam Tauman Kalai,David Bau
発行日 2023-11-17 14:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク