Experiments with Detecting and Mitigating AI Deception

要約

欺瞞的な AI システムをどのように検出して軽減するかは、安全で信頼できる AI の分野にとって未解決の問題です。
欺瞞を軽減するための 2 つのアルゴリズムを分析します。1 つ目は、欺瞞を奨励するゲーム内のパスが削除される、パス固有の目標フレームワークに基づいています。
2 つ目はシールド、つまり安全でないポリシーを監視し、安全な参照ポリシーに置き換えることに基づいています。
2 つの単純なゲームを構築し、アルゴリズムを経験的に評価します。
どちらの方法でもエージェントが欺瞞的ではないことが保証されていますが、シールドする方がより高い報酬が得られる傾向があることがわかりました。

要約(オリジナル)

How to detect and mitigate deceptive AI systems is an open problem for the field of safe and trustworthy AI. We analyse two algorithms for mitigating deception: The first is based on the path-specific objectives framework where paths in the game that incentivise deception are removed. The second is based on shielding, i.e., monitoring for unsafe policies and replacing them with a safe reference policy. We construct two simple games and evaluate our algorithms empirically. We find that both methods ensure that our agent is not deceptive, however, shielding tends to achieve higher reward.

arxiv情報

著者 Ismail Sahbane,Francis Rhys Ward,C Henrik Åslund
発行日 2023-06-26 16:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク