要約
ターゲット指向エージェントは、自己生成されたターゲットを利用して、より適切に一般化できるように行動をガイドします。
これらのエージェントは問題のあるターゲットを盲目的に追いかける傾向があり、その結果、より悪い一般化と安全上の大惨事が発生します。
私たちは、これらの行動が、トレーニングに関する不適切な設計に起因する妄想の結果である可能性があることを示します。エージェントは、特定のターゲットについて自然に誤った信念を抱くようになる可能性があります。
管理された環境における直観的な例を通じて妄想を特定し、その原因と緩和策を調査します。
これらの洞察を利用して、エージェントが先制的かつ自律的に妄想に対処できるようにする方法を示します。
妄想行動を修正し、分布外の一般化を改善する上で、提案された戦略の有効性を経験的に検証します。
要約(オリジナル)
Target-directed agents utilize self-generated targets, to guide their behaviors for better generalization. These agents are prone to blindly chasing problematic targets, resulting in worse generalization and safety catastrophes. We show that these behaviors can be results of delusions, stemming from improper designs around training: the agent may naturally come to hold false beliefs about certain targets. We identify delusions via intuitive examples in controlled environments, and investigate their causes and mitigations. With the insights, we demonstrate how we can make agents address delusions preemptively and autonomously. We validate empirically the effectiveness of the proposed strategies in correcting delusional behaviors and improving out-of-distribution generalization.
arxiv情報
著者 | Mingde Zhao,Tristan Sylvain,Doina Precup,Yoshua Bengio |
発行日 | 2024-11-18 17:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google