要約
生成モデルは、エージェントが経験する可能性があるか有利であると判断する状態または観察に対応するターゲットを提案するために計画に使用できます。
ただし、エージェントは、モデルによって提案された幻覚、実行不可能なターゲットと闘い、妄想的な計画行動につながり、安全性の懸念を引き起こす可能性があります。
人間の脳からインスピレーションを得て、アドオンターゲット評価者でこれらの幻覚ターゲットを拒否することを提案します。
ただし、適切なトレーニングがなければ、評価者は妄想的な見積もりを生み出し、無駄にします。
学習ルール、アーキテクチャ、および2つの新しい後知覚相手戦略の組み合わせを介してこれに対処することを提案します。これは、実行不可能なターゲットの正しい評価につながります。
私たちの実験では、私たちのアプローチが妄想行動を大幅に減らし、計画エージェントのパフォーマンスを向上させることを確認しています。
要約(オリジナル)
Generative models can be used in planning to propose targets corresponding to states or observations that agents deem either likely or advantageous to experience. However, agents can struggle with hallucinated, infeasible targets proposed by the models, leading to delusional planning behaviors, which raises safety concerns. Drawing inspiration from the human brain, we propose to reject these hallucinated targets with an add-on target evaluator. Without proper training, however, the evaluator can produce delusional estimates, rendering it futile. We propose to address this via a combination of learning rule, architecture, and two novel hindsight relabeling strategies, which leads to correct evaluations of infeasible targets. Our experiments confirm that our approach significantly reduces delusional behaviors and enhances the performance of planning agents.
arxiv情報
著者 | Mingde Zhao,Tristan Sylvain,Romain Laroche,Doina Precup,Yoshua Bengio |
発行日 | 2025-02-07 18:10:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google