要約
世界モデルを使用した補強学習(RL)は、最近の大幅な成功を発見しています。
ただし、世界の仕組みやプロパティの突然の変化が発生すると、エージェントのパフォーマンスと信頼性が劇的に低下する可能性があります。
視覚的特性の突然の変化または状態の移行を斬新と呼びます。
生成された世界モデルフレームワーク内でノベルティ検出を実装することは、展開時にエージェントを保護するための重要なタスクです。
この論文では、世界モデルの幻覚状態と真の観察された状態の不整合を異常スコアとして利用することにより、世界モデルRLエージェントに斬新な検出を組み込むための簡単な境界アプローチを提案します。
世界モデルのエージェントによって学習した遷移の分布におけるノベルティを検出するための効果的なアプローチを提供します。
最後に、従来の機械学習のノベルティ検出方法と、現在受け入れられているRL焦点の斬新な検出アルゴリズムと比較して、新しい環境での仕事の利点を示しています。
要約(オリジナル)
Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model’s hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.
arxiv情報
著者 | Geigh Zollicoffer,Kenneth Eaton,Jonathan Balloch,Julia Kim,Wei Zhou,Robert Wright,Mark O. Riedl |
発行日 | 2025-02-11 17:38:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google