要約
不慣れな環境では、モデルベースの強化学習エージェントはワールド モデルの精度によって制限される可能性があります。
この研究では、計画や学習とは別に、そのようなエージェントのパフォーマンスを向上させるための、トレーニング不要の新しいアプローチを紹介します。
これを行うには、意思決定時に反復推論を適用し、将来の状態表現の一貫性に基づいて推論されたエージェントの状態を微調整します。
私たちのアプローチは、ビジュアル 3D ナビゲーション タスクに適用すると、再構成の精度とタスクのパフォーマンスの両方で一貫した改善を達成します。
さらに将来の状態を考慮すると、部分的に観察可能な環境ではエージェントのパフォーマンスがさらに向上しますが、完全に観察可能な環境では向上しないことを示します。
最後に、事前評価のトレーニングが少ないエージェントが私たちのアプローチから最も恩恵を受けることを示します。
要約(オリジナル)
In an unfamiliar setting, a model-based reinforcement learning agent can be limited by the accuracy of its world model. In this work, we present a novel, training-free approach to improving the performance of such agents separately from planning and learning. We do so by applying iterative inference at decision-time, to fine-tune the inferred agent states based on the coherence of future state representations. Our approach achieves a consistent improvement in both reconstruction accuracy and task performance when applied to visual 3D navigation tasks. We go on to show that considering more future states further improves the performance of the agent in partially-observable environments, but not in a fully-observable one. Finally, we demonstrate that agents with less training pre-evaluation benefit most from our approach.
arxiv情報
著者 | Martin Benfeghoul,Umais Zahid,Qinghai Guo,Zafeirios Fountas |
発行日 | 2024-02-23 12:27:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google