Dual policy as self-model for planning

要約

プランニングはデータ効率の高い意思決定戦略であり、エージェントが将来起こり得る状態を探索して候補アクションを選択します。
高次元のアクション空間がある場合に将来の状態をシミュレートするには、人の意思決定戦略の知識を使用して、探索するアクションの数を制限する必要があります。
私たちは、人の意思決定をシミュレートするために使用されるモデルをエージェントの自己モデルと呼びます。
自己モデルは行動を計画するために世界モデルと組み合わせて暗黙的に広く使用されていますが、自己モデルをどのように設計すべきかは依然として不明です。
現在の強化学習アプローチと神経科学に触発され、蒸留されたポリシー ネットワークを自己モデルとして使用する利点と限界を調査します。
このようなデュアル ポリシー エージェントでは、モデルフリー ポリシーと抽出されたポリシーが、それぞれモデルフリー アクションと計画アクションに使用されます。
生態学的に関連性のあるパラメトリック環境に関する我々の結果は、自己モデルの蒸留されたポリシー ネットワークがトレーニングを安定させ、モデルフリーのポリシーを使用するよりも高速な推論を実現し、より良い探索を促進し、次のことを犠牲にして自身の行動の包括的な理解を学習できることを示しています。
モデルフリー ポリシーとは別に新しいネットワークを抽出します。

要約(オリジナル)

Planning is a data efficient decision-making strategy where an agent selects candidate actions by exploring possible future states. To simulate future states when there is a high-dimensional action space, the knowledge of one’s decision making strategy must be used to limit the number of actions to be explored. We refer to the model used to simulate one’s decisions as the agent’s self-model. While self-models are implicitly used widely in conjunction with world models to plan actions, it remains unclear how self-models should be designed. Inspired by current reinforcement learning approaches and neuroscience, we explore the benefits and limitations of using a distilled policy network as the self-model. In such dual-policy agents, a model-free policy and a distilled policy are used for model-free actions and planned actions, respectively. Our results on a ecologically relevant, parametric environment indicate that distilled policy network for self-model stabilizes training, has faster inference than using model-free policy, promotes better exploration, and could learn a comprehensive understanding of its own behaviors, at the cost of distilling a new network apart from the model-free policy.

arxiv情報

著者 Jaesung Yoo,Fernanda de la Torre,Robert Guangyu Yang
発行日 2023-06-07 13:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク