Entropy-regularized Point-based Value Iteration

要約

部分的に観察可能な問題に対するモデルベースのプランナーは、計画中のモデルの不確実性と客観的な推論中の目標の不確実性の両方に対応する必要があります。
ただし、モデルベースのプランナーは、正確なモデルに依存し、単一の最適な動作に固執する傾向があるため、この種の不確実性の下では脆弱になる可能性があります。
モデルフリー設定での結果に触発されて、部分的に観察可能な問題に対するエントロピー正則化モデルベースのプランナーを提案します。
エントロピー正則化は、ポリシーが必要以上に 1 つのアクションにコミットしないように奨励することで、計画と客観的な推論に対するポリシーの堅牢性を促進します。
3 つの問題領域におけるエントロピー正則化ポリシーの堅牢性と客観的推論パフォーマンスを評価します。
私たちの結果は、エントロピー正規化ポリシーが、モデリングエラーの下でのより高い期待収益と客観的推論中のより高い精度の点で、非エントロピー正規化ベースラインよりも優れていることを示しています。

要約(オリジナル)

Model-based planners for partially observable problems must accommodate both model uncertainty during planning and goal uncertainty during objective inference. However, model-based planners may be brittle under these types of uncertainty because they rely on an exact model and tend to commit to a single optimal behavior. Inspired by results in the model-free setting, we propose an entropy-regularized model-based planner for partially observable problems. Entropy regularization promotes policy robustness for planning and objective inference by encouraging policies to be no more committed to a single action than necessary. We evaluate the robustness and objective inference performance of entropy-regularized policies in three problem domains. Our results show that entropy-regularized policies outperform non-entropy-regularized baselines in terms of higher expected returns under modeling errors and higher accuracy during objective inference.

arxiv情報

著者 Harrison Delecki,Marcell Vazquez-Chanlatte,Esen Yel,Kyle Wray,Tomer Arnon,Stefan Witwicki,Mykel J. Kochenderfer
発行日 2024-02-14 18:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク