要約
逆最適制御法を使用して、一連の意思決定タスクにおける動作を特徴付けることができます。
ただし、ほとんどの既存の作業では、制御信号を知る必要があるか、完全に観測可能なシステムまたは線形システムに制限されています。
この論文では、既存のアプローチを統合する、欠落した制御信号と部分的な可観測性を備えた確率的非線形システムの逆最適制御への確率論的アプローチを紹介します。
エージェントの感覚システムと制御システムのノイズ特性の明示的なモデルをローカル線形化手法と組み合わせて使用することにより、モデル パラメーターのおおよその尤度を導出します。これは、1 回のフォワード パス内で計算できます。
古典的な制御タスク、ナビゲーションタスク、および手動到達タスクの確率的で部分的に観測可能なバージョンで、提案された方法を評価します。
提案された方法は、模倣学習から感覚運動神経科学に至るまで、幅広い適用性があります。
要約(オリジナル)
Inverse optimal control methods can be used to characterize behavior in sequential decision-making tasks. Most existing work, however, requires the control signals to be known, or is limited to fully-observable or linear systems. This paper introduces a probabilistic approach to inverse optimal control for stochastic non-linear systems with missing control signals and partial observability that unifies existing approaches. By using an explicit model of the noise characteristics of the sensory and control systems of the agent in conjunction with local linearization techniques, we derive an approximate likelihood for the model parameters, which can be computed within a single forward pass. We evaluate our proposed method on stochastic and partially observable version of classic control tasks, a navigation task, and a manual reaching task. The proposed method has broad applicability, ranging from imitation learning to sensorimotor neuroscience.
arxiv情報
著者 | Dominik Straub,Matthias Schultheis,Heinz Koeppl,Constantin A. Rothkopf |
発行日 | 2023-03-29 13:51:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google