要約
私たちは、未知の部分的に観測可能なシステムを制御することを目的として、潜在的に高次元の観測から状態表現を学習するタスクを研究します。
私たちは、直接潜在モデル学習アプローチを追求しています。このアプローチでは、観測値を再構成することなく、計画に直接関係する数量 (コストなど) を予測することによって、潜在状態空間内の動的モデルが学習されます。
特に、部分的に観測可能な最も基本的な制御問題の 1 つである線形 2 次ガウス (LQG) 制御を解決するための、直感的なコスト駆動型の状態表現学習方法に焦点を当てます。
私たちの主な結果として、直接学習された潜在モデルを使用して、最適に近い状態表現関数と最適に近いコントローラーを見つける有限サンプル保証を確立します。
私たちの知る限り、さまざまな経験的な成功にもかかわらず、この研究以前には、そのようなコスト主導の潜在モデル学習者が有限サンプル保証を享受できるかどうかは不明でした。
私たちの研究は、多段階コストを予測することの価値を強調しています。これは私たちの理論の鍵となるアイデアであり、特に状態表現を学習する上で経験的に価値があることが知られているアイデアでもあります。
要約(オリジナル)
We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations.
arxiv情報
著者 | Yi Tian,Kaiqing Zhang,Russ Tedrake,Suvrit Sra |
発行日 | 2024-03-13 17:44:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google